Lo scorso 22 novembre l'Autorità Garante per il trattamento ha promosso un’indagine conoscitiva sulle misure di sicurezza adottate dai siti internet contro l’utilizzo indiscriminato dei dati pubblicati per l’addestramento delle intelligenze artificiali. Siti internet pubblici e privati dovranno adottare misure di prevenzione per evitare la raccolta massiva ed indiscriminata dei dati (il cosiddetto webscraping indiscriminato), ma prima di procedere con altre iniziative finalizzate ad impedire la pratica, il Garante ha giustamente avviato un’indagine conoscitiva. La questione riguarda anche le aziende friulane e non solo i colossi della rete, perché ormai moltissime realtà del territorio operano con il commercio elettronico.

L’indagine conoscitiva mette a nudo il “nodo” del training: i dati non sono in rete per il addestrare l’Ai

Il comunicato stampa dell’Autorità Garante per il trattamento dei dati personali parla chiaro: “L’indagine conoscitiva riguarda tutti i soggetti pubblici e privati, operanti quali titolari del trattamento, stabiliti in Italia o che offrono in Italia servizi, che mettono a disposizione on-line dati personali liberamente accessibili anche dagli “spider” dei produttori di algoritmi di intelligenza artificiale. È nota, infatti, l’attività di diverse piattaforme di IA, le quali attraverso il webscraping raccolgono, per differenti usi, enormi quantità di dati anche personali pubblicati per specifiche finalità (cronaca, trasparenza amministrativa ecc.) all’interno di siti internet gestiti da soggetti pubblici e privati”. Il tema è il seguente: i contenuti che vengono messi in rete sono pubblicati per finalità determinate; tra queste non rientra l’addestramento dele intelligenze artificiali. Se una rivista pubblica un articolo, lo fa per informazione o per divulgazione; se una pubblica amministrazione immette dati nel proprio sito internet, lo fa per la fruizione dei servizi ai cittadini o per gli obblighi imposti dalla legge (ad esempio l’amministrazione trasparente). In nessun caso un contenuto – con i relativi dati – viene pubblicato per effettuare il training delle intelligenze artificiali.

Le implicazioni per gli utenti e per le aziende

Lato utente, la questione rileva per l’esercizio del diritto all’oblio: un dato – ad esempio di cronaca giudiziaria – inserito in una farm di Ai può, potenzialmente, rimanere indefinitamente nei server delle big tech. Non solo: chi utilizza un sito internet vetrina, mettendo i propri dati in rete, potrebbe vederli utilizzati per addestrare le intelligenze artificiali. Sotto il profilo aziendale, invece si pone un problema di compliance con il GDPR, ossia il regolamento europeo che dal 2018 regola la cosiddetta privacy: se i siti internet non sono adeguatamente protetti, si rischia la violazione degli articoli 25 e 32 del Regolamento, per non aver adottato misure idonee a tutelare gli interessati. Un’azienda che opera in un contesto poco “sensibile” avrà obblighi minori, ma le pubbliche amministrazioni ed i siti che trattano notizie di cronaca dovranno attrezzarsi in fretta, se non lo hanno già fatto. L’esempio arriva dal New York Times che, ancora una volta, è capofila nelle scelte innovative in tema di editoria: l’annuncio di aver iniziato ad implementare misure anti-Ai arriva direttamente da oltreoceano. Secondo Matteo Greatti, CEO di GFTech SRL ed esperto di cybersecurity, le prima misura da poter implementare consiste nel filtraggio di tutto il traffico in arrivo da siti di Ai verso il proprio sito, con tecnologie come reverse proxy o similari. Per Manuel Cacitti, CEO di Karmasec SRL, l’iniziativa del Garante è comunque da lodare, perché dimostra consapevolezza dei meccanismi utilizzati dalle big tech del web.

Cosa fare?

Per prima cosa è necessario verificare quali dati l’azienda tratta online. In secondo luogo, è necessario verificare cosa sia liberamente accessibile e quali dati siano, invece, intrinsecamente protetti (come nel caso dei “carrelli” dell’ecommerce). Verificare se vi siano foto di soggetti “privati” è un altro dei check necessari: le foto potrebbero essere impiegate anche esse per il training delle AI. Potrebbe essere necessario verificare l’adeguatezza delle policies del sito internet, anche con riferimento alle condizioni generali di utilizzo del sito stesso. Da ultimo, ma solo in ordine di esposizione, un check operativo con un IT manager o con un esperto di sicurezza informatica potrebbe essere necessario.