domenica 7 aprile 2024

LA SCORCIATOIA Nello Cristianini


LA SCORCIATOIA 

Nello Cristianini

Recensione 

Nel libro "La scorciatoia. Come le macchine sono diventate intelligenti senza pensare in modo umano"  Nello Cristianini ci spiega lo stato dell’arte circa gli sviluppi dell’Intelligenza Artificiale nell’ambito della computazione linguistica e, in particolar modo, dei sistemi automatici di raccomandazione. Nel libro si dimostra che l'aver superato le nostre concezioni antropocentriche di intelligenza ha permesso di progettare  macchine che sarebbero “diventate intelligenti senza pensare in modo umano”, generando una sbalorditiva capacità di trarre beneficio da correlazioni e da parametri di valutazione che derivano, almeno in parte, dalle loro stesse elaborazioni. Ciò che ci propone Cristianini è una sintesi privilegiata di quelle che sono state le principali tappe grazie alle quali i ricercatori hanno scoperto come progettare sistemi intelligenti senza più “tentare di risolvere un problema generale come l’intelligenza o il linguaggio". Il libro condensa in circa duecento pagine ciò che di essenziale c’è da sapere intorno alle logiche di funzionamento delle tecnologie comunemente adottate dalle piattaforme per filtrare e selezionare informazioni e contenuti

LA SCORCIATOIA

 1. Alla ricerca dell’intelligenza

Dimostrare intelligenza non significa assomigliare agli esseri umani, ma essere capaci di comportarsi in modo eff icace in situazioni nuove. Questa capacità non richiede un cervello: la possiamo trovare anche in piante, colonie di formiche e software. Agenti diversi possono esibire questa capacità in ambiti e misure diverse: non c’è un singolo modo di essere intelligenti, né una formula segreta o un solo test per misurarlo. È fuorviante attribuire qualità umane a tutti gli agenti intelligenti, e quando riflettiamo sulle intelligenze che incontriamo nei nostri browser è più utile compararle alle erbe o alle lumache del giardino che a noi stessi. Nel 1972 e nel 1973 la NASA lanciò nello spazio due sonde Pioneer destinate, al termine della loro missione, a lasciare il Sistema solare. Assieme a vari strumenti scientifici, queste portavano un «messaggio dall’umanità» indirizzato a qualsiasi forma di intelligenza aliena dovessero incontrare, preparato dall’astronomo Carl Sagan. Era una placca di metallo con il disegno di due esseri umani, una mappa del Sistema solare e il diagramma di un atomo di idrogeno, assieme ad altri simboli come una mappa di 14 pulsar. L’idea alla base del messaggio era che avrebbe dovuto permettere a un’intelligenza aliena di identificare le sue origini e i suoi autori, anche se fino a oggi non abbiamo ricevuto alcuna risposta.

Tempo dopo, Sagan – che da anni propugnava la ricerca di intelligenze extraterrestri – tenne una lezione alla Royal Institution di Londra, in cui presentò il suo ultimo contributo in quella direzione. La nuova idea non richiedeva che gli alieni si avvicinassero fisicamente a un artefatto terrestre, solo che ricevessero un segnale radio: una particolare sequenza di 313 bit, la quale – una volta formattata come un cubo di dimensioni 31×31×31 – rappresentava l’immagine stilizzata di una molecola di formaldeide. A sua volta questa avrebbe dovuto suggerire agli alieni di sintonizzarsi sulla frequenza radio specifica di quella molecola. La sua spiegazione era che qualsiasi alieno, dovunque esso sia, deve essersi evoluto nello stesso universo ed essere soggetto alle stesse leggi fisiche a cui siamo soggetti noi, e quindi deve essere in grado di comprendere questi concetti.

Per verificare questo assunto Sagan diede il messaggio a quattro dei suoi studenti del dottorato in fisica, senza ulteriori istruzioni, e questi riuscirono a decodificarlo, almeno in parte.

In nome della riproducibilità, ho provato recentemente a ripetere quell’esperimento mostrando sia la placca sia la sequenza alla mia gatta, che non solo si è evoluta nel mio stesso universo ma anche condivide con me gran parte della sua storia evolutiva, ed è perfino cresciuta nella stessa casa in cui vivo. Al momento in cui scrivo sono ancora in attesa di risposta.

Eppure la stessa gatta è perfettamente in grado di imparare, ragionare, fare piani e perfino comunicare con altri gatti e persone. Lei sa quello che vuole e sa trovare il modo di ottenerlo, e se necessario riesce a ingannare non solo un cane o un gatto, ma anche me.

Forse il piano di Sagan aveva qualche falla?

Immaginare l’intelligenza

Come sappiamo se qualcosa è intelligente? Se i messaggi di Sagan oggi raggiungessero quasi ogni punto della Terra, o se avessero raggiunto qualsiasi luogo per il 99% della storia terrestre, non avrebbero trovato nessuno interessato a essi. Eppure l’intelligenza esisteva su questo pianeta molto prima che apparissero i primi esseri umani o che questi pronunciassero la prima parola: i predatori cacciavano in branco, gli uccelli scappavano dai predatori, i topi ingannavano gli uccelli per rubarne le uova, e così via. Perfino le colonie di formiche prendevano decisioni complesse e ben informate sul posto ideale in cui costruire un nuovo nido. Non sono forse queste espressioni di intelligenza?

Questa domanda è importante, poiché se non sappiamo quello che stiamo cercando potremmo non riconoscerlo quando lo vediamo. Una delle principali sfide nel pensare ad altre forme di intelligenza è proprio quella di immaginare qualcosa di fondamentalmente diverso da noi.

Carl Sagan non era l’unico a considerare questa domanda da una prospettiva antropocentrica: quando alcuni pionieri dell’Intelligenza Artificiale decisero di esemplificare i propri obiettivi in un prototipo, crearono un programma chiamato Logic Theorist, che era un algoritmo per dimostrare teoremi. Questo gruppo, che includeva il premio Nobel Herbert Simon, sviluppò anche il General Problem Solver, presentandolo come una forma di «intelligenza generale», in grado di manipolare simboli per ragionare formalmente, procedendo da assiomi a teoremi (entrambi i progetti erano ispirati dall’importante libro di matematica How to solve it, scritto da George Polya). Il messaggio era chiaro: dietro ogni espressione di intelligenza c’è uno stesso elusivo ingrediente, che prescinde dal dominio in cui viene applicato e riguarda in qualche modo la capacità di ragionare formalmente su dei simboli. I nomi di quei prototipi la dicono lunga.


Fortunatamente quelli non erano i soli tentativi di «catturare» la nozione di intelligenza, ma illustrano bene una delle difficoltà di questo programma scientifico e tecnico: come dei matematici possono considerare la matematica il pinnacolo dell’intelligenza, così gli esseri umani tendono a considerare l’«umanità» allo stesso modo. Il confine tra comportamento intelligente e «non intelligente» è stato spesso tracciato in modo da separare gli esseri umani dagli altri animali, tipicamente coinvolgendo l’uso del linguaggio o di strumenti, o la capacità di avere empatia o di fare piani complessi. Ancora oggi molti test di intelligenza umana non sarebbero adeguati per altri animali, perché si basano sul riconoscimento di relazioni visive e la manipolazione del linguaggio. Lo stesso vale per le macchine: il test di Turing, che è rimasto per decenni l’unica definizione operativa di intelligenza, richiede che un computer inganni un giudice umano e gli faccia credere che sta conversando con una persona.


Questa inclinazione antropocentrica nel modo in cui immaginiamo l’intelligenza ci rende più difficile immaginare e studiare intelligenze «aliene». Con questo non intendo extraterrestri, quanto semplicemente qualsiasi cosa che sia «altra» rispetto a noi. Che dire di calamari, piante o formicai? E delle macchine? In questo libro li consideriamo come forme di «intelligenza aliena». L’empatia con l’alieno è difficile, se non impossibile, tuttavia è questo sforzo che ci permette di non imporre le nostre aspettative su tipi molto diversi di sistemi intelligenti. Uno dei problemi più difficili nel futuro dell’Intelligenza Artificiale riguarderà proprio la possibilità che le nostre macchine possano sapere cose che noi non possiamo comprendere.


Definire l’intelligenza

Per semplicità, definiremo l’intelligenza in termini di comportamento di un agente, ovvero di qualsiasi sistema in grado di agire nel suo ambiente, usando informazioni sensoriali per prendere decisioni. Ci interesseremo in particolare agli agenti autonomi, ovvero agenti che prendono decisioni internamente senza essere controllati, e agli ambienti che possono essere almeno in parte influenzati dalle azioni dell’agente.


Immaginiamo una lumaca, timida e affamata, che è appena nata nel giardino e deve decidere da che parte andare. Possiamo considerare il suo comportamento come il modo in cui questa risponde agli stimoli dell’ambiente: questo include riflessi involontari, reazioni apprese e – per animali superiori – anche azioni calcolate. Queste risposte implicano qualche forma di anticipazione, come quando un coniglio inizia a correre alla vista di una volpe, o la volpe inizia a salivare alla vista del coniglio. Chiamiamo apprendimento qualsiasi modificazione del comportamento dovuta all’esperienza.


Definiremo informalmente l’intelligenza di tali agenti come «l’abilità di comportarsi in modo efficace in situazioni nuove», una definizione riscoperta molte volte in ambiti diversi: per esempio in economia gli agenti razionali sono quelli che cercano di massimizzare la propria utilità, e nella cibernetica si studiano agenti capaci di comportamento «teleologico», ovvero inteso a conseguire un obiettivo. Nel 1991 l’ingegnere americano James Albus definì l’intelligenza come «la capacità di un sistema di agire in modo appropriato in un ambiente incerto, dove le azioni appropriate sono quelle che aumentano le probabilità di successo»: una definizione talmente semplice che la usiamo ancora oggi.


L’importante è non partire dal presupposto che esista una singola qualità che rende gli agenti intelligenti, così come probabilmente non ce n’è una soltanto che rende gli atleti «in buona forma». Agenti diversi che operano in ambienti diversi potrebbero sviluppare trucchi diversi per comportarsi in modo appropriato quando si trovano in situazioni impreviste. Infatti, è più facile immaginare che l’evoluzione abbia prodotto una serie di trucchi assortiti, ciascuno dei quali aggiunge qualche capacità, anche nello stesso organismo.


Certo non abbiamo bisogno di presupporre che l’agente abbia un cervello, un linguaggio o una coscienza. Dobbiamo tuttavia ipotizzare che l’agente abbia degli obiettivi, in modo tale da poter definire come «efficaci» o «appropriate» quelle azioni che aumentano le sue possibilità di raggiungerli. L’idea di comportamento teso a un obiettivo è la base della cibernetica, che fu il primo tentativo di sviluppare una teoria unificata degli agenti intelligenti.


Per esempio, nel gioco degli scacchi l’ambiente è rappresentato sia dalle regole sia dall’avversario, che risponde alle mosse dell’agente, mentre lo scopo dell’agente è vincere la partita imponendo uno scacco matto. Nella biologia evoluzionistica si presume che lo scopo ultimo di ciascun organismo sia la sopravvivenza dei suoi geni.


Un comportamento di questo tipo è chiamato «teleologico» nella filosofia della scienza, dalla parola greca telos, che Aristotele usò per definire lo scopo ultimo o la direzione spontanea di moto di un’entità. Un agente che si muove consistentemente in una «direzione» specifica, qualunque essa sia, può essere considerato teleologico. Mentre in biologia questa ha a che fare con sopravvivenza e riproduzione, in altri domini gli obiettivi ultimi possono variare, per esempio incrementare il punteggio in un videogioco o il profitto nel caso di un negozio online.


Va notato che una conseguenza di questa definizione è che ogni agente ha bisogno di un «corpo», ovvero di un modo di interagire con l’ambiente, e non ha molto senso considerare un’intelligenza separata da esso (con buona pace di Cartesio). Comunque non è necessario che né il corpo né l’ambiente siano fisici, come vedremo per esempio nel caso di agenti digitali che operano nel Web. Il corpo è qualsiasi cosa che consenta all’agente di influenzare l’ambiente, ed esserne influenzato.


L’interazione tra obiettivo e ambiente dell’agente è così stretta, e i confini tra i due così sfumati, che spesso parliamo di «ambiente/compito» (task-environment) per combinare i due. Per esempio, «trovare molecole di glucosio in una piastra di Petri» o «vendere libri a clienti online» sono entrambi obiettivi da raggiungere entro specifici ambienti, che dettano le regole fondamentali, rispettivamente per un batterio e un algoritmo. Per un essere umano, ottenere un punteggio alto nel gioco di Pac-Man è un esempio della combinazione di obiettivo e ambiente. Spesso parleremo semplicemente di «ambiente», presupponendo che gli obiettivi siano fissati e chiari, mentre gli ambienti possono variare e quindi vanno specificati. Essere efficace in una varietà di ambienti è ciò che rende un agente «robusto», o «generale», o – per l’appunto – «intelligente». Per un dato agente, la gamma degli ambienti «praticabili» può variare in molte dimensioni: un uccello potrebbe cercare cibo nello stesso giardino in giorni diversi, o in stagioni diverse, o in giardini diversi, o addirittura in due continenti diversi. E a ogni cambio di ambiente, potrebbe avere bisogno di competenze interamente diverse.


Per alcuni filosofi l’intelligenza richiede la capacità di risolvere versioni diverse di uno stesso «rompicapo» naturale, per altri invece è necessario essere capaci di imparare tipi diversi di «rompicapo», ma in realtà c’è uno spettro continuo tra queste due definizioni. A noi basterà notare che gli agenti intelligenti possono esibire robustezza a cambiamenti di ambiente e situazione: un agente più specializzato potrà comportarsi bene in una quantità di situazioni più simili tra loro, un agente più generale riuscirà a gestire situazioni e ambienti più diversi. Il primo può essere considerato più uno «specialista», il secondo più un «generalista», ma è sempre una questione di grado.


Un mondo regolare

Stiamo assumendo implicitamente che sia possibile comportarsi razionalmente in un dato ambiente, tuttavia questo non è scontato.


Consideriamo un uccello impegnato ad aumentare il proprio livello di glucosio nel sangue, scegliendo con cura quali bacche mangiare. Questa è un’opportunità per fare buon uso di tutte le informazioni sensoriali disponibili e di tutte le esperienze avute in precedenza, in modo tale da poter prendere le migliori decisioni possibili: sono proprio queste le situazioni che permettono di selezionare, e quindi far evolvere, qualche forma di intelligenza.


Ogni comportamento di questo tipo è basato su molti presupposti impliciti: che le bacche di aspetto simile abbiano anche simile gusto e valore nutritivo, che l’uccello possa percepire le differenze di colore e forma che sono correlate con il valore nutritivo, e anche che abbia la capacità di agire di conseguenza, ovvero di eseguire le azioni che ha deciso di compiere. Se il contenuto di zuccheri della bacca fosse completamente indipendente dal suo aspetto, o se l’uccello non potesse distinguerne i colori, o non avesse la destrezza necessaria a scegliere quali bacche mangiare, non ci sarebbe alcun beneficio nell’essere «intelligente», né ci sarebbe alcuna pressione evolutiva a raffinare quelle abilità.


Un comportamento proteso al raggiungimento di obiettivi ha senso solo in un ambiente che è, almeno in parte, controllabile e osservabile, ovvero «in cui azioni appropriate aumentano le possibilità di successo», per usare ancora le parole di James Albus.


Solo in un ambiente regolare un agente può anticipare il futuro e l’esito delle proprie azioni, e solo in tale ambiente ha senso conoscere la risposta «corretta» a ogni situazione, una conoscenza che possiamo immaginare come una tabella che elenca stimoli e risposte, e che può essere sia innata che appresa con l’esperienza e l’esplorazione.


Un assunto ancora più forte alla base di ogni apprendimento e generalizzazione è che azioni simili risultino in conseguenze simili. È questo tipo di regolarità che permette a un agente di affrontare una varietà infinita di situazioni con conoscenze finite, incluse anche situazioni mai viste e talvolta anche ambienti totalmente nuovi.


Queste condizioni non possono esistere in un ambiente completamente arbitrario, o casuale, così il minimo che dobbiamo presupporre è che un agente intelligente esista in un mondo regolare. Anche deboli regolarità statistiche possono essere sufficienti per conferire qualche vantaggio all’agente, e imparare tali regolarità dall’esperienza è uno dei modi in cui si produce un comportamento intelligente. Scoprire e sfruttare l’ordine nel mondo è un requisito per il comportamento teleologico, come discuteremo nel capitolo 3.


L’evoluzione funziona partendo implicitamente dall’assunto che l’ambiente sia regolare, per poi postulare qualche regolarità specifica. Dati due batteri che vivono nella stessa pozza d’acqua, anche una piccola differenza nel modo in cui sfruttano segnali ambientali può tradursi in tempi di riproduzione più rapidi, e quindi in una differenza esponenziale nelle dimensioni della popolazione dei suoi discendenti. Gli organismi che osserviamo in natura sono quelli che implicitamente contengono le migliori supposizioni sulle specifiche regolarità che sono presenti nel loro ambiente.


La cassetta degli attrezzi

L’evoluzione naturale è pragmatica: purché un comportamento conduca l’agente verso il proprio obiettivo, non fa differenza come questo comportamento venga generato.


Se l’intelligenza è solo «la capacità di perseguire i propri obiettivi in una varietà di situazioni diverse, tra cui anche situazioni mai sperimentate prima», non c’è ragione di aspettarci che scopriremo una singola elusiva qualità, e possiamo sentirci liberi di analizzare sistemi intelligenti considerando solo il loro comportamento, concentrandoci su qualsiasi «trucco» questi impieghino per dirigersi verso i propri obiettivi e nei propri ambienti. Non dovremmo sorprenderci, dunque, se scopriamo che comportamenti simili in specie diverse sono ottenuti mediante meccanismi interamente differenti: piuttosto che una singola qualità che possiamo chiamare «intelligenza», dietro il comportamento intelligente dovremmo aspettarci di trovare una varietà di espedienti o «trucchi». Alcuni di questi, comunque, sono così utili e distinti da meritarsi un proprio nome: riflessi, pianificazione, ragionamenti, apprendimento, e così via.


Come già accennato, un modo utile, sia pure idealizzato, di pensare al comportamento di un agente è immaginare una tabella contenente ogni possibile situazione o stimolo e l’azione da prendere in risposta, anche se questo abbinamento in realtà è realizzato da un meccanismo e può cambiare nel tempo. Questo concetto ci permette di immaginare i riflessi come coppie stimolo-risposta e l’apprendimento come un cambiamento in queste connessioni dovuto all’esperienza.


Il modo in cui questa tabella è realizzata in pratica può variare: per esempio, per ogni dato stimolo, un agente software può valutare tutte le possibili risposte in base all’utilità calcolata per ciascuna, e scegliere la più promettente, in modo che il programmatore non debba enumerare tutti i possibili input e tutti i corrispondenti output in anticipo. Questa tecnica potrebbe essere descritta come una semplice forma di ragionamento o pianificazione, e può includere anche un modello dell’ambiente: immaginiamo un agente che raccomanda libri di possibile interesse a ciascun cliente in base a una descrizione approssimata del libro e del cliente. Un batterio invece sceglierà le proprie risposte all’ambiente in modo interamente diverso, ovvero mediante una catena di reazioni chimiche.


Il problema di come un agente biologico (in questo caso, dotato di cervello) possa prendere queste decisioni è l’argomento di un libro influente con un sottotitolo memorabile. Scritto nel 1949 da Donald Hebb, il fondatore della neuropsicologia, questo libro si intitola: L’organizzazione del comportamento, con il sottotitolo: Stimolo e risposta, e cosa succede nel cervello nell’intervallo tra i due momenti. Quello che avviene tra quei momenti è proprio quello che rende la psicologia e l’Intelligenza Artificiale così interessanti: riflessi, pianificazione, ragionamento, apprendimento, sono tutte parti di un vasto repertorio di espedienti che aiutano un agente a perseguire i propri obiettivi in un ambiente complesso e variabile. Interagendo insieme questi contribuiscono a rendere il suo comportamento «intelligente».


Vedremo nel capitolo 3 come talvolta si possano fare delle previsioni sulla base di relazioni che scopriamo tra i dati delle esperienze passate. Tali relazioni possono includere – per agenti che vendono libri online – la segmentazione dei clienti e dei prodotti in «tipi» che si comportano in modo simile, un’astrazione che permette di generalizzare e comprimere l’esperienza. Comprimere grandi tavole di comportamento in semplici formule, o meccanismi, è un metodo standard usato dagli agenti software per imparare, evitando così l’enumerazione esauriente di tutte le possibili situazioni.


Che siano basate su relazioni statistiche, o su percorsi neuronali, o su reazioni chimiche, le decisioni prese da agenti intelligenti non richiedono coscienza, né linguaggio, né un apprezzamento estetico delle arti o delle scienze. Noi esseri umani abbiamo certamente tutte queste cose, ma sembra che siamo l’eccezione piuttosto che la regola.


Intelligenze aliene

Carl Sagan non fu il solo a immaginare l’intelligenza in termini antropocentrici: proprio mentre metteva in guardia contro questo «rischio» nel 1948, Alan Turing – il pioniere dell’Intelligenza Artificiale – cadde nello stesso errore.


In un rapporto intitolato Macchinari intelligenti, che non pubblicò mai, Turing propose «di investigare la domanda se sia possibile che una macchina esibisca comportamento intelligente», e suggerì che l’attribuzione di intelligenza sia solo un giudizio soggettivo: in altre parole, potremmo essere tentati di attribuire uno stesso comportamento all’«intelligenza» quando eseguito da una persona e non quando eseguito da una macchina. Per illustrare questa idea, Turing descrisse un test ipotetico in cui un giudice umano gioca a scacchi sia contro un algoritmo sia contro una persona, trovando difficile decidere quale sia la persona. Pochi anni dopo questo stesso schema fornì la base per il famoso «test di Turing», pubblicato nel 1950, in cui cambiò solo il tipo di gioco usato per l’interazione: nella versione del 1950 gli scacchi furono rimpiazzati da una conversazione.


A dire il vero, Turing non disse che essere indistinguibile da un essere umano sia una condizione necessaria per l’intelligenza, solo che sarebbe sufficiente. Tuttavia, usando gli esseri umani come il paragone dell’intelligenza, non sembrò prendere in considerazione le molte altre forme di intelligenza che esistono su questo pianeta, e in questo potrebbe avere fuorviato molti dei ricercatori che lo seguirono. Pochi anni dopo, il pioniere dell’informatica John McCarthy coniò l’espressione «Intelligenza Artificiale» nella proposta di finanziamento scritta per un convegno tenutosi nel 1956, in cui la definì come «far comportare le macchine in modi che sarebbero chiamati intelligenti se un umano dovesse comportarsi allo stesso modo».


Tra i molti miti che hanno confuso la discussione sulle macchine intelligenti, uno è particolarmente insidioso: che gli umani siano dotati di una sorta di intelligenza universale, così che non ci siano abilità mentali in natura – e forse nemmeno in teoria – al di là delle nostre. Questo si accompagna spesso al mito di una presunta superiorità del cervello umano in confronto a qualsiasi altro prodotto dell’evoluzione


Eppure non c’è ragione di credere che alcuno di questi miti sia vero. Le nostre abilità mentali sono meravigliose, ed è facile trovare compiti che solo noi possiamo completare: basti pensare a uno qualsiasi dei tanti test per valutare il quoziente intellettivo che abbiamo inventato. È anche ugualmente facile trovare dei compiti che noi non possiamo completare mentre altri agenti possono farlo. In altre parole, non siamo i migliori in ogni compito cognitivo. La nostra mente è limitata da un insieme di presupposizioni sul nostro ambiente, che ci rendono piuttosto specializzati: pensiamo in termini di oggetti, agenti, geometria elementare e causalità intuitiva. Dateci un compito che violi questi assunti, e vedrete dei veri incompetenti: che fare se le cause di un fenomeno semplicemente non esistono, o sono remote, indirette e distribuite? Facciamo ancora fatica a comprendere il mondo subnucleare, dove gli oggetti sono sostituiti da onde e non hanno una posizione definita, e dove tutte le nostre metafore macroscopiche cessano di essere valide. Non possiamo leggere il codice a barre sul retro di questo libro, o qualsiasi codice QR, e non possiamo riconoscere una varietà di relazioni nei dati, e nemmeno eseguire calcoli che richiedano troppa «memoria di lavoro». Eppure tutti questi compiti cognitivi sono eseguiti normalmente dalle macchine. Vediamo anche dei primati che eseguono compiti di memoria visiva meglio di noi, e altri animali che hanno riflessi più veloci, sensi più affinati, memorie più capaci, ma ogni volta liquidiamo quegli esempi definendoli «non vera intelligenza».


Un’intelligenza «aliena» è interamente diversa dalla nostra, come quelle delle sopracitate colonie di formiche, delle macchine o degli animali degli abissi, e quindi potremmo essere tentati di ignorarla.


Per esempio: come pensa un calamaro? Sembra che alcune delle sue decisioni siano prese autonomamente dai suoi tentacoli, mentre si sa che altre sono prese centralmente, e sembra che cambiare colore per mimetizzarsi con l’ambiente o per segnalare un’emozione sia un comportamento importante. Come possiamo metterci in relazione con quell’alieno, il cui ultimo antenato in comune con noi risale a quasi 700 milioni di anni fa? Eppure quelle creature sono probabilmente il candidato migliore per mettere alla prova le nostre teorie sull’intelligenza aliena, e una delle prime domande che viene in mente è: se gli esseri umani non sono il paragone di tutte le intelligenze, e ancor meno il loro pinnacolo, potrebbe esserci qualche altra forma di intelligenza «superiore» alla nostra?


Questa domanda implica una quantità unidimensionale, come l’altezza o il peso, che possa essere usata per comparare due agenti intelligenti, chiedendo quale dei due abbia il valore più alto. Le capacità che includiamo nel termine generico di «intelligenza» sembrano invece avere dimensioni diverse e sembra più ragionevole aspettarci che agenti diversi siano migliori in alcuni compiti e peggiori in altri.


Questa fallacia porta alcuni a immaginare l’esistenza di una «intelligenza generale», spesso intesa come una capacità «universale». Ci sono due problemi con questa idea: il primo è che l’intelligenza ha molte dimensioni, come abbiamo osservato notando che l’atleta ha diversi modi di essere «in forma», così che una misura universale di «forma» potrebbe non esistere. Il secondo è che essere generale – o robusto – è parte della definizione stessa dell’agente intelligente, dato che chiediamo che il suo comportamento sia efficace in condizioni diverse.


Possiamo trovare molte intelligenze che sono «sovrumane» (superiori a quella umana) per vari compiti specifici, sia tra gli animali che tra le macchine, ma potremmo non essere capaci di trovarne una che sia «sovrumana» in ogni compito. Ci sono agenti software che possono «battere» qualsiasi umano in una serie di giochi da tavolo, e videogiochi, e un giorno potremmo veder aumentare la lista dei compiti in cui eccellono. Potrebbero anche diventare migliori di noi in quasi tutti i compiti che consideriamo importanti, eppure questo non li renderebbe ancora «universali», anche se a quel punto dovremmo cominciare a preoccuparci.


Nell’abbandonare una visione antropocentrica dell’intelligenza, non dovremmo aspettarci cose come senzienza o autocoscienza, l’emergenza di un linguaggio delle macchine che sia traducibile nel nostro, e tratti emotivi come l’invidia e la paura che possano influenzare la nostra relazione con questi agenti. Tutte queste sono solo proiezioni della nostra incapacità di immaginare intelligenze veramente aliene. È più probabile che incontriamo completa indifferenza o una «ribellione prometeica» in una lumaca del giardino o nel filtro antispam?


Queste aspettative hanno le stesse radici di quelle vecchie raffigurazioni dell’evoluzione naturale come una scala, con girini da un lato ed esseri umani dall’altro, che implicano che noi siamo la destinazione naturale dei processi evolutivi. Così come noi siamo il pinnacolo dell’evoluzione, il linguaggio e l’arte non sono il pinnacolo dell’intelligenza.


Quello che dovremmo aspettarci dai nostri artefatti intelligenti è piuttosto un perseguimento continuo di semplici obiettivi, indifferente a qualsiasi conseguenza per noi, magari facilitato da una capacità di imparare e migliorare con l’esperienza, anche adattandosi a possibili contromisure. Questo, per esempio, è ciò che può fare un agente incaricato di aumentare l’uso di un servizio online, proponendo agli utenti i contenuti che li inducano a cliccare di più. Chiamiamo questi sistemi – preposti a raccomandare contenuti – «agenti di raccomandazione» e li useremo come esempio di agenti autonomi perché sono familiari a tutti. Non ha senso cercare di avere una conversazione con loro, perché dopo tutto sono solo dei dispositivi autonomi, anche se complessi, senza alcun omuncolo al loro interno.


Alla fine dei conti, un algoritmo è solo una ricetta. Se non comprendiamo questo, e continuiamo a immaginarci gli alieni di Carl Sagan o i computer senzienti di Stanley Kubrick, non saremo in grado di sviluppare gli anticorpi culturali di cui avremo bisogno per coesistere con le nostre creature.


Un passo copernicano

E allora, che cos’è l’intelligenza? Forse non troveremo mai una demarcazione tra agenti intelligenti e non-intelligenti che soddisfi tutti, e forse non ci serve, almeno non con urgenza. Probabilmente la nostra comprensione di quel concetto maturerà mentre continuiamo a costruire macchine che esibiscono diverse forme di intelligenza.


Una cosa mi sembra certa: gli astuti messaggi di Carl Sagan destinati a intelligenze extraterrestri non sarebbero compresi dai molti agenti intelligenti di questo pianeta, tranne uno. Invece che cercare nelle profondità dello spazio, Sagan avrebbe fatto meglio a cercare in giardino: lumache che costantemente insidiano il vaso del basilico, non importa dove lo mettiamo, piante che competono per un po’ di sole, e colonie di formiche che combinano le informazioni di migliaia di individui per prendere decisioni collettive su dove prendere il cibo o costruire il nido. È questo il tipo di intelligenza che più rassomiglia a ciò che stiamo costruendo oggi con l’Intelligenza Artificiale e che siamo chiamati a regolamentare per legge. Sarebbe inutile cercare di regolamentare una forma più alta di senzienza che in realtà non esiste.


Quasi tutte le cose viventi esibiscono qualche forma di comportamento autonomo e teleologico, prendendo una serie costante di decisioni, sulla base dei loro obiettivi innati e di informazioni sensoriali. Hanno un controllo limitato del proprio ambiente, ma sufficiente a trarre beneficio da queste decisioni, e talvolta anche da piani, ragionamenti e apprendimento.


Sono abbastanza sicuro che l’universo sia pieno di entità intelligenti, nessuna delle quali ha alcun interesse nella poesia o nei numeri primi, mentre tutte sfruttano le regolarità che trovano nel proprio ambiente per poter perseguire i propri obiettivi meglio che possono. Riconoscere questo come comportamento intelligente comporta rinunciare all’illusione che noi, gli esseri umani, siamo il paragone di tutte le cose intelligenti, un’illusione che sta ostacolando la nostra comprensione del mondo. Dovremmo invocare di nuovo il vecchio principio copernicano, secondo cui la nostra impressione di avere un posto speciale nell’universo è solo un effetto della prospettiva, come è stato già in cosmologia e in biologia.

Quel passo avrebbe la conseguenza di liberare il nostro pensiero, non solo permettendoci di riconoscere le intelligenze che incontriamo nel nostro browser ogni volta che usiamo un sistema di raccomandazione, ma anche di calibrare meglio quello che possiamo aspettarci da queste nostre creature. Questo passo, più di qualsiasi altro, sarà essenziale per imparare a coesistere con loro.

2.

La scorciatoia

Dopo avere cercato per anni di scoprire l’elusiva qualità che rende le cose intelligenti per implementarla nelle loro macchine, i ricercatori si sono accontentati di studiare i comportamenti intesi a perseguire uno scopo e di generarli con vari metodi. Questo ha prodotto una classe di agenti autonomi che possono apprendere e comportarsi in modo appropriato in una varietà di situazioni nuove, sfruttando relazioni statistiche nel proprio ambiente, eliminando il bisogno di regole di condotta esplicite, ma introducendo la necessità di grandi quantità di dati da cui imparare. Il nuovo paradigma, che si basa sull’apprendimento automatico, porta con sé nuove aspettative, nuovi strumenti e nuovi esempi da imitare. I sistemi di raccomandazione oggi rappresentano l’Intelligenza Artificiale meglio dei dimostratori di teoremi. La nuova scienza delle macchine intelligenti parla la lingua della probabilità e dell’ottimizzazione matematica, non più quella della logica e del ragionamento formale.


«Ogni volta che licenzio un linguista»

«Tutte le volte che licenzio un linguista la performance del nostro sistema migliora». Nel 1988 Frederick Jelinek e il suo gruppo avevano risolto abbastanza problemi aperti, nei campi della traduzione automatica e trascrizione del linguaggio parlato, da potersi togliere qualche soddisfazione in pubblico.


Formatosi come ricercatore in teoria dell’informazione, dagli anni Settanta aveva perseguito un approccio radicale all’analisi del linguaggio naturale, concentrandosi su due problemi all’apparenza diversi, ma che condividevano lo stesso ostacolo tecnico: a causa di varie fonti di ambiguità, sia il riconoscimento del parlato sia la traduzione automatica generano una grande quantità di possibili soluzioni, la maggioranza delle quali non hanno alcun senso e possono facilmente essere ignorate da un essere umano. Il problema è spiegare a una macchina quali messaggi non hanno senso, in modo da tenere solo i pochi risultati plausibili.


Immaginiamo che il nostro algoritmo di riconoscimento del parlato abbia prodotto sotto dettatura una serie di possibili trascrizioni, quasi tutte formate più o meno come segue:


La un gatta bianchi avrà chiamando sono per mia la


Anche con una conoscenza rudimentale dell’italiano possiamo subito classificare questa sequenza di parole come «malformata», e su insistenza potremmo anche trovare delle ragioni convincenti: tanto per cominciare, gli articoli non possono seguire altri articoli, gli aggettivi devono coordinarsi con i relativi nomi in numero e genere, e questo vale anche per i pronomi, mentre dai verbi ci aspettiamo concordanza di tempo, modo e numero.


Questa era la strada presa dalla maggioranza dei primi ricercatori: usare regole grammaticali per definire quali frasi siano trascrizioni o traduzioni plausibili. Il problema era che le regole non sembravano mai abbastanza e ogni regola spesso ne richiedeva un’altra. Con le eccezioni che si accumulavano le grammatiche diventavano sempre più grandi e i risultati rimanevano deboli.


Questa era la situazione che Frederick Jelinek trovò nel 1972 entrando a far parte del Continuous Speech Recognition Group della IBM a Yorktown Heights, NY, con l’incarico di risolvere proprio questo problema. Il suo approccio fu di non costruire sul lavoro degli altri incrementalmente, quanto di ricominciare da zero.


Avendo studiato l’elegante teoria dell’informazione di Claude Shannon, la sua specialità era la ricostruzione di messaggi che erano stati corrotti da «rumore» lungo il percorso (ovvero nel canale di comunicazione). Jelinek sapeva bene che anche un’elementare analisi statistica poteva rivelare quando un messaggio era stato corrotto, come anche aiutare a «ripararlo». Ciò è possibile perché ogni linguaggio ha delle regolarità statistiche molto stabili: la probabilità di certe transizioni di lettere rimane costante anche se cambiamo autore e argomento, così come quella che a certe parole o frasi ne seguano altre. Quante frasi hanno quattro verbi di fila e in quanti modi potete completare la frase «chi non risica non…»?


Usando queste regolarità statistiche, Jelinek sviluppò una misura approssimata di quanto probabile sia vedere una data frase (anche mai vista prima) in situazioni «naturali». Anche se necessariamente molto semplificata, questa misura era sufficiente a eliminare automaticamente quelle potenziali traduzioni, trascrizioni o completamenti di frasi che non erano formulati in un inglese «valido», identificando così i candidati migliori, e questo in molti casi si rivelò sufficiente.


Per chiarire l’idea, consideriamo un esempio più semplice: il correttore ortografico o suggeritore automatico di frasi che troviamo in tutti i nostri dispositivi digitali. Dato un testo corrotto da errori di battitura, è possibile correggere gli errori semplicemente sostituendo le parole che non sono mai state viste prima (potenziali errori) con delle parole simili che sono allo stesso tempo molto frequenti, o che sono frequenti in un contesto simile. Questo approccio non conosce la grammatica né comprende l’argomento del testo: tutto ciò di cui ha bisogno sono informazioni statistiche di tipo generale che possono essere ottenute analizzando un grande corpus di documenti. Tali raccolte di dati contengono almeno decine di migliaia di documenti e milioni di parole.


A parte l’elenco di tutte le parole incontrate e la loro frequenza, spesso è necessario anche stimare la probabilità di tutte le coppie e triplette di parole, se si vuole usare il contesto per suggerire una parola. Questo comporta stimare milioni di parametri. L’idea di eliminare la grammatica e sostituirla con centinaia di migliaia di parametri andava controcorrente e richiedeva coraggio, ma era questa la sostanza dell’intuizione di Jelinek. E poi lui era abituato a fare le cose a modo suo: immigrato dalla Cecoslovacchia negli Stati Uniti da bambino dopo la Seconda guerra mondiale, i suoi genitori volevano che diventasse avvocato, invece finì per studiare teoria dell’informazione e sposare una regista dissidente di Praga.


Quelle regolarità statistiche del linguaggio si sono dimostrate sufficienti non solo per proporre trascrizioni e traduzioni plausibili, ma anche correzioni di parole digitate male o completamenti di una frase incompleta. Questi segnali sono così generali che un programmatore può usare lo stesso metodo anche per linguaggi che non comprende, dall’albanese allo zulu.


Un intoppo in questo metodo è che queste informazioni statistiche sono rappresentate da enormi tabelle, che in teoria dovrebbero elencare le probabilità di ogni parola, paio e triplette di parole che potremmo aspettarci di trovare in un documento: l’apprendimento della macchina equivale alla creazione di questa tabella a partire da milioni di documenti. D’altra parte, non è a questo che servono i computer?


Alla fine degli anni Ottanta, i sistemi di Jelinek erano diventati i primi a produrre trascrizioni accettabili del parlato, così come traduzioni automatiche, e in entrambi i casi gli algoritmi non avevano la più pallida idea del significato delle parole che stavano manipolando.


L’intera operazione era statistica in natura, e rimpiazzò il vecchio bisogno di creare modelli dettagliati del linguaggio naturale con quello nuovo di trovare grandi quantità di dati per addestrare le macchine. Inoltre, quell’idea non si fermava solo alla manipolazione del linguaggio: questo scambio tra regole e dati prefigurava sviluppi in arrivo anche in altre aree dell’Intelligenza Artificiale, dove possiamo sostituire la comprensione teorica con relazioni statistiche e possiamo ottenere queste ultime da grandi quantità di dati.


Quando possiamo indovinare la parola successiva in una frase, non è poi così diverso indovinare il prossimo articolo che un cliente aggiungerà al carrello della spesa. E quando possiamo fare questo, anche indovinare il prossimo film che qualcuno vorrà guardare non è più impensabile. L’idea è sempre la stessa: analizzare campioni di comportamento umano per poter fare previsioni statistiche in campi in cui non esiste alcuna teoria.


C’è qualche garanzia che le previsioni saranno corrette? Certo che no. Per usare una frase che sarebbe diventata popolare anni dopo tra i teorici dell’apprendimento automatico, le previsioni saranno solo «probabilmente approssimativamente corrette» nel migliore dei casi. Tuttavia questo è tutto ciò che ci serve in molti casi pratici. E questa considerazione è essenziale per lo sviluppo seguente dell’intero campo dell’Intelligenza Artificiale. Giunti agli anni Novanta, l’idea radicale di Frederick Jelinek avrebbe cambiato non solo il modo in cui processiamo il linguaggio naturale, ma anche quello che ci aspettiamo dai nostri agenti intelligenti. Quello era solo l’inizio.


Intelligenza Artificiale «vecchia maniera»

«Questo studio procederà sulla base della congettura che ogni aspetto dell’apprendimento od ogni altra caratteristica dell’intelligenza può in principio essere descritta così precisamente che può essere simulata da una macchina».


John McCarthy era stanco di «operare sotto una falsa bandiera», ovvero di finanziare la sua ricerca sottoforma di teoria dell’informazione o teoria degli automi, quando nel 1956 decise di chiamare le cose con il nome che voleva, coniando appunto l’espressione «Intelligenza Artificiale». Il primo documento a contenerla era la proposta di finanziamento per un evento che sarebbe divenuto leggendario: la conferenza di Dartmouth del 1956, ovvero il raduno di quasi tutti i ricercatori nel nuovissimo campo dell’intelligenza delle macchine. Quel documento esprime anche il tenet fondamentale di quei primi giorni, ovvero la convinzione che sia possibile descrivere tutti gli aspetti dell’intelligenza con tale precisione da poterli implementare in una macchina.


Questa non era una convinzione irragionevole: dopo tutto se vogliamo calcolare la traiettoria di un proiettile dobbiamo prima comprendere la meccanica, e se vogliamo progettare l’ala di un aeroplano dobbiamo comprendere l’aerodinamica. È così che l’ingegneria lavora tradizionalmente e questo è anche il motivo per cui si erano reclutati dei linguisti per la progettazione dei computer destinati a manipolare il linguaggio: perché aiutassero con la produzione di regole grammaticali.


Per quanto attraente, questo approccio ebbe tuttavia l’effetto di mettere in risalto quanto poco sappiamo in realtà di fenomeni apparentemente semplici come la visione e il linguaggio: le nostre macchine erano capaci di dimostrare i teoremi molto prima che fossero capaci di riconoscere un gatto.


Questo problema divenne chiaro negli anni Ottanta, quando la competizione con il Giappone stimolò grandi investimenti in Europa e Stati Uniti in quelli che furono chiamati «sistemi informatici di quinta generazione». Questi erano essenzialmente sistemi di Intelligenza Artificiale progettati per ragionare esplicitamente su una «base di conoscenze» con regole di inferenza logica. Il loro nome commerciale era «Sistemi Esperti» e ne furono creati per diversi domini: chimica, medicina, campi petroliferi. Le conoscenze specialistiche relative a questi domini erano rappresentate in forma esplicita e comprensibile alle persone, e poi manipolate usando i metodi della logica.


Il grande evangelista dei Sistemi Esperti negli Stati Uniti era Ed Feigenbaum, celebre informatico che ripeteva come le macchine intelligenti non possano operare nel mondo reale senza una grande quantità di conoscenze – scritte in forma dichiarativa – da usare per i loro ragionamenti logici e le decisioni, sia che debbano manipolare il linguaggio, controllare un robot o interpretare delle immagini. Feigenbaum chiamò questa visione dell’Intelligenza Artificiale «il paradigma basato sulla conoscenza», altri lo chiamarono «Intelligenza Artificiale simbolica», il filosofo John Haugeland nel 1985 lo chiamò semplicemente «Intelligenza Artificiale vecchia maniera» (Good Old Fashioned AI) e il nome attecchì.


Giunti alla metà degli anni Ottanta, i Sistemi Esperti comparivano ovunque ed erano considerati sinonimi con l’intera disciplina dell’Intelligenza Artificiale: l’attività principale in questo settore consisteva nel rappresentare problemi pratici in modo che calzassero con questo «schema», sviluppando «basi di conoscenze» che contenevano definizioni e descrizioni esplicite del dominio di applicazione, ma anche euristiche per combinare e manipolare quelle conoscenze. Per avere un’idea di questo metodo, immaginiamo di elencare centinaia di enunciati come: «il vino contiene alcol» o «l’alcol può essere dannoso alla salute», chiedendo poi al computer di trarne le ovvie conseguenze.


Le aspettative erano alte, trainate da investimenti pubblici, attenzione dei media e promesse grandiose. Furono sviluppati anche alcuni tipi di hardware dedicati ad accelerare le computazioni dei Sistemi Esperti, come per esempio le Lisp Machines, che ebbero grande successo in quegli anni.


Nei titoli dei giornali di quei tempi troviamo annunci ottimistici come «Il computer umano sta arrivando» e «Le macchine intelligenti diventano più intelligenti», e i documenti della Strategic Computing Initiative negli Stati Uniti elencano, tra gli obiettivi del progetto, la creazione di sistemi informatici che possono «ascoltare, parlare e pensare come un essere umano». In un articolo apparso nel 1984 sul «New York Times» si legge invece:


Una corsa internazionale per la supremazia informatica è in atto […] un computer radicalmente nuovo di quinta generazione, o intelligenza artificiale, dotato di qualche capacità di ragionamento, sarebbe incredibilmente semplice da usare per la persona media e risolverebbe un’intera gamma di problemi.


L’euforia e gli investimenti si alimentavano a vicenda, contribuendo a dare a questa idea la migliore opportunità di successo che si potesse sperare. Purtroppo la maggior parte delle promesse non furono mantenute, soprattutto a causa di ostacoli tecnici.


Nel caso della traduzione o trascrizione del parlato, ovvero gli stessi compiti affrontati da Jelinek in quel periodo con tecniche radicalmente diverse, questo approccio «guidato dalle conoscenze» richiedeva algoritmi per l’analisi grammaticale e morfologica, regole grammaticali, dizionari, tutto scritto a mano in forma di regole esplicite, e queste non parevano essere mai abbastanza. Per molti esperti la soluzione ovvia era quella di aggiungere altri linguisti.


Lo stesso problema appariva in tutte le altre aree in cui questo tipo di sistema veniva applicato al mondo reale, e una nuova figura professionale fu proposta: ingegnere della conoscenza, ovvero uno specialista in grado di produrre le regole necessarie al funzionamento della macchina. Mentre i ricercatori scoprivano quanto incerto e ambiguo sia veramente il mondo reale, la loro reazione era quella di produrre regole sempre più complesse e con sempre più eccezioni. Alla fine, i Sistemi Esperti si rivelarono troppo delicati per l’ambiguità del mondo reale, e troppo costosi da mantenere: in molti campi di applicazione sembra proprio che non esistano teorie chiare.


Dopo anni di entusiasmo e generosi finanziamenti, in quel periodo le conferenze del settore raggiunsero le dimensioni massime: con ricercatori affiancati da giornalisti, reclutatori e venditori. Era un periodo di ottimismo e gli anni d’oro dell’IA simbolica e dei Sistemi Esperti durarono quasi per tutti gli anni Ottanta. La marea raggiunse il punto più alto nel 1987, e nel caso della conferenza IJCAI 87 che si tenne a Milano, non è solo una metafora, dato che la rottura di un tubo vi causò un allagamento e la sospensione dei lavori.


Il primo segno che qualcosa stava cambiando fu il collasso del mercato delle Lisp Machines. Da lì in poi gli investimenti iniziarono una rapida discesa, a causa delle limitazioni pratiche di quei sistemi fragili e costosi, che infine non riuscirono a tenere il passo con il clamore e le promesse che li avevano preceduti.


Nel marzo del 1988 un articolo apparso sempre sul «New York Times» con il titolo Battuta d’arresto per l’Intelligenza Artificiale descriveva un rapido cambiamento nell’umore di investitori e mercati, e lo spiegava in termini di promesse non mantenute: «la battuta d’arresto nasce dal fatto che l’IA non ha mantenuto la sua promessa di creare macchine che comprendono l’inglese, riconoscono oggetti o ragionano come un esperto umano».


In quello stesso anno l’enorme investimento, pubblico e privato, nell’IA simbolica aveva iniziato a scomparire, lasciandosi dietro anche alcune storie di successo, nessuna tuttavia all’altezza delle grandiose promesse degli anni precedenti. Questo era l’inizio di una fase di rallentamento e riflessione in questo giovane campo di ricerca, ed era anche lo stesso anno in cui si tenne il Workshop on the Evaluation of Natural Language Processing Systems al Wayne Hotel in Wayne, Pennsylvania, dove Jelinek pubblicò la descrizione del primo sistema di traduzione interamente statistico.


Il passare delle stagioni

Il campo dell’Intelligenza Artificiale ha visto vari cicli di espansione e contrazione, alcuni piccoli e altri grandi, in cui a un periodo di aspettative esagerate è seguito uno di investimenti ridotti. Questa volatilità non è inusuale nelle nuove tecnologie, ma l’IA sembra esserci particolarmente abituata, accogliendo i suoi periodi meno attivi come una parte inevitabile della vita e perfino chiamandoli «inverni»[1].


I periodi «invernali» possono essere salutari, sia perché vi è una minore attenzione da parte dei media sia perché è più difficile cedere alla tentazione di promettere troppo, rendendo l’intero settore meno attraente per gli inevitabili opportunisti, e creando un mercato per nuove idee teoriche che possono svilupparsi in un ambiente con pochi finanziamenti.


Il secondo inverno, iniziato alla fine degli anni Ottanta, fece spazio a idee che stavano covando da anni in nicchie specialistiche, tra cui anche i metodi statistici per il riconoscimento di relazioni nei dati (pattern recognition) e i primi lavori sulle reti neurali. Questi metodi più matematici e meno ambiziosi venivano sviluppati per applicazioni industriali, senza la pretesa di rispondere a domande generali sull’intelligenza: il riconoscimento delle immagini di cifre manoscritte, il reperimento di documenti da database industriali, l’analisi di transazioni commerciali, e così via. Il lavoro di Jelinek sulla traduzione è un esempio di come i metodi statistici venivano usati in settori specifici.


È importante osservare che questi anni videro anche un rinnovato interesse accademico nell’idea stessa di apprendimento automatico (machine learning), che partì da comunità scientifiche distinte e continuò a svilupparsi separatamente per alcuni anni. In quel periodo furono scoperti nuovi metodi per addestrare le reti neurali, inizialmente proposte come modelli del sistema nervoso; e per creare alberi di decisione, strumenti molto utilizzati in statistica. Questo lavoro includeva anche metodi per imparare regole logiche dagli esempi, un tentativo di risolvere la fondamentale limitazione dei sistemi esperti, ovvero la necessità di avere «basi di conoscenze» su cui ragionare. Questi e altri campi iniziarono a fondersi verso la metà degli anni Novanta, sviluppando teorie e anche pratiche sperimentali comuni, per emergere verso la fine del decennio come una singola disciplina basata sulla statistica e la teoria dell’ottimizzazione, dedicata alla misurazione rigorosa delle prestazioni.


Verso la fine degli anni Novanta, mentre il lungo inverno dei finanziamenti volgeva al termine e i sistemi esperti erano ormai solo una memoria lontana, si era formata una nuova generazione di ricercatori con un arsenale completamente nuovo: uno che consentiva loro di estrarre complesse relazioni da grandi quantità di dati e misurarne rigorosamente il potere predittivo. Questi ricercatori posero le basi per la lingua franca dell’IA moderna: un linguaggio matematico creato combinando discipline diverse, e in grado di dare un nome ai molti modi in cui una macchina può fallire nel suo tentativo di imparare dagli esempi. Quella terminologia si trova ancora oggi in articoli e brevetti, anche al di fuori delle scienze informatiche.


Per esempio: le entità o le situazioni su cui un agente intelligente è chiamato a prendere una decisione o fare una previsione sono descritte da proprietà (features), annotate da etichette (labels), divise in dati di addestramento e dati di valutazione (training e testing data), il prodotto dell’apprendimento è chiamato «ipotesi» e il nemico dichiarato è l’insidioso fenomeno dell’overfitting (che ritroveremo nel cap. 3). Questi concetti, e le relative teorie, risalgono ai giorni della grande convergenza che risultò nel moderno campo del machine learning.


Questa convergenza giunse esattamente al momento giusto, perché quegli stessi anni videro anche la formazione del World Wide Web, lanciato nel 1994, che avrebbe trasformato completamente la ricerca dell’Intelligenza Artificiale. Un matrimonio era inevitabile.


Resa dei conti a Seattle

«Carissimo Amabot, grazie tante. Se tu solo avessi un cuore per assorbire il nostro odio. Vecchio arnese scassato, la splendida confusione della carne e del sangue vincerà».


Nel 1999, quando apparve questa inserzione anonima sul «Seattle Weekly», la tensione era alta ad Amazon tra il gruppo redazionale e quello incaricato della automazione e personalizzazione (Editorial Team e Automation and Personalization Team). Per tutti quelli nell’azienda il significato era chiaro: si riferiva ad «Amabot», il programma-bot che stava prendendo il posto dei redattori umani per popolare automaticamente le pagine del sito, quelle che fungevano da vetrine per il nuovo negozio digitale. E la tensione stava già covando da qualche tempo.


Verso la fine degli anni Novanta, Amazon stava cominciando la sua spettacolare avventura, trasformandosi da un’operazione solo americana a essere «il più grande negozio di libri sulla Terra». Nella sua prima incarnazione (fino al 1997 o 1998), Amazon si era affidata a un gruppo di redattori di grande talento, formato da qualche dozzina di persone, per generare recensioni di qualità, con l’ambizione di avere uno stile letterario che chiamavano «la voce di Amazon», apertamente ispirato alla «New York Review of Books». Questo approccio tuttavia faticava a tenere il passo con la rapida crescita dell’azienda: un ex redattore racconta di periodi in cui recensiva 15 libri di non-fiction alla settimana. Ben presto i manager compresero che questo metodo non poteva proseguire, mentre espandevano rapidamente il catalogo per includere anche musica, film, e coprivano molti altri paesi. In questa situazione, Amazon cominciò a sperimentare con sistemi automatici per popolare le sue pagine raccomandando libri di potenziale interesse ai lettori, fino a includere anche consigli personalizzati.


La necessità di automatizzare era reale: il fondatore di Amazon Jeff Bezos fu tra i primi a capire che la chiave del successo in quel business ancora inesplorato era crescere di dimensioni. I suggerimenti automatizzati possono essere fatti in molti modi, in principio anche una semplice classifica dei libri più venduti poteva bastare, tuttavia Amazon cominciò presto a concentrarsi sulla personalizzazione, inseguendo l’idea radicale di Bezos di «un negozio per ciascun cliente». Un piccolo cambiamento, pieno di conseguenze, che spostò l’enfasi dalle recensioni alle raccomandazioni, e la squadra «automazione e personalizzazione» della società fu incaricata di provare possibili metodi e algoritmi.


In generale, un «agente di raccomandazione» è incaricato di individuare gli articoli che hanno la maggiore probabilità di interessare un dato utente. I primi tentativi di automatizzare le raccomandazioni erano basati su una tecnologia chiamata Bookmatcher che richiedeva ai clienti di riempire un questionario sulle loro preferenze di lettura, in modo da poter generare un profilo del cliente e raccomandare loro quello che altri «clienti simili» avevano acquistato.


Fino a quel punto i redattori non avevano motivo di preoccuparsi troppo, ma la musica stava per cambiare. Nel 1998 il ricercatore Gary Linden e i suoi colleghi nel Personalization Team svilupparono un nuovo algoritmo: invece di cercare utenti simili mediante il questionario, capirono che potevano trovare prodotti simili direttamente analizzando il database delle vendite. In breve, due prodotti sono considerati simili se tendono a essere acquistati dalle stesse persone. Questa informazione può essere calcolata in precedenza (e aggiornata periodicamente) in modo da essere disponibile per fare raccomandazioni quando un cliente inizia a esplorare il catalogo online. Questo approccio ai sistemi di raccomandazione fu chiamato item-based collaborative filtering, un tributo a un metodo inventato nei tempi pre-Web per filtrare email indesiderate considerando quali utenti le leggevano. Grazie a quel metodo, introdotto da Dave Goldberg e discusso in questo stesso capitolo, gli utenti «collaboravano» (talvolta implicitamente) all’annotazione e al filtraggio dei messaggi: collaborative filtering.


Invece di chiedere ai clienti quello che pensavano o volevano, il nuovo sistema fondava il proprio comportamento su quello che gli utenti – e milioni di altri come loro – facevano in realtà. Quando tale metodo fu provato «sul campo» i risultati furono chiari: i clienti acquistavano più libri seguendo raccomandazioni personalizzate che seguendo recensioni scritte da persone, e questo rese possibile l’uso di algoritmi per scegliere i contenuti da far apparire sulle varie pagine. Presi insieme questi algoritmi furono collettivamente chiamati Amabot, e infatti il logo del Personalization Team mostrava un robot stilizzato. Le buone prestazioni di questo «robot» furono quello che decise il destino del piccolo ma brillante team di redattori, che aveva sviluppato con tanta cura «la voce di Amazon» fino a quel momento.


Fu allora che apparve l’inserzione sul «Seattle Weekly», un atto che possiamo considerare parte delle stesse «guerre culturali» che si erano svolte tra Jelinek e i linguisti alla IBM dieci anni prima, un conflitto che avrebbe continuato a riemergere in varie forme negli anni a seguire.


In quegli ultimi tempi, mentre il gruppo di redazione di Amazon lottava contro un avversario robotico per soddisfare gli obiettivi di «produzione», il gruppo di personalizzazione aveva appeso sul muro un cartello con un riferimento al mitico John Henry, protagonista di una ballata folk americana: l’eroe che aveva lottato e vinto contro una macchina, nel lavoro pesante di perforare la roccia, per poi morire dallo sforzo. Il poster diceva semplicemente: «La gente si dimentica che John Henry alla fine muore».


Alla fine del 1999 i redattori furono eliminati, mentre le vendite continuavano ad aumentare, spinte da un crescente uso di apprendimento automatico e algoritmi di personalizzazione. Il nuovo algoritmo di Amazon era in grado di indovinare quali prodotti un cliente avrebbe probabilmente comperato: nel linguaggio degli agenti autonomi, Amabot sapeva predire le conseguenze delle proprie azioni abbastanza bene da agire in modo efficace rispetto ai suoi obiettivi. Il suo ambiente era formato – o almeno abitato – da utenti umani.


Amabot non era animato da regole esplicite, né da alcuna comprensione dei clienti o dei contenuti: il suo comportamento dipendeva da relazioni statistiche scoperte nel database delle transazioni passate. La «tabella del comportamento» non era ottenuta né elencando completamente le azioni da attuare in ogni situazione, né usando regole generali. Invece veniva dallo spazio tra questi due estremi, una forma di conoscenza sufficiente a prendere decisioni appropriate in situazioni nuove, sulla base di esperienze precedenti. Questo agente perseguiva il proprio scopo di aumentare le vendite, anche se lo faceva in un modo diverso da come lo avremmo fatto noi: era capace di agire razionalmente in un dominio per cui non esisteva alcuna teoria.


L’intuizione chiave dietro questo approccio, che ci sono delle regolarità affidabili nel comportamento umano che possono essere apprese e sfruttate, è oggi alla base di molti sistemi automatici. Da una parte rimuove il bisogno di fare troppe domande agli utenti, ma dall’altra introduce il bisogno di osservarli. Oggi riceviamo raccomandazioni personalizzate di video, musica e notizie in questo modo, un metodo molto più vicino alle idee di Jelinek che non a quelle di Feigenbaum. Il sistema di raccomandazione è oggi la più comune forma di agente intelligente che incontriamo online.


Cambio di paradigma

Gli eventi del 1999 ad Amazon dimostrarono come il Web potesse essere un ambiente lucrativo per un agente intelligente, e fornirono un esempio da seguire per altre compagnie interessate a sfruttare quel nuovo mondo. Tutto ciò che dovevano fare era raccogliere informazioni sul comportamento dell’utente e applicare algoritmi come item-based collaborative filtering per sfruttare le relazioni statistiche esistenti in quei dati, trasformandole infine in decisioni utili. L’infrastruttura del Web avrebbe permesso all’agente sia di percepire il proprio ambiente che di compiere delle azioni, che in quel caso significava raccomandare dei prodotti o proporre dei contenuti: l’interazione produceva un comportamento inteso a realizzare degli obiettivi in situazioni mai viste, ovvero quello che chiamiamo comportamento intelligente. Il successo di questa idea non creò solamente un nuovo modello di business: quello che stava emergendo in quegli anni era nientemeno che un nuovo paradigma scientifico.


La storia della scienza è plasmata da casi esemplari di «storie di successo», che il filosofo Thomas Kuhn chiamò «paradigmi». Mentre investigava la traiettoria storica di varie discipline scientifiche, Kuhn notò che questa non è formata da un costante e regolare progresso, ma presenta accelerazioni e svolte improvvise, e identificò due diverse «modalità» di progresso, chiamando la prima «scienza normale» e la seconda «cambiamento di paradigma». La sua idea centrale era che un «paradigma scientifico» è ben più che l’insieme delle convinzioni esplicite degli scienziati che lavorano su un certo problema e include anche varie forme di conoscenza implicita: di quale sia l’obiettivo della loro ricerca e il modo corretto di perseguirlo, di cosa formi una soluzione valida, di cosa formi un problema legittimo, e così via. Queste aspettative sono spesso «tramandate» agli studenti sotto forma di esempi, o storie dei successi passati, che svolgono il ruolo di modelli da imitare. Sono questi esempi che vengono chiamati «paradigmi» e caratterizzano un intero modo di lavorare.


Nella storia della fisica troviamo molti cambiamenti di paradigma, per esempio nella transizione dalla meccanica newtoniana a quella quantistica, che cambiò le aspettative su che cosa intendiamo per «successo», la prima esemplificata dalla soluzione di problemi come il pendolo, la seconda da modelli dell’atomo di idrogeno, dove le previsioni sono necessariamente probabilistiche. L’effetto di una buona storia di successo è quello di fungere da modello per il futuro.


Durante i periodi di scienza normale i ricercatori derivano e rifiniscono dei risultati all’interno del paradigma corrente, ma ogni tanto succede qualcosa e il paradigma stesso cambia, e così fanno anche il linguaggio e gli obiettivi di quell’intera comunità scientifica. Questo è quello che è successo all’Intelligenza Artificiale all’inizio di questo secolo.

Intelligenza artificiale in tre mosse

Quando nel marzo 2000 scoppiò la bolla speculativa delle aziende digitali (Dot-com bubble), uno dei grandi sopravvissuti fu Google, che stava emergendo come il motore di ricerca per eccellenza e aveva pienamente incorporato il nuovo paradigma, che sarebbe diventato noto come data-driven AI (IA basata sui dati). Google era destinato a diventare l’azienda dominante nel campo dell’Intelligenza Artificiale e a definire l’agenda di ricerca anche per altre società e per molte università, identificando e risolvendo una serie di problemi tecnici che erano appena alla portata di questa nuova tecnologia.

Tra le molte innovazioni introdotte nel corso degli anni da Google troviamo: traduzione automatica tra dozzine di lingue, completamento e correzione automatici delle richieste dell’utente, uso di comandi vocali, ricerca di immagini partendo dai loro contenuti, uso del contesto dell’utente come la posizione geografica e – ciò che più conta per un’azienda privata – un sistema efficace di annunci pubblicitari personalizzati, che andò molto oltre le idee inizialmente introdotte da Amazon e contribuì a produrre enormi profitti.

Giunti al 2009, si era formata una nuova cultura a Google e in altre compagnie simili, e in quell’anno un gruppo di suoi ricercatori pubblicò un articolo che sarebbe diventato un manifesto di quella mentalità. Era memorabilmente intitolato L’irragionevole efficacia dei dati, un gioco di parole su un classico articolo scritto nel 1960 da Eugene Wigner sul sorprendente potere della matematica[2].

L’articolo celebrava il potere dei dati nel plasmare il comportamento intelligente e codificava quelle che ormai erano diventate delle pratiche comuni nel campo dell’Intelligenza Artificiale, formalizzando quella che possiamo considerare «la nuova ricetta». Per chiarire che devono essere i dati, e non i modelli o le regole, a guidare il comportamento degli agenti intelligenti, include frasi memorabili, tra cui: «modelli semplici con molti dati battono modelli più elaborati basati su meno dati» e contiene persino l’esortazione «(Forse…) dovremmo smettere di agire come se il nostro obiettivo fosse di scrivere teorie estremamente eleganti, e invece abbracciare la complessità e fare uso del migliore alleato che abbiamo: l’irragionevole efficacia dei dati».

Erano passati più di 20 anni dai tempi d’oro dei sistemi esperti, e si sentivano tutti. L’intero approccio era concepito per funzionare in aree in cui non c’è alcuna teoria, sostituendola con l’apprendimento automatico. L’articolo di Google non menziona direttamente Frederick Jelinek, ma la sua presenza si sente ovunque, per esempio quando dice: «I più grandi successi in apprendimento automatico collegato al linguaggio naturale sono stati il riconoscimento del parlato e la traduzione statistica» e poi procede a spiegare che questi erano interamente dovuti a un uso efficace dei dati.

Sostituire i modelli teorici con regolarità statistiche scoperte nei dati fu solo la prima scorciatoia presa lungo la strada verso la produzione di comportamento intelligente, la stessa che era stata esplorata in precedenza sia da Jelinek sia da Amazon. Un chiaro problema che si crea sostituendo le teorie con dei dati, naturalmente, è quello di trovare i dati necessari, un compito che potrebbe essere tanto costoso quanto creare la teoria stessa.


Gli autori dell’articolo avevano una soluzione a quel problema: usare dati già preesistenti «in natura», ovvero generati da qualche altro processo, quasi come se fossero dei sottoprodotti. Nell’articolo, i ricercatori dell’azienda statunitense spiegano: «[…] un vasto insieme di dati per addestrare al comportamento input-output che cerchiamo di automatizzare è disponibile in natura. […] La prima lezione dell’apprendimento su scala Web consiste nell’usare i dati disponibili piuttosto che sperare in dati annotati che non sono disponibili». Questa seconda scorciatoia (la stessa usata da Amazon quando riciclò il dataset delle vendite per scoprire quali libri fossero simili) porta l’Intelligenza Artificiale più vicina a un «pranzo gratis», riducendo di molto il costo dei dati dopo avere quasi eliminato quello dei modelli teorici.


Un ulteriore passo che talvolta si rende necessario è quello di annotare i dati con il giudizio dell’utente, che in questo modo comunica all’agente quello che vuole. Invece che chiedere loro di riempire questionari (come tentava di fare Bookmatcher), divenne normale osservare semplicemente quello che facevano gli utenti, e inferire da questo quello che stavano cercando. Per esempio, in un compito di reperimento di informazioni, l’agente può presentare all’utente una selezione di articoli o video tra cui scegliere, e quella scelta può poi essere registrata come un’indicazione delle sue preferenze.


Questa terza scorciatoia fu riscoperta diverse volte negli anni, per esempio un articolo del 1996 sul reperimento di informazioni dice: «prendiamo la decisione di non richiedere un feedback esplicito in merito a quali articoli proposti siano buoni e quali no, […], invece semplicemente registriamo quali articoli l’utente ha scelto, […] siccome l’utente vede un abstract di ciascun articolo, crediamo che quelli prescelti da ciascun utente siano probabilmente rilevanti […]». L’espressione «feedback implicito» risale almeno al 1992, quando Dave Goldberg la impiegò nel suo lavoro pionieristico sulla «filtrazione collaborativa» (collaborative filtering) della posta elettronica: dopo avere spiegato che diversi lettori possono collaborare indirettamente nel filtraggio dello spam «registrando le loro reazioni ai documenti che leggono, come il fatto che un documento sia particolarmente interessante o particolarmente non-interessante», aggiunge: «Feedback implicito dagli utenti, come il fatto che qualche utente ha risposto a un documento, può anche essere utilizzato».


Capita a volte che qualche idea arrivi prima del suo tempo, e debba aspettare che il resto del mondo la raggiunga.


Questo modo di creare agenti intelligenti è uno di quei casi in cui gli esempi parlano più delle parole: immaginate di dover programmare un computer a riconoscere una barzelletta divertente, o una email sgradita. Mentre è improbabile che esista una regola rigorosa, è molto semplice fornire esempi. Naturalmente gli utenti non rispondono bene alle richieste di fornire informazioni (pensiamo a come ci comportiamo con i messaggi relativi alle nostre preferenze sui cookie), così parve sensato imparare le loro preferenze semplicemente osservandone il comportamento. Questa pratica si riduce a usare un «surrogato» osservabile del segnale che preferiremmo usare e che non è direttamente osservabile, come in questo caso le preferenze dell’utente, ed è oggi una pratica comune nella progettazione degli agenti intelligenti.


Sulla nuova Intelligenza Artificiale

Mentre l’IA «logica» di Ed Feigenbaum soffriva di una cronica mancanza di successi tecnici e commerciali, il manifesto dei tre ricercatori di Google parlava da una posizione di enorme forza perché descriveva la stessa metodologia che aveva permesso all’azienda di diventare la protagonista principale nel mercato dell’Intelligenza Artificiale. Nello stesso anno, il 2009, Frederick Jelinek riceveva il premio alla carriera dall’Associazione per la linguistica computazionale e a quel punto era impossibile non notare che qualcosa di profondo era cambiato: la definizione stessa di che cosa intendiamo per «successo» nella creazione di un sistema intelligente.


Venticinque anni prima, quando Ed Feigenbaum insisteva che il comportamento intelligente deve emergere da inferenze logiche eseguite sulla base di conoscenze dichiarative, un buon esempio di IA sarebbe stato un algoritmo per la dimostrazione di teoremi, o uno per eseguire diagnosi mediche partendo da principi primi in un sottocampo specialistico. In quella tradizione, ogni progresso in machine translation avrebbe comportato scoperte in linguistica, da usare poi per guidare il ragionamento di qualche tipo di «motore di inferenza».


Ed è proprio così che cambiano i paradigmi scientifici. Al momento della pubblicazione di quel manifesto, gli investitori e gli studenti potevano facilmente confrontare la mancanza di prodotti di successo dell’IA classica con l’abbondanza di prodotti funzionanti provenienti dal campo data-driven: dalla manipolazione del linguaggio agli onnipresenti sistemi di raccomandazione, tutte le principali storie di successo erano rese possibili da pattern imparati dai dati. Una nuova generazione di ricercatori si era formata in un mondo dove i dati erano facilmente disponibili, e l’apprendimento statistico era diventato il metodo naturale per produrre comportamenti intelligenti, o almeno un tipo specifico di questi. E anche i contenuti dei corsi universitari stavano cambiando di conseguenza.


La regola di Vapnik e la nuova mentalità

Nel 1990 lo statistico Vladimir Vapnik lasciò l’Accademia delle scienze di Mosca, dove lavorava all’Istituto di scienza dei controlli, e si trasferì nel New Jersey, per lavorare nei prestigiosi ATT Labs. Il suo lavoro sulla teoria dell’apprendimento automatico risaliva agli anni Settanta, tuttavia solo allora cominciava a influenzare l’informatica occidentale, dove stava crescendo un forte interesse per una descrizione teorica degli algoritmi che apprendono. Vapnik portò con sé non solo una profonda teoria matematica dell’apprendimento nelle macchine, usata ancora oggi per studiare quali aspetti di una tale macchina determinano le sue capacità, ma anche un’attitudine che rispecchiava bene gli sviluppi tecnici di quei giorni.


Il suo approccio ignorava la questione di quanto accuratamente un algoritmo possa identificare il meccanismo nascosto che ha generato i dati, ponendo invece una domanda diversa: quali prestazioni possiamo aspettarci da previsioni che sono basate sulla scoperta di una certa regolarità in quei dati? In altre parole: se osserviamo una regolarità in un certo dataset, quando possiamo fidarci che questa sarà presente anche in un futuro dataset? I modelli teorici di Vapnik identificano quali fattori possono essere usati per rispondere, per esempio: la dimensione del dataset e il numero di possibili relazioni che sono state implicitamente considerate e scartate durante l’analisi. Intuitivamente, più ipotesi «proviamo», per tentare di spiegare i dati a disposizione, più è probabile che ne troviamo una che descrive i dati solo per caso, ed è quindi incapace di fare previsioni. Per quanto sembrassero esoteriche, le dense formule di Vapnik potevano essere trasformate direttamente in algoritmi efficienti, ed è proprio questo che lui fece nella parte americana della sua lunga carriera.


L’approccio abbandonava quindi il tradizionale compito di identificare un meccanismo nascosto, quello che ha generato i dati stessi, in favore del compito più semplice di predire le osservazioni future. Un consiglio che Vapnik dava spesso ai suoi studenti era: «Nel risolvere un dato problema, non tentate di risolverne uno più generale come passo intermedio. Risolvete il problema che vi serve, non quello più generale». Il leggendario statistico Leo Breiman un giorno definì questo approccio come «attaccare direttamente alla giugulare». In altre parole: se devi imparare a filtrare email indesiderate dalla casella postale, non risolvere il problema generale di comprendere il linguaggio umano, concentrati sul problema più semplice di eliminare lo spam.


Una volta incorporato all’interno di una teoria statistica dell’apprendimento, questo stile di lavoro implicava una posizione epistemologica, non solamente metodologica: tutto ciò che conta è il comportamento dell’agente, lì dovrebbe ricadere l’attenzione, che si tratti di una raccomandazione o una classificazione o una traduzione, senza tentare di risolvere un problema generale come l’intelligenza o il linguaggio. Se le traduzioni possono essere approssimate senza comprendere completamente il fenomeno del linguaggio, perché complicarsi la vita?

La nuova ricetta

Queste lezioni continuarono ad accumularsi nel corso degli anni Novanta, mentre la nuova generazione di ricercatori si confrontava con le sfide e le opportunità presentate dal Web, e finirono con il plasmare l’intera cultura che circonda la ricerca dell’Intelligenza Artificiale. Il linguaggio della nuova disciplina è oggi quello della statistica e dell’ottimizzazione, e la preoccupazione costante è la quantità e la qualità dei dati. Durante quegli anni di metamorfosi, l’apprendimento automatico divenne la disciplina centrale dell’intero campo, i dati di addestramento per la macchina la risorsa più preziosa, e la misura delle prestazioni la sua ossessione. L’obiettivo oggi non è più la scoperta di qualche verità ma la generazione di un comportamento che sia «probabilmente approssimativamente corretto», e a quel fine sono spesso sufficienti semplici pattern statistici.

Se combiniamo insieme le massime e gli insegnamenti dei vari ricercatori che negli anni hanno dato origine a questo paradigma, possiamo ottenere una lista di suggerimenti che sembra quasi una ricetta. Eccoli qui, concatenati insieme.

Quando risolvi un problema, non risolvere un problema più generale come passo intermedio (Vapnik). Licenzia il linguista (Jelinek). Segui i dati (Halevy et al.). Avere più dati è più importante che avere algoritmi migliori (Eric Brill citato da Jelinek). I modelli semplici con molti dati battono modelli più elaborati basati su meno dati. Usa dati che sono disponibili in natura, invece di sperare in dati annotati che non sono disponibili (Halevy et al.). Non chiedere agli utenti di dare «feedback esplicito» […] invece semplicemente registra le scelte che fanno (Boyan et al.). Si può usare il feedback implicito degli utenti, come il fatto che qualcuno ha risposto a una mail (Goldberg).

C’è un’ulteriore massima che dovrebbe essere aggiunta a questa ricetta: le più recenti applicazioni che richiedono modelli statistici del linguaggio funzionano solo quando i dati usati per l’addestramento eccedono un miliardo di parole, a causa del gran numero di parametri che devono essere «accordati», una situazione che alcuni riassumono con lo slogan «la vita inizia a un miliardo di esempi».

Oggi le raccomandazioni di Amazon si basano su centinaia di milioni di clienti, quelle di YouTube su due miliardi di utenti, e il modello di linguaggio più avanzato al mondo – GPT-3 – ha circa 175 miliardi di parametri, che devono essere appresi analizzando circa 45 terabyte di testo ottenuti da fonti diverse. Questi modelli occupano uno spazio intermedio tra l’astrazione e l’enumerazione, rimettendo in discussione quello che tradizionalmente si intende per «comprensione», eppure sono l’unico modo che conosciamo per operare in domini per cui non c’è teoria, come la previsione di certi comportamenti umani.

Vapnik e Jelinek si erano imbattuti negli stessi principi, che si riducevano a questo: invece che comprendere il sistema sotto investigazione si può essere soddisfatti con il predire quello che farà. Predire la parola seguente in un testo è molto più facile che comprendere una frase, e in molti casi è tutto quello che ci serve. Lo stesso vale per designare una mail come «spam», o raccomandare un libro da comprare. Alcuni chiamano questa «la fine della teoria», e le sue implicazioni per il resto della scienza non sono ancora chiare.

Nel discutere la sua visione dell’apprendimento dai dati, un processo che lui chiama inferenza empirica, Vapnik la confronta con una famosa frase di Albert Einstein, che disse: «Non sono interessato in questo o quel fenomeno […]. Voglio conoscere i pensieri di Dio, il resto sono dettagli». A questa posizione Vapnik contrappone che la domanda centrale dell’inferenza empirica è: «Come agire bene senza comprendere i pensieri di Dio?».

Questa sembra essere la scorciatoia definitiva, che include tutte le altre scorciatoie che abbiamo già discusso, e dato che l’evoluzione biologica agisce sul comportamento del fenotipo, possiamo sospettare che l’intelligenza biologica si sia affinata più in risposta alla sua capacità di aiutarci ad «agire bene» che non a una presunta capacità di farci «comprendere i pensieri di Dio».

[1] Anche se l’espressione AI Winter fu originariamente coniata in analogia con l’espressione Nuclear Winter, che era popolare negli anni della guerra fredda, è stata poi usata colloquialmente per riferirsi alla stagione dormiente. Gli anni che seguirono il collasso del mercato delle Lisp Machines sono ora conosciuti come «il secondo inverno dell’IA». 

[2] L’articolo di Wigner si intitolava L’irragionevole efficacia della matematica nelle scienze naturali.

.3.

Trovare l’ordine nel mondo

Scoprire regolarità nell’ambiente è un passo necessario perché un agente possa anticipare le conseguenze delle proprie azioni, e così un ambiente regolare è un prerequisito per il comportamento intelligente. Ogni metodo per individuare queste regolarità è necessariamente soggetto a dei limiti teorici, e di conseguenza lo è anche quello che possiamo aspettarci dagli agenti intelligenti.


L’intelligenza e un mondo regolare

La lumaca di mare Aplysia ha il riflesso di ritirare le delicate branchie quando viene toccata, una precauzione nel caso che questo stimolo segnali la presenza di un predatore. Dopo una serie regolare di contatti, lentamente questa risposta diminuisce e alla fine si ferma, un meccanismo noto come assuefazione o abituazione, uno dei più semplici esempi di apprendimento in biologia. Il beneficio di questo meccanismo si basa sull’idea che gli stimoli ripetuti nel tempo, senza conseguenze avverse, probabilmente non segnalano alcun pericolo.


Ogni ambiente presenta diversi compromessi tra i costi e i benefici di una decisione, così Aplysia deve potersi comportare diversamente in casi diversi, quando si tratta di proteggere le branchie. È ragionevole presumere, dopo una serie di falsi allarmi, che non ci sia pericolo, e dato che questo tipo di apprendimento ha chiari vantaggi evolutivi, probabilmente i biologi non avrebbero altre domande da fare.


Tuttavia è proprio in questi casi che i filosofi cominciano ad agitarsi: che giustificazione ha la lumaca per adottare questa convinzione? Il pensatore scozzese David Hume nel 1739 identificò questo come un problema fondamentale e irrisolto e lo chiamò «il problema dell’induzione». La sua idea era che le aspettative della lumaca non possono avere alcuna giustificazione logica sulla base della sua esperienza, a meno che non si introducano delle altre assunzioni, che a loro volta sarebbero ingiustificate.


I filosofi hanno discusso questo problema da allora, e nel 1912 Bertrand Russell lo descrisse in modo memorabile: «Gli animali domestici si aspettano cibo quando vedono la persona che li nutre. Noi sappiamo che tutte queste crude aspettative di uniformità possono essere fuorvianti. L’uomo che ha nutrito la gallina ogni giorno per la sua intera vita alla fine le tira il collo, dimostrando che una visione più sofisticata dell’uniformità della natura sarebbe stata utile alla gallina».


I filosofi sono famigerati per il modo in cui fanno domande scomode e portano tutto alle estreme conseguenze. Questo dibattito riguardava qualcosa di molto più importante degli animali da giardino: Russell e gli altri mettevano in discussione la nostra fiducia nelle leggi naturali che scopriamo con l’esperienza. La nostra fiducia nella forza di gravità non è diversa da quella dell’Aplysia secondo cui certi stimoli sono innocui, essendo entrambe basate su un numero finito di osservazioni.


Gli animali superiori sono in grado di imparare associazioni molto più astratte, per esempio i piccioni possono essere addestrati a beccare su certe immagini in un certo ordine, per ottenere una ricompensa.


Nel 2011, un gruppo di piccioni in Nuova Zelanda fu addestrato a beccare su delle immagini in un ordine specifico che dipendeva dal numero di elementi contenuti nella figura: l’immagine di due ovali rossi doveva precedere quella di tre cerchi blu, e così via. Una volta assorbita questa abilità, i piccioni furono posti davanti a nuove immagini contenenti insiemi di dimensioni mai viste prima, fino a nove elementi. Gli uccelli furono in grado di mettere in ordine anche questi, rivelando che avevano capito il concetto di numero. Mentre erano in grado di capire un concetto che è fuori dalla portata della lumaca, la loro giustificazione per aspettarsi un premio dopo certe azioni era ancora basata sullo stesso atto di fede dell’Aplysia.


Queste sono le due domande che troviamo ancora oggi quando creiamo le macchine intelligenti: siccome ci aspettiamo che vadano oltre la semplice memorizzazione e siano in grado di generalizzare, come possono fidarsi di una certa regolarità che hanno notato? E come sanno che non si stanno perdendo qualche relazione utile solo perché non l’hanno notata?


Per un filosofo queste domande possono essere rivoltate: perché mai l’ambiente dovrebbe essere così semplice e stabile da consentirci prima di individuare delle regolarità e poi di fidarci che queste saranno ancora presenti domani? È solo in un tale ambiente che un agente può anticipare il futuro e quindi comportarsi razionalmente.


Lo studio dell’apprendimento automatico è la scienza di come costruire macchine che possano trasformare osservazioni del passato in conoscenze e previsioni. Questa disciplina affronta gli stessi problemi posti dai filosofi della scienza secoli fa. Come possiamo fidarci della conoscenza prodotta dalle nostre macchine? È ragionevole aspettarsi di poterla comprendere? Potremmo trovarci un giorno nella stessa posizione dell’Aplysia, incapaci di comprendere qualcosa che è perfettamente chiaro a un piccione?


Trovare l’ordine nel mondo

Ci sono modi diversi, ma equivalenti, di pensare alle relazioni che troviamo nei dati, quelle che chiamiamo pattern. Consideriamo questo oggetto, che chiamiamo il triangolo di Pascal o di Tartaglia, anche se era noto in Persia e in Cina secoli prima di questi matematici (fig. 1).


Il contenuto di ogni posizione del triangolo può essere ricostruito dal resto, per esempio calcolando la somma delle due posizioni direttamente al di sopra di esso. Avendo notato questa relazione, possiamo riempire delle caselle vuote, individuare eventuali errori, o aggiungere un’altra riga in fondo. Infatti è possibile generarne quante ne vogliamo, perché quella che abbiamo mostrato è solo una parte di un oggetto infinito.


Possiamo comprimere questa intera struttura in una singola formula matematica, usando la proprietà che abbiamo appena descritto, o in un breve programma di computer. Questa è la chiave per comprendere le relazioni nei dati, i pattern: invece che elencare i valori nella tabella, li possiamo descrivere.


FIG. 1. Per il lettore familiare con la notazione fattoriale, la casella in posizione (n, k) contiene il valore n! / k!(n-k)!, dove n = 0, 1, 2… indica la riga, e k = 0, 1, 2… indica la colonna. Questa formula è la descrizione finita di un oggetto infinito.

FIG. 1. Per il lettore familiare con la notazione fattoriale, la casella in posizione (n, k) contiene il valore n! / k!(n-k)!, dove n = 0, 1, 2… indica la riga, e k = 0, 1, 2… indica la colonna. Questa formula è la descrizione finita di un oggetto infinito.


Definiremo un pattern come qualsiasi proprietà dei dati che può essere descritta, e saremo particolarmente interessati al caso in cui un oggetto infinito ha una descrizione finita.


Quando possiamo descrivere in questo modo un insieme di dati, possiamo anche usare la stessa formula – o programma di computer – per riempire le caselle mancanti, o estendere i dati disponibili, o identificare possibili errori: questi sarebbero quei pochi punti che violano la relazione che abbiamo appena scoperto. Quando abbiamo scoperto una tale relazione diciamo che l’abbiamo «imparata dai dati». Va notato che anche se abbiamo mostrato l’esempio di una relazione esatta, una discussione analoga è possibile per relazioni approssimate.


C’è, tuttavia, sempre un inghippo: non tutte le collezioni di dati possono essere così descritte (o apprese). Per esempio, una permutazione casuale dei contenuti del triangolo di Pascal non sarebbe apprendibile: non potremmo ricostruire parti mancanti, predire la riga successiva, o descrivere l’oggetto in poche linee di codice. Non avremmo altra scelta che elencare, o memorizzare, ogni singolo valore in ogni singola posizione.


I matematici possono dimostrare che gli ambienti che si comportano come il triangolo di Pascal sono una piccola frazione di tutti gli ambienti concepibili, e tutti gli altri non possono essere descritti in termini astratti. Apprendimento e comportamento intelligente sono possibili solo in un piccolo insieme di mondi possibili, un’osservazione che ha portato alcuni filosofi a chiedersi perché ci troviamo a vivere in uno di questi. Perché l’Aplysia può trarre vantaggio dall’assuefazione e i fisici possono descrivere il passato e predire il futuro usando leggi e teorie?


Una risposta possibile è che sia i fisici sia le lumache non potrebbero esistere in alcun altro ambiente: finché c’è un’entità intelligente che lo guarda, il suo mondo deve essere uno di quei pochi che sono «predicibili». Questa tautologia è nota ai filosofi della scienza come il principio antropico.


La vita di uno scienziato può essere difficile: se non si trova alcuna relazione, significa che i dati non la contengono? E se la si trova, si tratta di una coincidenza o possiamo fidarci che sarà ancora presente domani? In entrambi i casi la risposta è negativa: non avere trovato una relazione non significa che i dati siano casuali e trovarne una non implica che sarà ancora lì nel futuro. In entrambi i casi dobbiamo fare un «atto di fede», il che normalmente infastidisce i filosofi.


Possiamo aiutare gli scienziati con delle macchine? Il machine learning è la tecnologia dedicata all’individuazione di relazioni e regolarità nei dati, estraendo quelle di cui possiamo fidarci, evitando di essere ingannati da coincidenze, al fine di fare previsioni affidabili. Come abbiamo visto nel capitolo 2, i teorici di oggi pensano che lo scopo di questo gioco sia solo di fare previsioni, non di identificare alcuna verità profonda sulla sorgente dei dati. Gli stessi teorici accettano anche altri limiti: per esempio che potrebbero essere incapaci di interpretare le relazioni scoperte dalla macchina.


Limiti alla conoscenza

Ci sono molte cose che possono andare storte quando una persona o una macchina tentano di trovare ordine in una raccolta di osservazioni, e queste hanno conseguenze per il modo con cui dovremmo pensare agli agenti intelligenti che stiamo costruendo. Alcune di queste conseguenze si possono illustrare con degli esempi, e riassumere con queste domande: 1) se ci sia un metodo generale per trovare qualsiasi regolarità in qualsiasi dataset; 2) come facciamo a fidarci che una relazione scoperta nei dati non è solamente l’effetto di una coincidenza, e 3) che cosa possiamo aspettarci di imparare esaminando le relazioni scoperte dalle macchine.


Niente pranzo gratis. Gli algoritmi che studiamo a scuola hanno la garanzia di trovare sempre la soluzione cercata per qualsiasi valore di ingresso, per esempio il percorso più breve tra due punti qualsiasi di una mappa stradale, o il prodotto tra due numeri interi. Sarebbe naturale quindi aspettarsi che esista un singolo algoritmo universale per individuare qualsiasi relazione nei dati, ma c’è un consenso unanime sul fatto che questo non può esistere: per ogni algoritmo che può scoprire relazioni nei dati, c’è sempre qualche raccolta di dati che gli appare casuale, mentre può essere «appresa» da un altro algoritmo. Questa situazione può ricordare la delusione di scoprire che il moto perpetuo è impossibile, una scoperta che però è anche stata una fonte di grande progresso teorico. Se esistesse, una tale procedura risolverebbe un gran numero di problemi in informatica, compresi alcuni che riguardano la compressione dei dati e la generazione di numeri casuali, tuttavia così possiamo concentrare i nostri sforzi sullo sviluppo di algoritmi più specializzati: non appena accettiamo delle supposizioni sulla sorgente dei dati o il tipo di relazioni che stiamo cercando, spesso riusciamo a creare algoritmi potenti per trovarli. Per esempio, abbiamo metodi efficienti per individuare strutture periodiche in serie temporali o relazioni lineari tra variabili, e molte altre relazioni utili.


Coincidenze. Una volta che abbiamo trovato una regolarità in una raccolta di dati, dobbiamo sapere se possiamo aspettarci di trovarla anche in un’altra raccolta ottenuta dalla stessa fonte. E se fosse stata solo una coincidenza? Questa è una possibilità molto concreta quando il dataset è piccolo, ma anche quando ci è permesso di scegliere uno a uno i dati o le regolarità a cui siamo interessati. Una possibilità che sembra sfuggire a molte persone, come si può vedere da questa storia, vecchia ma istruttiva.


Il 21 agosto 1964 sulla rivista «Time» apparve un breve articolo intitolato: Un compendio di curiose coincidenze che rapidamente attrasse molta attenzione. Il presidente Kennedy era morto solo nove mesi prima e l’articolo riportava una storia che stava circolando per Washington DC da qualche tempo, su una strana serie di coincidenze che lo collegavano al suo distante predecessore Lincoln.


Lincoln è stato eletto nel 1860, Kennedy nel 1960. Entrambi erano coinvolti nella lotta per i diritti civili. Entrambi i loro nomi contengono sette lettere. La moglie di ciascuno dei presidenti perse un figlio mentre era First Lady. A entrambi i presidenti hanno sparato di venerdì ed entrambi sono stati colpiti alla testa, da dietro e alla presenza delle mogli. Entrambi gli assassini presidenziali sono stati uccisi da proiettili prima di poter essere processati. I nomi James Wilkes Booth e Lee Harvey Oswald contengono 15 lettere ciascuno. Lincoln e Kennedy furono succeduti da uomini del sud chiamati Johnson. Andrew Johnson del Tennessee, che ha seguito Lincoln, era nato nel 1808. Il texano Lyndon Johnson era nato nel 1908.


Da allora la lista ha continuato a circolare, gradualmente crescendo, anche se non tutti i fatti inclusi erano reali: alcuni erano semplicemente sbagliati, altri erano «tirati» al punto da diventare assurdi. Eppure la storia delle «inquietanti» connessioni non ha smesso di affascinare. Sembra che alcune persone trovino difficile rispondere a due domande. La prima: anche se le informazioni della lista fossero interamente accurate, dovremmo essere sorpresi da queste connessioni? La seconda: c’è qualche straordinaria relazione tra i due presidenti, segnalata dalla lista, che merita una spiegazione e che potremmo usare per indovinare qualche altro fatto interessante delle loro vite?


Uno statistico può risolvere questi dubbi semplicemente facendo altre due domande: per quante altre coppie di persone avremmo potuto generare una simile lista? Quanti altri fatti riguardo a questi due individui avremmo potuto aggiungere alla lista se fossero stati veri?


Questo «compendio di curiose coincidenze» non è altro che il risultato di quello che gli inglesi chiamano cherry picking, e che noi potremmo tradurre come «piluccare»: il processo di scegliere le ciliegie migliori da un ramo, creando una raccolta di frutti (o dati, in questo caso) che non rappresenta necessariamente la sorgente. Solo le osservazioni che sostengono la tesi di una connessione inusuale sono state elencate, e tutto il resto è stato rimosso: non si menziona la città di nascita, il numero di scarpa, e così via.


Le relazioni che possiamo aspettarci di trovare per caso non sono considerate significative e non richiedono alcuna spiegazione, e certamente non vanno usate per fare previsioni o per sostenere teorie scientifiche. Se una spiegazione può essere sempre trovata, perché rigettiamo i dati in disaccordo con la nostra spiegazione o perché accettiamo spiegazioni estremamente contorte, il risultato del processo non è informativo. Queste relazioni si chiamano «spurie» e sono il risultato di un fenomeno molto studiato: l’overfitting, ovvero l’eccessiva flessibilità nello spiegare le osservazioni, incorporando anche relazioni accidentali.


La statistica, il machine learning e il metodo scientifico hanno studiato questo rischio e hanno prodotto metodi rigorosi per evitarlo, che sono oggi incorporati nel software che usiamo per addestrare le nostre macchine intelligenti. Comunque, se l’operatore umano non comprende questi principi, può ancora ritrovarsi con macchine che vedono relazioni non esistenti nei dati, come fossero delle allucinazioni. Questo rischio è molto concreto quando chiediamo a queste macchine di generare modelli enormi e non interpretabili per fare previsioni in campi che non comprendiamo.


Concetti alieni. Un tipico modo di comprimere una tabella di osservazioni, o una tabella del comportamento che contiene coppie stimolo-risposta, è di introdurre termini astratti che descrivono gruppi di oggetti, e poi descrivere i dati utilizzando questi termini. Consideriamo una lista di animali e il cibo che mangiano:


ANIMALE


CIBO


tartaruga


lattuga


gatto


pesce


coniglio


carota




Per una tabella sufficientemente grande sarebbe vantaggioso creare i concetti di carnivoro ed erbivoro, sottoinsiemi degli animali della prima colonna, e poi i concetti di carne e vegetale, come sottoinsiemi dei cibi della seconda colonna. Questi termini non descrivono un oggetto, ma una categoria di oggetti, e sono la base di una descrizione teorica del mondo, permettendoci di enunciare regole semplici e generali come «gli erbivori mangiano vegetali».


Le macchine intelligenti possono creare questo tipo di «costrutti teorici», per esempio un agente che raccomanda i video potrebbe dividere gli utenti e i video in categorie, e poi usare quella terminologia per esprimere le relazioni che osserva nel comportamento degli utenti. Mentre sono certamente utili, non è necessario che questi concetti siano interpretabili da noi, ovvero che corrispondano ad alcuna categoria che usiamo normalmente nel nostro linguaggio.


Per esempio, in una delle sue storie più famose, Jorge Luis Borges racconta di un mondo fantastico che classifica gli animali come segue:


Quelli appartenenti all’Imperatore.

Quelli imbalsamati.

Quelli ammaestrati.

Maialini.

Sirene.

Quelli favolosi.

Cani randagi.

Quelli inclusi nella presente classificazione.

Quelli che tremano come se fossero pazzi.

Quelli innumerevoli.

Quelli disegnati con un sottile pennello di cammello.

Altri.

Quelli che hanno appena rotto un vaso.

Quelli che da lontano sembrano mosche.

Questi raggruppamenti sarebbero probabilmente inutili per descrivere la tabella delle abitudini alimentari, o magari per riassumere informazioni filogenetiche o ecologiche, ma utili per descrivere qualche arcaico sistema legale dove gli animali dell’imperatore o quelli randagi hanno diritti speciali.


L’esempio può apparire artificiale, non è tuttavia poi così distante dai metodi di «segmentazione» descritti nei capitoli seguenti nel contesto del marketing diretto, della «valutazione del rischio individuale» o dei sistemi di raccomandazione dei contenuti.


Non c’è un modo oggettivo di dividere e descrivere il mondo, e lo stesso Borges nota, sempre nello stesso racconto, che «non c’è classificazione dell’universo che non sia arbitraria». Non c’è ragione di aspettarsi che due agenti artificiali osservando lo stesso mondo giungano alle stesse astrazioni, anche quando fanno le stesse previsioni. Comprendere le loro ragioni nel nostro linguaggio potrebbe essere impossibile.


Pattern e illusioni

C’è un’altra ragione per cui abbiamo delle difficoltà con casi come la storia dei due presidenti: gli esseri umani cercano istintivamente pattern nell’ambiente. Mentre questo è uno dei nostri tratti più utili, ci può anche indurre in errore, particolarmente quando ci troviamo alle prese con la mancanza di ordine, ovvero con la casualità. Sia le macchine sia le persone possono essere ingannate dalle coincidenze, o dall’errore di piluccare solo i dati più graditi, e mentre possiamo pensare che i nostri costrutti teorici riflettano qualche realtà nascosta, questi sono spesso solo abbreviazioni, utili a semplificare le nostre descrizioni del mondo. Come non ci sono algoritmi di apprendimento universali, così nemmeno gli esseri umani sono in grado di individuare tutte le regolarità in tutte le situazioni.


La tendenza umana di imporre interpretazioni su dati, o fenomeni, casuali si chiama pareidolia, e in alcuni casi può diventare patologica. Alcune persone vedono volti nelle rocce, o sulla superficie della Luna o anche sul pane tostato. Una versione più astratta di questa tendenza a percepire connessioni profonde e significative tra cose che non sono collegate si chiama apofenia. È possibile vedere connessioni causali tra eventi completamente indipendenti. In tempi prescientifici era comune trovare significati in eventi che potrebbero essere banalmente spiegati come coincidenze, e anche oggi questa tendenza è ancora presente quando spieghiamo la realtà in termini di complicate macchinazioni o cospirazioni.


Se guardiamo il cielo notturno, non possiamo evitare di notare la tripletta di stelle equidistanti che forma la cintura di Orione. Sembra che tutte le culture abbiano un nome per questo gruppo di stelle, e probabilmente gli esseri umani ne sono consapevoli fin dalle proprie origini, semplicemente perché la stessa mutazione che ci rese impossibile ignorare quel pattern forse fu la stessa che ci rese umani. Tuttavia non esiste una vera struttura tra le posizioni delle stelle nel firmamento, le possiamo memorizzare ma non potremmo ricostruire una parte nascosta del cielo notturno sulla base del resto. Le figure stilizzate che vediamo nel cielo sono forse delle allucinazioni, il risultato di un istinto difficile da controllare.


Talvolta facciamo lo stesso errore con la causalità: la serie storica della durata del giorno (intesa come il tempo tra l’alba e il tramonto) è profondamente diversa dalla serie di numeri del lotto, la prima può essere facilmente compressa e predetta, la seconda è interamente casuale e può solo essere elencata. Eppure molti giocatori credono che i numeri in grande ritardo abbiano una probabilità maggiore di essere estratti, così come anche certi numeri collegati a eventi nelle loro vite.


Quello che possono fare le macchine

La maggioranza degli studiosi ha oggi abbandonato l’ambizione che le macchine intelligenti possano identificare i «veri» meccanismi dietro ai dati che analizzano, e si accontentano dell’obiettivo più debole di fare previsioni utili. In questo modo hanno fatto un passo verso la filosofia moderna (o postmoderna), lasciandoci però anche un passo più lontani dalla comprensione di come «pensino» le nostre creature.


Non solo possiamo aspettarci che queste macchine scoprano relazioni e regolarità nel mondo al di là della nostra comprensione, e che facciano previsioni meglio di noi in certi campi, ma questa è già la realtà di oggi. Consideriamo il caso di GPT-3, un «modello di linguaggio» creato da OpenAI nel 2020. I modelli di linguaggio sono strumenti usati per calcolare la probabilità di una frase nel linguaggio naturale e impiegati soprattutto per compiti di previsione del testo, che includono: completare le frasi, riempire le parole mancanti, suggerire cambiamenti. Modelli di linguaggio stocastici sono usati comunemente come componenti in molti sistemi, dalla correzione ortografica all’autocompletamento delle frasi, fino alla creazione di dialogo e generazione di risposte alle domande. Il modello GPT-3 è stato addestrato su 45 terabyte di testo raccolto da diverse fonti online, una quantità che richiederebbe oltre 600 anni per essere letta dal più veloce lettore umano (il signor Howard Berg, che appare nel Guinness World Record per essere riuscito a leggere 25.000 parole al minuto). Il modello contiene milioni di parametri: molto più di quello che noi potremmo comprendere o contenere nella nostra limitatissima memoria di lavoro.


Questi modelli di linguaggio sono i discendenti diretti dei modelli introdotti da Jelinek alla IBM negli anni Settanta e uno di questi, chiamato LaMDA e creato da Google, è finito sui giornali nel 2022 perché un ingegnere si era convinto che fosse diventato autocosciente dopo una lunga «conversazione». LaMDA era stato addestrato su quattro miliardi di documenti a simulare un dialogo, e contiene miliardi di parametri.


Non sono a conoscenza di studi che tentino di comprendere come quel modello rappresenti il mondo al suo interno, ma anche se fosse abbastanza piccolo da essere ispezionato non c’è ragione di aspettarsi che le sue astrazioni interne corrispondano alle nostre.


Non solo GPT-3 e LaMDA hanno dimensioni ed esperienza sovrumane, ma possono anche avere rappresentazioni «aliene» del nostro stesso mondo, e quindi possono eseguire lo stesso compito in modi interamente diversi da noi. Come notato dal pioniere Vladimir Vapnik, se lo scopo del gioco è la previsione, non c’è alcun bisogno che la macchina risolva un problema più difficile come passo intermedio.

Comprendere le nostre creature

Il comportamento razionale richiede la capacità di anticipare le conseguenze delle proprie azioni, e un modo affidabile di ottenere questa abilità è mediante l’apprendimento. È questo che fa l’Aplysia quando diventa assuefatta a uno stimolo, che abbia ragione oppure no di aspettarsi che l’ambiente sia regolare.

Questo è anche il modo principale in cui creiamo agenti intelligenti: addestrandoli su grandi quantità di dati, così che possano individuare regolarità utili per informare delle decisioni. Dalle raccomandazioni di video ai filtri anti spam, funzionano tutti in questo modo. Possiamo fidarci che funzioneranno sempre bene? Dipenderà dalla natura delle premesse che accettiamo implicitamente quando li creiamo.

Per fortuna dei progettisti di agenti sembra che ci sia molto ordine nel comportamento umano, anche se non abbiamo una spiegazione teorica e le eccezioni sono molte. Semplici modelli basati su una combinazione di memorizzazione e statistica sembrano più che adeguati a predire il linguaggio e i click degli utenti, un fatto che è forse una delle scoperte scientifiche più trascurate degli ultimi anni. Tuttavia tutti questi modelli richiedono quantità di esperienza sovrumane, prima di comportarsi in modo utile. Come dicono alcuni ricercatori, «la vita inizia a un miliardo di esempi».

La rivoluzione iniziata da Jelinek si basa implicitamente su questa osservazione: grandi quantità di dati e modelli non-teorici del mondo possono generare comportamenti utili, anche se non ci possono insegnare niente del fenomeno stesso che riproducono. Potrebbe non esistere alcun modo di interpretare le decisioni delle nostre macchine, il che sarebbe invece desiderabile per controllare che non prendano una brutta piega.

Faremmo bene a tenere questo in mente, mentre consideriamo se c’è un modo di insegnare i nostri valori e le nostre norme a queste macchine: potrebbe essere come cercare di spiegarli a una lumaca o un astuto piccione. Come disse Ludwig Wittgenstein: «Se un leone potesse parlare, noi non potremmo comprenderlo».

Le macchine intelligenti possono già fare cose che noi non sappiamo eguagliare e nemmeno capire, imparando direttamente dall’esperienza. Questo consente loro di operare in campi per cui non abbiamo alcuna teoria, e potrebbe essere il loro principale vantaggio.

Londra, 1843. Nel 1843 Lady Ada Lovelace aveva appena finito di tradurre in inglese un trattato tecnico scritto da Luigi Menabrea, la trascrizione di alcune lezioni tenute anni prima da Charles Babbage (che era un amico di Lady Lovelace), e decise di aggiungere qualche idea di suo. Anche senza considerare l’argomento del trattato, questa storia sembra inventata a causa delle persone eccezionali che vi sono coinvolte.

Babbage era un poliedrico inventore vittoriano, famoso già ai suoi tempi, che si dedicava a un’incredibile varietà di progetti, dalle ferrovie alle società di assicurazione. Oggi è conosciuto soprattutto per i suoi calcolatori meccanici, una passione che lo portò a concepire dispositivi sempre più avanzati, fino alla macchina analitica, il primo calcolatore potenzialmente in grado di eseguire qualsiasi computazione. E proprio questa macchina, concepita un secolo prima di Alan Turing, era l’argomento della pubblicazione di Lady Lovelace. Ada non era solo una stretta collaboratrice di Babbage: era anche una celebrità dell’epoca, figlia del poeta romantico Lord Byron e matematica di buon livello.

Il libro che lei aveva tradotto dal francese nel 1843 era stato scritto da Luigi Menabrea dopo avere assistito a una serie di lezioni che Babbage aveva tenuto nel 1840 a Torino, in cui aveva descritto in dettaglio la macchina analitica. Anni dopo Menabrea sarebbe diventato il primo capo di governo dopo l’unificazione italiana, a quel tempo però era ancora un giovane ufficiale del Regno del Piemonte, affascinato dalle macchine calcolatrici, che si trovò a scrivere l’unica descrizione dettagliata dell’invenzione di Babbage.

Per quanto sorprendenti siano queste connessioni, non sono la parte più importante della storia: ancora più notevoli sono le lunghe note che Ada aggiunse a quello scritto, in modo da poter includere le proprie idee sulla natura e le possibilità delle macchine calcolatrici. Grazie a questi contributi la ricordiamo oggi come la prima programmatrice di computer, anche se la macchina non fu mai interamente costruita.

Tra queste note, è la nota G quella che ha attirato maggiore attenzione. Dice, tra le altre cose: «La macchina analitica non ha alcuna pretesa di creare niente. Può fare tutto ciò che sappiamo come ordinarle di fare». Questo pensiero rassicurante sarebbe stato ripetuto molte volte nei decenni che seguirono l’invenzione dei calcolatori elettronici, per placare le nostre ricorrenti ansie sui potenziali rischi di quella nuova tecnologia. L’unico problema è che Ada Lovelace aveva torto.

Seul, 2016. DeepMind è un’azienda controllata da Google che si trova a un paio di chilometri dalla casa londinese di Ada Lovelace a Saint James Square, e la cui missione ufficiale è di sviluppare una forma generale di Intelligenza Artificiale. Combinando due tecniche diverse di machine learning, nel 2016 l’azienda ha creato un nuovo e potente algoritmo in grado di imparare da solo a giocare a Go, semplicemente giocando milioni di partite contro sé stesso, e raggiungere prestazioni altissime. Con questo passo, i ricercatori di DeepMind si imbarcarono in un’impresa che li avrebbe portati a collidere con la massima di Ada Lovelace sui limiti fondamentali dei computer, e con le aspettative di molti esperti. L’algoritmo si chiamava AlphaGo.

A prima vista il gioco del Go non sembra troppo diverso da altri giochi da scacchiera, con due giocatori che muovono a turno dei pezzi di due colori su una scacchiera di 19×19 caselle, allo scopo di catturare i pezzi dell’avversario. Tuttavia il numero di mosse e contromosse possibili a ogni interazione è così grande che i piani fatti in modo «brutale» non funzionano, a differenza degli scacchi e della dama: il successo in Go dipende dal sapere come valutare la qualità di una posizione e quindi da quella che i matematici chiamano la «funzione di valutazione», che approssimativamente è un modo di stimare la «probabilità di successo» a partire da una data configurazione. Siccome non c’è una teoria generale di come i campioni umani facciano questa valutazione, i programmatori si aspettano che la macchina la impari dall’esperienza, ovvero dall’analisi di decine di milioni di partite registrate, e poi giocando milioni di partite contro sé stessa, ogni volta adattando il proprio modello.

Nella primavera del 2016 questo algoritmo aveva già battuto i suoi programmatori, come anche il miglior giocatore d’Europa, Fen-Hui, ed era giunto il momento di affrontare i pesi massimi. Il coreano Lee Sedol era considerato il migliore giocatore di Go al mondo, e DeepMind voleva che il suo algoritmo giocasse contro di lui. Le cinque partite ebbero luogo a Seul, durante una settimana, sotto lo sguardo attento dei media. La macchina sconfisse il campione umano e questo forse non avrebbe dovuto sorprenderci troppo, considerando che già nel 1999 un computer chiamato DeepBlue aveva sconfitto il campione mondiale di scacchi, Gary Kasparov, e che questo era già avvenuto anche in ogni altro gioco da scacchiera. La vera sorpresa fu quello che accadde nella mossa 37 della seconda partita.

Quello fu il momento in cui AlphaGo prese una decisione che tutti i programmatori considerarono un errore, e così la considerò anche l’avversario. Nessuno riuscì a interpretarla, ovvero nessuno ne vide lo scopo o i benefici, o quale funzione quella strana mossa potesse svolgere nel tentativo di circondare gradualmente i pezzi dell’avversario. Eppure, come divenne chiaro molto dopo, fu proprio quella mossa che pose le basi dell’attacco finale della macchina, portandola a una clamorosa vittoria. Non solo la macchina poteva fare cose che nessuno dei suoi programmatori era in grado di fare: faceva cose che nessuno poteva nemmeno capire.

Le conoscenze usate da AlphaGo non venivano dai suoi creatori, ma dall’avere osservato 30 milioni di partite registrate, e aver giocato 50 milioni di partite con sé stesso: una quantità di esperienza che richiederebbe più di una vita a un giocatore umano. E questo lo faceva comportare in modi che i suoi creatori non potevano capire o, per dirla con Lady Lovelace, gli faceva fare delle cose «che noi non sappiamo come ordinargli di fare».

Cosa possiamo imparare da questa storia e che cosa rimane delle nostre illusioni di superiorità intrinseca?

Quello che Lady Lovelace non poteva immaginare era che, negli anni passati tra la sua nota G e quella fatidica partita a Seul, gli informatici avrebbero creato delle macchine che migliorano il proprio comportamento con l’esperienza, la tecnologia che chiamiamo machine learning (apprendimento automatico). È grazie a quella tecnologia che AlphaGo è diventato capace non solo di comportamento teleologico, ma anche di uno superiore a quello dei suoi costruttori e incomprensibile a essi.

Consideriamo quanti compiti diversi descriviamo con il verbo «imparare» nel linguaggio di ogni giorno. Possiamo imparare: un numero telefonico, una poesia, una nuova lingua, come andare in bicicletta, come riconoscere un fungo commestibile da uno velenoso, come giocare a scacchi e anche a Go. Pur avendo lo stesso nome, questi compiti non sono equivalenti: alcuni richiedono null’altro che memorizzazione, altri necessitano di fare delle estrapolazioni a partire da esempi per poi poter generalizzare a nuove situazioni, per esempio quando impariamo a riconoscere un fungo velenoso. E questi sono solo alcuni degli usi possibili del verbo «imparare».

Noi non consideriamo come parte del machine learning i semplici compiti di memorizzazione, in cui le macchine sono già molto superiori a noi, ma riserviamo la parola «apprendimento» solo alle situazioni in cui la macchina acquisisce nuove abilità, o migliora quelle già esistenti, senza essere stata esplicitamente programmata. Si dà il caso che questo non solo sia possibile, ma sia anche il solo modo in cui riusciamo a costruire una macchina per riconoscere i funghi, vincere a scacchi, andare in bicicletta o raccomandare un video. Tutti gli agenti intelligenti in uso oggi si basano su qualche forma di apprendimento automatico: è questo che consente loro di affrontare non solo ambienti mutevoli e incerti, ma anche compiti per cui non esiste una chiara descrizione teorica.

Visti da lontano, quasi tutti gli algoritmi di apprendimento funzionano alla stessa maniera, che può essere illustrata con un esempio. Un algoritmo e una ricetta di cucina hanno molto in comune: entrambi dettano una serie di passi da seguire al fine di trasformare un input in un output. La ricetta di cucina include una lista di ingredienti e una sequenza di azioni, e ciascuna di queste richiederà ulteriori dettagli, come delle quantità, temperature e durate. Per esempio una semplice ricetta potrebbe prescrivere di mescolare 60 millilitri di acqua con 100 grammi di farina e cuocere al forno per 10 minuti a 200 gradi. Ogni cambiamento a queste specifiche può produrre un risultato diverso. Anche se teniamo gli stessi ingredienti e operazioni, possiamo modificare i quattro valori numerici della ricetta, per sperimentare con lo spazio delle possibilità. Un cuoco esperto probabilmente ha provato molte variazioni prima di trovare i valori ideali, ma probabilmente continua lo stesso a sperimentare ogni volta che lavora in una nuova cucina o usa un tipo diverso di farina.

In linguaggio matematico queste quantità modificabili della ricetta si chiamano «parametri» ed è consuetudine prendere in prestito il linguaggio della musica per descrivere questi piccoli aggiustamenti come «l’accordatura» dei parametri, proprio come si farebbe con un pianoforte. Il feedback è l’informazione che dice all’accordatore e al cuoco quando tutti i parametri sono al valore ideale: tramite l’orecchio in un caso, il gusto nell’altro.

Questa «accordatura» è uno dei modi più tipici in cui le macchine imparano, ovvero cambiano il proprio comportamento sulla base dell’esperienza, e può essere applicata ai parametri numerici che controllano le previsioni (e quindi i comportamenti) di agenti che raccomandano video, parole o mosse di scacchi. Il feedback ricevuto dall’ambiente (ovvero l’effetto delle azioni) viene usato come guida nella ricerca dei valori ideali, quelli che portano al comportamento migliore.

Piuttosto che elencare il comportamento dell’agente mediante una tabella esplicita di coppie stimolo-risposta è normale specificare queste coppie implicitamente, in termini di un calcolo che dipende da parametri «accordabili», e poi lasciare che la macchina si prenda cura dei dettagli mediante la sua interazione con l’ambiente. Il risultato sarà un comportamento originale, che potenzialmente il programmatore non avrebbe immaginato.

Naturalmente l’apprendimento non è fatto solamente mediante ricerca «alla cieca», ed esiste una ricca teoria matematica di come regolare i parametri in modo ottimale, al fine di creare un algoritmo perfettamente capace di svolgere i compiti che gli vengono dati. È quanto accaduto con AlphaGo.

E allora, aveva torto o ragione Lady Lovelace quando scrisse che «la macchina analitica non ha alcuna pretesa di creare niente. Può fare tutto ciò che sappiamo come ordinarle di fare»? Trovare la versione migliore di una ricetta complessa è equivalente a «creare qualcosa», o è solo «far ciò che sappiamo come ordinarle di fare»?

Questa è forse una domanda per i filosofi. Eppure io penso che quando abbiamo milioni di parametri che interagiscono, il cui effetto sul comportamento finale non siamo in grado di predire, allora la macchina sta imparando qualcosa che ci è nuovo e questa si può chiamare una nuova ricetta. E quando ciò risolve un problema per cui non abbiamo alcuna teoria, come vincere a Go o raccomandare un libro, è appropriato parlare di comportamento autonomo e «diretto a uno scopo», e anche di apprendimento e intelligenza.

AlphaGo non fu il primo programma a imparare da solo a giocare meglio dei suoi creatori, diventando famoso per questo. Nel 1956 il pubblico televisivo americano conobbe Arthur Samuel e il suo programma per giocare a Dama, che aveva imparato la sua strategia di gioco in parte dagli esempi elencati in un classico libro intitolato La guida di Lee al gioco della Dama e in parte giocando da solo, al punto da battere lo stesso Samuel.

Nel 1962 Samuel (o più probabilmente il suo datore di lavoro, la IBM) decise che era giunto il momento di far affrontare alla macchina un avversario più forte, e la scelta cadde su un giocatore cieco del Connecticut chiamato Robert Nealey, che sarebbe diventato il campione di quello stato nel 1966, ma che a quel tempo non era ancora particolarmente noto, pur essendo definito dall’azienda «uno dei principali giocatori della nazione». Usando un IBM 704 il programma sconfisse Nealy, per la delizia dei media.

L’articolo in cui Samuel descrisse i dettagli tecnici dell’algoritmo fu pubblicato nel 1959 ed ebbe un notevole effetto, anche se ritardato, sull’Intelligenza Artificiale moderna: non solo introdusse vari metodi che sono diventati standard, introdusse anche una nuova e fortunata definizione per l’intero campo di studio. Quell’articolo si chiamava: Alcuni studi in Machine Learning usando il gioco della Dama.

Nell’articolo Samuel fece notare che c’è un’intera classe di problemi computazionali in cui sappiamo esattamente quello che vogliamo, tuttavia non abbiamo alcuna regola matematica per ottenerlo e quindi la loro implementazione richiede molto lavoro manuale per «accordarli». Riguardo alla possibilità di automatizzarli, scrive: «È necessario specificare metodi di soluzione in dettaglio minuto ed esatto, un processo lungo e costoso. Programmare i computer in modo che imparino dall’esperienza dovrebbe eliminare il bisogno di sforzi così dettagliati».

Samuel propose di usare i giochi da tavola come esempio: in quel caso la macchina può guardare in avanti, a partire da qualsiasi configurazione, per vedere quali sono le possibili conseguenze di una mossa, ma a un certo punto deve avere il modo di decidere quale «futuro» sia preferibile. Per continuare con la nostra analogia della ricetta di cucina, i parametri «accordabili» di un agente che gioca a scacchi o dama dovrebbero riflettere l’importanza da dare a vari aspetti della configurazione dei pezzi: quanto è utile controllare il centro, avere più pezzi in gioco, e così via. Ogni scelta di queste quantità può condurre a un comportamento diverso. Il contributo principale di Samuel fu quello di descrivere e dimostrare metodi pratici per adattare quei parametri, in modo da aumentare le possibilità di vittoria dell’algoritmo.

Nel luglio 1959 il «New York Times» pubblicò un’intervista ad Arthur Samuel in cui diceva che «le procedure di machine learning possono ridurre la quantità di informazioni che è necessario dare alle macchine prima che possano lavorare su un problema», e poi aggiungeva «tale traguardo potrebbe essere tra i venti e i cinquant’anni a venire».

Oggi i sistemi di raccomandazione osservano i loro utenti per imparare quanto ciascuna proprietà di un video contribuisca alla sua popolarità: per esempio, un dato genere, durata, o forse una certa parola nel titolo. In assenza di una teoria delle preferenze degli utenti, il machine learning consente a questi agenti di cercare automaticamente i video con le giuste proporzioni di ciascun ingrediente, per aumentare la probabilità che un utente continui a usare il servizio.

Samuel concluse che in questo modo si può creare un algoritmo capace di migliorare il proprio gioco «date solo le regole del gioco, un senso di direzione e una lista ridondante e incompleta di parametri che pensiamo abbiano qualche cosa a che fare con il gioco, ma i cui corretti segni e pesi sono ignoti e non specificati».

L’articolo del 1959 riassunse le lezioni di questo esperimento dicendo che «un computer può essere programmato in modo tale che impari a giocare un gioco di dama migliore di quello giocato dalla persona che ha scritto il programma». Oggi stiamo ancora digerendo le conseguenze di quella conclusione.

Samuel morì nel 1990 prima di vedere la sua eredità raccolta da AlphaGo. Mi sono spesso chiesto se i creatori di AlphaGo ricordassero i nomi dati da Samuel ai due programmi che si affrontavano per imparare a giocare: Alpha e Beta.

Nei decenni che sono trascorsi dagli esperimenti di Samuel, l’informatica e l’Intelligenza Artificiale si sono trasformate completamente: la prima seguendo la legge di Moore del progresso esponenziale nell’hardware, la seconda attraversando diversi cicli di euforia e drammatici cambi di direzione. Molti nuovi metodi di IA sono stati scoperti, sviluppati, scartati e talvolta riscoperti in questo periodo.

L’algoritmo che ha sconfitto Lee Sedol a Go era stato eseguito da centinaia di processori (1,202 CPUs e 176 GPUs) e addestrato su un database di giochi storici, con circa 30 milioni di mosse estratte da 160.000 partite diverse, e poi ulteriormente addestrato facendolo giocare contro sé stesso altre 50 milioni di volte. Questo allenamento aveva richiesto settimane, ma la stessa quantità di esperienza avrebbe richiesto più di una vita intera in un giocatore umano.

Ci sono diversi modi in cui una macchina può raggiungere prestazioni «sovrumane» in un dato compito, e alcuni sembrano quasi degli imbrogli: uno è, per esempio, usare più esperienza di qualsiasi essere umano; un altro è fare uso di memorie più capaci e computazioni più veloci; un altro ancora, non applicabile a giochi da tavola ma a molte altre situazioni, è di avere sensi migliori, ovvero avere accesso a più informazioni rispetto all’avversario umano.

AlphaGo era ovviamente superiore in ogni possibile dimensione al programma scritto da Arthur Samuel: l’hardware, la difficoltà del gioco, il metodo con cui guardava avanti nel gioco, il numero di parametri che potevano essere accordati, il numero di esempi da cui imparare, la funzione per valutare la configurazione della scacchiera.

È un peccato che tutta la conoscenza distillata da AlphaGo durante il suo addestramento non sia leggibile da esperti umani, essendo distribuita in milioni di parametri numerici che non hanno alcun significato per noi. Il modo in cui la macchina suddivide il mondo per pensare alle prossime mosse potrebbe essere simile all’esempio del capitolo 3 sui concetti alieni e la tassonomia di Jorge Luis Borges.

Le versioni successive di AlphaGo sconfissero facilmente quelle precedenti e alcune non furono nemmeno fatte giocare contro degli esseri umani. L’ultima rinunciò anche a usare la collezione iniziale di 30 milioni di partite umane, imparando interamente da zero giocando da sola, riuscendo comunque a sconfiggere la versione originale di AlphaGo in tutte le partite. La spiegazione di questo fatto, fornita dai suoi creatori, fu tanto pragmatica quanto raggelante: «(l’algoritmo) non è più vincolato dai limiti della conoscenza umana». Ulteriori versioni, chiamate AlphaZero e MuZero, «hanno imparato da sole una serie di giochi diversi, sempre raggiungendo prestazioni a livello umano o sovrumano».

Nel corso degli anni, i commenti di Lady Lovelace sull’inabilità dei computer di «originare alcunché» sono stati spesso ripetuti per placare le periodiche ansie sulle nostre creature, il cui potere continua ad aumentare. Alla luce di AlphaGo e dei suoi successori, abbiamo ragione di preoccuparci?

La letteratura non manca di storie su creature che superano e ingannano il proprio creatore, e ci fu anche un dibattito filosofico nel 1952 nel «British Journal for the Philosophy of Science», che includeva un articolo del cibernetico inglese Ross Ashby, intitolato: È possibile che un giocatore meccanico di scacchi superi il proprio creatore? in cui l’autore rispondeva affermativamente. È naturale preoccuparsi.

Mi aspetto che saremo presto superati in molti compiti importanti, anche se non trovo fondata scientificamente la possibilità di una forma di intelligenza «universale» a cui si allude talvolta, che mi ricorda quelle vecchie illustrazioni di una scala evolutiva che conduce da un girino a un uomo. Il termine «generalista» è più accettabile in questo senso, inteso come contrario di specialista, perché consente di immaginare diversi agenti generalisti, parzialmente sovrapponibili nei diversi campi di expertise.

L’intelligenza ha intrinsecamente molte dimensioni e agenti diversi possono essere incomparabili, a meno che non si pensi di poter comparare l’intelligenza di un corvo con quella di un calamaro. Quindi, mentre mi aspetto che le macchine esibiscano «prestazioni sovrumane» in molti compiti molto presto, non trovo utile parlare di «intelligenza universale» in generale, e nemmeno di un solo tipo generale di intelligenza «sovrumana». Naturalmente possiamo comunque preoccuparci.

Prestazioni sovrumane in campi specifici possono derivare semplicemente da sensi e memorie superiori, ma probabilmente anche da quantità sovrumane di esperienza, come nei casi di AlphaGo e GPT-3. Vedremo nel capitolo 8 un algoritmo che gioca a decine di videogiochi diversi meglio degli esseri umani. Sappiamo anche di algoritmi che possono competere con esperti umani nell’interpretazione delle radiografie toraciche, e un giorno la competizione potrebbe finire del tutto.

Ci saranno aree in cui gli esseri umani si difenderanno. Come notato dal filosofo Claude Lévi-Strauss la parte importante della scienza è porre le domande giuste, non dare le risposte giuste. Ed è questo che ha fatto Lady Lovelace nella nota G: si è domandata cosa le macchine possono e non possono fare. Oggi i computer potrebbero facilmente tradurre il libro di Luigi Menabrea dal francese all’inglese. Ma si fermerebbero lì.

5.

Comportamenti imprevisti

Possiamo fidarci che degli agenti intelligenti, addestrati su dati trovati «in natura», facciano quello che ci aspettiamo senza causare problemi collaterali? Il fondatore della cibernetica, Norbert Wiener, era preoccupato che le macchine potessero prendere delle scorciatoie pericolose, e le paragonò al talismano di un vecchio racconto dell’orrore, che fa ciò che gli viene richiesto, ma lo fa «alla lettera». Oggi le sue preoccupazioni potrebbero realizzarsi: usiamo algoritmi statistici per valutare i rischi di decisioni, spesso associate a individui, anche quando la posta in gioco è molto alta. Per fortuna finora il danno è stato contenuto, ma come possiamo assicurarci che le macchine non violino le fondamentali norme sociali, eseguendo «alla lettera» quello che viene chiesto loro?


La zampa di scimmia

«Desidero duecento sterline» disse il vecchio Mr. White, su insistenza della famiglia, anche se non credeva veramente che quella vecchia zampa mummificata di scimmia avesse poteri magici. Era stato difficile pensare a un singolo desiderio, figuriamoci tre, ed era stato suo figlio Herbert che aveva pensato al mutuo. «Se solo potessi sistemare la casa credo che saresti felice», disse, «quindi, desidera duecento sterline, dovrebbero bastare». Così Mr. White, ancora scettico, alzò il talismano e formulò questa specifica richiesta.


Il giorno dopo era ancora povero, e stava pensando al vecchio amico che lo aveva assicurato dei poteri della zampa, quando un ometto esitante bussò alla sua porta. Mrs. White lo vide per prima, e immediatamente sentì che c’era qualcosa che non andava.


«C’è qualche problema – chiese ansiosa appena l’ometto fu entrato – è successo qualcosa a Herbert? Che cosa?».


«È finito negli ingranaggi della macchina», rispose l’ometto a bassa voce. «Finito negli ingranaggi», ripetè Mr. White con aria assente. «Capisco».


«Devo dirvi che Maw & Meggins negano qualsiasi responsabilità», continuò il visitatore, «ma in considerazione dei servizi di vostro figlio vogliono donarvi una certa somma di denaro come compenso».


Mr. White lasciò la mano della moglie, e alzandosi in piedi guardò con orrore l’inviato della ditta. Con le labbra secche disse solo: «Quanto?»


«Duecento sterline» fu la risposta.


Norbert Wiener, il fondatore della cibernetica, era molto appassionato di questa storia (che abbiamo riassunto e adattato), scritta nel 1902 da William Wymark Jacobs, noto come W.W. Jacobs. Wiener menzionò la storia nel suo profetico libro del 1950, L’uso umano degli esseri umani per illustrare i possibili rischi posti dalle macchine intelligenti. In quel libro la «zampa di scimmia» viene usata per rappresentare un dispositivo che persegue «alla lettera» gli obiettivi che gli vengono dati, indifferente a qualsiasi conseguenza negativa che potrebbe risultare dalle sue azioni.


Settant’anni dopo abbiamo raggiunto il punto in cui le preoccupazioni di Wiener sono giustificate, e siamo fortunati che finora i danni siano stati limitati.


Un esempio: la valutazione del rischio individuale

Le scorciatoie che hanno permesso all’Intelligenza Artificiale di prosperare rapidamente negli ultimi vent’anni sono tutte rese possibili da algoritmi di machine learning ed enormi campioni di comportamento umano. Una volta addestrati su quantità di dati sovrumane, algoritmi come GPT-3 possono completare frasi, predire acquisti, rispondere a domande e assistere con le traduzioni, tutto senza comprendere l’argomento. Non c’è ragione teorica perché debba essere possibile emulare, o predire, quel comportamento usando metodi statistici, ma è una osservazione sperimentale degna di nota, che probabilmente la psicologia deve ancora assorbire pienamente. Allo stesso modo, con sufficienti dati, un agente di raccomandazione può indovinare quali video vorremmo guardare, o quali notizie vorremmo condividere con i nostri amici. È possibile applicare quel potere ad altri aspetti della vita?


Può darsi che non siamo poi così complessi come pensiamo, e non costituiamo un «ambiente» troppo difficile da esplorare per un agente abbastanza sofisticato, solo che non lo abbiamo mai notato prima perché era semplicemente impossibile raccogliere quantità di dati sufficienti. Anche se questo fosse vero, e se fosse possibile fare predizioni personalizzate del nostro comportamento futuro, è possibile che queste violino delle norme e dei principi che sono importanti per noi?


La possibilità di predire il comportamento futuro di qualcuno, anche solo statisticamente, rappresenta una forte tentazione per un’industria che esiste da ben prima dell’Intelligenza Artificiale: quella della valutazione dei rischi individuali. Questo settore include assicurazioni, prestiti e crediti, reclutamento, ammissioni a scuole, posti di lavoro e perfino ambiti giudiziari e psichiatrici. In tutti questi casi, viene fatta una valutazione di come un certo individuo potrebbe comportarsi in futuro, prima di prendere una decisione.


Tradizionalmente questo si fa con metodi attuariali o psicometrici, o attraverso interviste in centri di valutazione. Ma c’è al momento una tendenza a devolvere molte di queste decisioni a degli algoritmi intelligenti, grazie alla loro capacità di «indovinare» alcuni comportamenti futuri, almeno approssimativamente.


La valutazione del rischio individuale è anche uno dei casi in cui possiamo trovare una «zampa di scimmia», perché fare una previsione corretta è solo parte del lavoro: allo stesso tempo si devono anche rispettare svariate norme sociali che sono difficili da formalizzare, ma che sono comunque richieste dalla legge e dalla coscienza. Questa è una situazione in cui il contesto è importante, e la stessa decisione può essere accettabile o meno, a seconda delle ragioni per cui è stata presa.


Settori regolamentati e caratteristiche protette

La valutazione del rischio individuale è un’attività delicata quando è usata per decidere l’accesso a certe opportunità regolamentate dalla legge, in cui si richiede uguaglianza di trattamento. Per esempio, nel Regno Unito l’Equality Act del 2010 richiede che ci sia accesso paritario a occupazione, servizi pubblici, assistenza sanitaria, alloggio, istruzione, trasporti e servizi pubblici. Ogni paese ha delle leggi per assicurare l’uguaglianza di trattamento tra i cittadini quando si parla di questi importanti settori, per esempio nel Regno Unito lo stesso Atto stabilisce che: «le seguenti caratteristiche sono protette: età, disabilità, assegnazione di genere, stato matrimoniale, gravidanza e maternità, razza, religione o credenza, sesso e orientamento sessuale».


Nell’Unione Europea la Carta del diritti fondamentali, che è legge dal Trattato di Lisbona del 2009, ha una sezione sull’uguaglianza: «ogni discriminazione sulla base di sesso, razza, colore, origini etniche o sociali, caratteristiche genetiche, lingua, religione o credenza, opinione politica o di altra natura, appartenenza a minoranze nazionali, proprietà, nascita, disabilità, età o orientamento sessuale è proibita». Gli Stati Uniti hanno leggi simili, anche se non ancora unificate in un singolo Atto.


Questo significa, per esempio, che l’accesso di una persona all’istruzione non può essere influenzato dalla sua religione o orientamento sessuale; o che decisioni che riguardano il lavoro non possono dipendere da questioni etniche o di genere. Questo significa anche che l’applicazione di algoritmi intelligenti per prendere decisioni in questi contesti comporta il rischio di violare la legge. È qui che un algoritmo intelligente, a cui si chiede di predire le prestazioni future di un potenziale dipendente, studente o debitore, dovrebbe essere in grado di dimostrare che non sta basando le proprie decisioni su alcuna delle caratteristiche protette.


In questo caso, uno degli slogan tipici della «scorciatoia statistica» («ciò che conta è sapere cosa, non sapere perché») non vale più. Come possiamo assicurarci che un agente guidato dai dati come quelli descritti nei capitoli precedenti non finisca con l’imparare che un certo gruppo protetto ha una correlazione statistica con certi rischi? Usare questa informazione sarebbe illegale, ma è difficile da controllare quando le decisioni dell’agente dipendono da regolarità statistiche scoperte in terabyte di dati, e rappresentate implicitamente al suo interno da migliaia di parametri.


Fuga di informazioni

Può essere difficile controllare se agenti intelligenti di tipo statistico prendono una decisione per dei motivi validi, dato che sono progettati in modo da sfruttare correlazioni scoperte in grandi quantità di dati senza alcuna considerazione per cause o spiegazioni. Questa è proprio una parte della scorciatoia che ci ha regalato l’IA moderna: l’altra parte è l’idea di addestrarli usando dati trovati «in natura», ovvero generati da processi sociali. È qui che la macchina potrebbe imparare delle brutte abitudini, come si vede per esempio da un interessante studio pubblicato nel 2013, così importante che lo discuteremo sia in questo capitolo sia nel prossimo, che chiameremo lo studio «dei tratti personali» per brevità.


Nel 2012 un gruppo di scienziati in Inghilterra raccolse e studiò i profili Facebook di 58.000 volontari, estraendo informazioni come: età, genere, opinioni politiche e convinzioni religiose. In più inferì da altri dati contenuti nel profilo anche informazioni su origini etniche e orientamento sessuale. Allo stesso tempo, i ricercatori raccolsero anche l’insieme dei «mi piace» (i «like») sulle pagine Facebook degli stessi individui, ponendo infine una semplice ma inquietante domanda: è possibile ricostruire i tratti personali di quegli individui solamente sulla base delle loro dichiarazioni pubbliche, come i «mi piace»? L’allarmante risposta è ben riassunta dal titolo dell’articolo: Tratti e attributi personali sono predicibili da record digitali di comportamento umano.


Quello che avevano dimostrato era che l’insieme dei «mi piace» dichiarati da un utente è sufficiente a rivelare alcune sue caratteristiche protette quando è combinato e comparato con informazioni estratte da decine di migliaia di altri utenti. Per esempio, gli utenti più vecchi preferivano «Cup of Joe for a Joe» o «Sventolare la bandiera americana», mentre quelli più giovani preferivano argomenti come «293 cose da fare in classe quando ti annoi». Gli uomini preferivano «Band of brothers» e le donne «Shoedazzle». Il potere di questo metodo deriva dalla combinazione di molti «segnali deboli» come questi, che presi insieme producono un’«impronta statistica» sufficiente a identificare i tratti protetti di quegli individui. I modelli statistici ottenuti con questo metodo erano in grado di distinguere correttamente tra maschi e femmine (93%), omosessuali ed eterosessuali (88% dei casi per uomini e 75% per donne), tra afroamericani e caucasici (nel 95% dei casi), tra cristiani e musulmani (82%) e tra democratici e repubblicani (nell’85% dei casi), tutto sulla base dei likes pubblicati da ciascun utente.


Gli autori dello studio osservarono che informazioni simili possono probabilmente essere estratte anche da altre tracce digitali, creando una situazione in cui informazioni sensibili possono trapelare involontariamente e continuamente.


La somiglianza tra i «mi piace» di Facebook e altri tipi comuni di record digitali, come la storia cronologica del browser, le ricerche sul Web, o le cronologie degli acquisti, suggerisce che è improbabile che il potere di rivelare gli attributi degli utenti sia limitato ai «mi piace». Inoltre, l’ampia varietà di attributi previsti in questo studio indica che, avendo i dati appropriati, potrebbe essere possibile rivelare anche altri attributi.


Incontreremo questo articolo anche nel prossimo capitolo, poiché lo studio comprendeva anche la predizione di tratti psicometrici degli stessi utenti. In entrambe queste applicazioni, l’idea è la stessa: raccogliere grandi quantità di dati, sia pubblici che privati, in un grande campione di utenti, e poi usare questi dati come una «Stele di Rosetta» per inferire i tratti privati dal comportamento pubblico di altri utenti.


Come possiamo fidarci che un agente intelligente, addestrato a predire il rischio criminale o il futuro stipendio di un individuo, sulla base di informazioni comportamentali, non finirà per basare le proprie previsioni e decisioni su informazioni non legittime? Questo studio mostra che nascondere le informazioni sensibili dalla «vista» dell’agente non è sufficiente, perché queste sono contenute implicitamente in altre informazioni, pubbliche e all’apparenza innocue.


Gli autori dello studio conclusero l’articolo con un avvertimento: «Data la quantità crescente di tracce digitali che le persone lasciano dietro di sé, diventa difficile per gli utenti controllare quali dei loro attributi vengono rivelati. Ad esempio, semplicemente evitare contenuti esplicitamente omosessuali può essere insufficiente per impedire ad altri di scoprire il proprio orientamento sessuale».


I costrutti «alieni» che un agente di «valutazione del rischio» crea, quando segmenta gli individui su cui si sta allenando, per poter riassumere le relazioni scoperte nei dati, potrebbero sovrapporsi a informazioni legalmente protette, senza che nessuno lo possa notare. Ispezionare questi algoritmi potrebbe essere molto difficile: con buona probabilità questi sottoinsiemi di individui assomiglieranno alla tassonomia fantastica di Borges, che abbiamo descritto nel capitolo 3.


È possibile che un agente ricostruisca informazioni protette anche dopo che abbiamo cancellato dal nostro curriculum tutti gli elementi sensibili, per poi usarle per prendere decisioni in un settore regolato per legge, come l’impiego? Questo sarebbe un esempio di una scorciatoia illegale.


Falsi allarmi, pericoli scampati, veri errori

L’uso di algoritmi intelligenti permette di predire statisticamente alcuni comportamenti futuri di un individuo sulla base del comportamento passato di milioni di altri individui, e questo può essere usato per stimare il rischio di varie decisioni. Con questo si è anche creata la possibilità che una macchina prenda una scorciatoia come quella della «zampa di scimmia». Questo potrebbe essere il risultato imprevisto di combinare metodi statistici, grandi quantità di dati trovati «in natura» e rappresentazioni della conoscenza non interpretabili. Trovare modi affidabili di ispezionare questi agenti sarà una direzione di ricerca importante per poterci fidare di questa tecnologia.


A partire dal 2016 i media hanno riportato una serie di storie di scampati pericoli e falsi allarmi. Mentre non è chiaro se ci siano stati veramente dei danni, appare molto chiaro che l’industria della «valutazione del rischio» è interessata ad automatizzare le sue decisioni usando algoritmi statistici, e questo dovrebbe essere sufficiente a causare preoccupazioni riguardo a possibili «zampe di scimmia» e sollevare la questione della fiducia negli algoritmi. Una regolamentazione legale di questo settore è necessaria.


Queste sono alcune delle storie apparse sui giornali negli ultimi anni.


L’11 ottobre 2018 l’agenzia Reuters riferì una storia che potremmo considerare uno «scampato pericolo», perché non causò alcun danno. Per diversi anni un gruppo di ricerca all’interno di Amazon aveva sviluppato un software sperimentale per leggere i curricula e valutare i candidati per un posto di lavoro. L’articolo ipotizzava che l’algoritmo fosse stato addestrato sui dati di precedenti candidati e dipendenti, e riportava che questo soffriva di un serio problema: imparando frasi e parole che potessero distinguere un buon curriculum, penalizzava quelli che includevano parole relative alle donne (per esempio la frase «capitana della squadra femminile di scacchi») e dava un punteggio basso a due college per sole donne. L’articolo non conteneva sufficienti dettagli tecnici per poter fare un’analisi accurata del problema, e Amazon non fece alcun commento, tranne che per chiarire che lo strumento non fu mai usato per valutare alcun candidato. Ammesso che la notizia sia corretta, sembra plausibile che questo «pregiudizio» (bias)[1] possa essere entrato nella macchina attraverso l’uso di dati «trovati in natura», che quindi riflettono le disuguaglianze già esistenti nel mondo. La preoccupazione è che un’altra azienda, con processi interni meno efficienti, non si dimostri in grado di ispezionare il proprio software e fermarlo in tempo.


Il 23 maggio 2016 il giornale investigativo «ProPublica» descrisse un software usato in alcuni tribunali americani per stimare la probabilità che un imputato diventi un recidivo. Il software si chiama COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) ed è usato in diversi Stati, inclusi New York, Wisconsin, California e Florida, per assistere alcune decisioni giudiziarie. Ricevere un punteggio alto può avere conseguenze pratiche per la libertà di un imputato, per esempio influenzando la sua possibilità di essere rilasciato «sulla parola» in attesa di processo. L’articolo affermava che quei punteggi avevano un bias contro imputati afroamericani, dopo avere comparato i tassi di «falsi positivi» e «falsi negativi» in diversi gruppi etnici. La sua conclusione era: «gli imputati neri hanno probabilità quasi due volte superiore a quelli bianchi di essere etichettati ad alto rischio senza poi ri-offendere in realtà» e «quelli bianchi […] hanno una probabilità più alta di quelli neri di essere classificati a basso rischio e poi commettere altri crimini».


L’articolo provocò grande allarme nei media, ma non tutti gli studiosi si trovarono d’accordo con le conclusioni dei suoi autori, e poi l’intero affare si trasformò in una controversia legale, politica e accademica: a seconda di come tale bias è definito e misurato, si possono trarre diverse conclusioni su quello strumento. Pur non rilasciando il codice del programma, i produttori chiarirono che il loro metodo non usava in alcun caso informazioni sul contesto etnico dell’imputato, e nemmeno dei suoi «surrogati» come l’indirizzo, che potrebbero rivelarlo indirettamente. Lo strumento fa 137 domande sull’imputato, e di queste risposte 40 sono combinate in una formula per determinare il rischio di recidiva (le rimanenti sono usate per calcolare punteggi diversi). Queste coprono le aree seguenti: età attuale, età al primo arresto, precedenti di violenza, livello di formazione professionale, precedenti di inadempienza. È possibile che alcuni di questi segnali comportamentali abbiano fatto trapelare indirettamente l’informazione protetta, rivelandola all’algoritmo? Studi successivi condotti da ricercatori accademici indipendenti suggeriscono che questo non è successo. Alla fine, sembra che l’eredità principale di questa controversia sia stata di attrarre l’attenzione generale su questa delicatissima area in cui vengono usati algoritmi: ispezionare questi strumenti sarà difficile, ma anche necessario per la fiducia del pubblico.


Anche le traduzioni automatiche possono essere soggette a pregiudizi involontari, dato che si basano su segnali estratti da dati naturali. Al momento in cui scrivo (giugno 2022) Google Translate traduce la frase inglese «The president met the senator, while the nurse cured the doctor and the babysitter» come segue: «Il presidente ha incontrato il senatore, mentre l’infermiera ha curato il medico e la baby sitter». La versione inglese non contiene alcuna indicazione sul genere di infermiere, baby sitter e tutti gli altri lavoratori.


Nel 2022 nei Paesi Bassi l’Autorità per la protezione dei dati multò l’Autorità delle tasse di 3,7 milioni di euro per avere usato caratteristiche protette, come etnicità e origine, nella valutazione dei contribuenti, per la ricerca di possibili frodi sui sussidi di assistenza all’infanzia (childcare allowance). La stampa riferì che un software, definito dagli investigatori un «algoritmo autoapprendente», era stato impiegato per individuare quali contribuenti andavano esaminati più a fondo, e includeva l’etnicità come una delle caratteristiche usate per valutare il livello di rischio delle richieste di sussidio. Sebbene i dettagli tecnici non siano stati resi noti, questo sembra un caso di algorithmic bias. Il presidente dell’Autorità per la protezione dei dati ha anche affermato che alcuni contribuenti sono stati erroneamente classificati come «fraudolenti», e sono state negate loro alcune opportunità: se confermato, questo sarebbe un caso in cui è stato fatto un danno.


Assorbire i pregiudizi dal mondo

Per ispezionare un algoritmo incaricato di valutare dei curricula, in genere non è sufficiente controllare quali parole chiave abbia incorporato nella sua formula, perché le versioni più recenti di Intelligenza Artificiale rappresentano le loro conoscenze in migliaia o milioni di parametri, e usano grandi quantità di dati per «accordare» le formule usate nelle decisioni. Questa è una delle ragioni per cui i creatori di AlphaGo e GPT-3 non possono veramente predire o spiegare il comportamento delle loro creature.


Un ingegnoso studio condotto nel 2017 mostrò come alcune informazioni protette possano filtrare fino all’interno di tali algoritmi, mettendo a disposizione dell’agente un segnale che questo potrebbe sfruttare per prendere delle decisioni senza che i programmatori ne siano consapevoli. Questo problema, descritto di seguito, riguarda il modo stesso in cui le parole sono rappresentate all’interno degli agenti più moderni e crea la possibilità che un bias indesiderato si introduca nelle loro decisioni.


Fin dai primi anni 2010, un modo per rappresentare il significato delle parole nei computer è stato quello di assegnare ciascuna parola a un punto in uno spazio (di centinaia di dimensioni) in modo tale che la prossimità tra due parole in tale spazio rifletta la loro similarità semantica. Questo aiuta molto ogni ulteriore analisi del testo, ma crea il problema di ottenere le coordinate di ciascuna parola (la procedura è nota come embedding). È qui che il machine learning incontra ancora una volta i «dati esistenti in natura»: queste coordinate si ottengono per ogni parola analizzando statisticamente quali parole tendono ad accompagnarla, il che a sua volta richiede l’analisi di grandi quantità di testo. Questa potente rappresentazione corrisponde a un’implementazione delle idee del linguista britannico John R. Firth, che nel 1957 riassunse le sue teorie sul significato delle parole con lo slogan: «Una parola si giudica dalle compagnie che frequenta».


Il modo in cui si ottengono queste coordinate riecheggia le battaglie di Frederick Jelinek negli anni Ottanta, quando sosteneva il valore della statistica rispetto alle regole linguistiche tradizionali. Oggi, la maggioranza dei sistemi di analisi del testo fa uso di queste rappresentazioni, ottenute analizzando grandi corpus di testo trovati «in natura». Per esempio, GloVe (una collezione di 2 milioni di parole inglesi con le loro coordinate in 300 dimensioni) è stato ottenuto da un corpus di milioni di pagine Web, contenente un totale di 840 miliardi di parole. Queste pagine includono Wikipedia, molti giornali, blog, libri e vari altri tipi di dati.


Nel 2017 Aylin Caliskan e i suoi collaboratori analizzarono queste stesse coordinate alla ricerca di eventuali biases, scoprendo che molte parole, inclusi titoli professionali e descrizioni di mestieri, contenevano più informazioni del previsto: alcune erano leggermente spostate verso un lato dello spazio associato a concetti maschili, altre verso il lato opposto, associato a concetti femminili. Le parole più maschili erano: elettricista, programmatore, falegname, idraulico/a, ingegnere, meccanico/a. Quelle più femminili erano: parrucchiere/a, assistente legale, nutrizionista, terapista, receptionist, bibliotecario/a, igienista, infermiere/a.


Queste inclinazioni approssimativamente seguivano le statistiche dell’occupazione nella popolazione generale. Una situazione simile si può osservare anche tra le discipline accademiche, dove le arti e le scienze umane sono rappresentate in modo da essere più vicine a una sfera femminile, e le scienze naturali e l’ingegneria più vicine a una sfera maschile.


Come può essere successo? L’unica spiegazione è che nel testo naturale certe parole che descrivono una professione appaiono più spesso in associazione con parole maschili, per esempio pronomi, e altre con parole femminili. È l’uso dei dati ottenuti da fonti «naturali» che crea questo effetto. Questa spiegazione è in accordo con il fatto che i media contengono molti biases, ben documentati da statistici e scienziati sociali che analizzano enormi quantità di giornali e libri, e ne misurano le variazioni in epoche, paesi e argomenti diversi.


Ancora una volta, le stesse scorciatoie che ci hanno dato la forma attuale di Intelligenza Artificiale hanno anche creato le condizioni che potrebbero condurre a una «zampa di scimmia», che potrebbe manifestarsi per esempio se queste coordinate dovessero essere usate in un software per selezionare i curricula (non so di alcun caso specifico in cui questo sia stato effettivamente fatto).

Il ritorno della zampa di scimmia

L’argomento di questo capitolo non è la possibilità di discriminazione nell’industria della valutazione dei rischi, che non fa nemmeno parte dell’Intelligenza Artificiale, quanto piuttosto la possibilità più generale di una «zampa di scimmia» in cui la macchina esegue i propri compiti «alla lettera», indifferente a qualsiasi danno collaterale questo possa causare. L’uso della scorciatoia dei dati può sicuramente portare a questo, per cui dobbiamo trovare il modo di poterci fidare dei nostri agenti intelligenti, prima di delegare loro ulteriore controllo sulle nostre vite.


Fidarsi di qualcuno (o qualcosa) significa credere nella sua competenza e benevolenza, ed entrambe le cose devono essere meritate. Per esempio, l’industria della valutazione dei rischi forse non ci ha ancora dato prova sufficiente di competenza tecnica, ma ci ha ben indicato quello che intende fare con la nostra tecnologia. Negli ultimi anni, per esempio, sono apparsi molti articoli di ricerca che contengono le espressioni: credit scoring, social media e machine learning. Questo interesse si spiega con un potenziale «modello di business»: valutare il rischio di concedere un prestito a qualcuno sulla base del suo comportamento online.


Una storia separata, ma collegata, è quella della compagnia di assicurazioni inglese che nel 2016 tentò di lanciare un nuovo prodotto, che doveva stabilire il prezzo di una polizza per l’automobile in base ai contenuti pubblicati dal proprietario sui social media. Questa idea fu abbandonata poche ore prima del lancio ufficiale, perché Facebook rese chiaro che le sue regole vietavano quell’uso dei suoi dati. Adesso dipende dai nostri legislatori usare queste notizie e informazioni per regolamentare questo importante settore.

Quanto agli agenti stessi, come possiamo fidarci che siano tanto accurati quanto rispettosi dei nostri valori? Questo è difficile quando operano in un dominio per cui non c’è alcuna teoria, così che possono solo affidarsi a relazioni statistiche osservate nei dati comportamentali. Al momento, gli scienziati e i filosofi stanno esplorando diverse dimensioni della «fiducia» (trust): trasparenza, equità, responsabilità, accuratezza e verificabilità (o ispezionabilità). Con verificabilità (o ispezionabilità) intendiamo che ogni strumento software sia concepito fin dal principio in modo da poter essere facilmente ispezionato da terzi, per esempio un’agenzia istituzionale.

Potrebbe essere una buona idea decidere che solo tecnologie «verificabili» o ispezionabili possano essere usate in settori regolamentati. Questo potrebbe creare un ostacolo all’uso di certe rappresentazioni della conoscenza nelle macchine, come le coordinate delle parole descritte nel paragrafo precedente, che si comportano come i costrutti «alieni» di Borges: utili per fare previsioni, ma non traducibili nella nostra lingua.

Il fondatore della cibernetica Norbert Wiener nel suo libro profetico del 1950, The Human Use of Human Beings, usò l’idea della «zampa di scimmia» per rappresentare un dispositivo che persegue i propri obiettivi «alla lettera», ed esegue gli ordini prendendo una strada che nessun essere umano considererebbe. Dopo settant’anni i suoi avvertimenti sul rischio di delegare decisioni importanti alle macchine intelligenti sono incredibilmente rilevanti:

L’uomo moderno […] accetterà la superiore destrezza delle decisioni prese dalla macchina senza farsi troppe domande sulle motivazioni e sui principi che stanno dietro a queste. Così facendo, prima o poi si metterà nei panni del padre nella storia «La zampa di scimmia» di W.W. Jacobs, che aveva espresso il desiderio di avere (due)cento sterline[2], solo per trovare alla sua porta l’impiegato dell’azienda per cui lavorava suo figlio, che gli portava (due)cento sterline come consolazione per la morte di suo figlio in fabbrica».

[1] Bias è una parola che ha significati diversi in campi diversi. Noi la useremo per indicare una deviazione sistematica dall’uniformità o dalla norma. Un bias algoritmico si osserva quando l’algoritmo prende decisioni che non sono uniformi per diversi gruppi di utenti. Nel capitolo 7 discuteremo anche biases cognitivi, intesi come deviazioni da un comportamento razionale idealizzato. In statistica questo termine ha usi tecnici ancora diversi. 

[2] Mentre il racconto di Jacobs parla di duecento sterline, Wiener scrisse cento. 

6.

Messaggi personalizzati e persuasione di massa

Mentre interagiamo con agenti online, assorbiamo e riveliamo simultaneamente una grande quantità di informazioni. Durante questa interazione l’agente può fare uso di tecniche psicometriche e persuasive, per analizzare e influenzare il nostro comportamento. Capire come possiamo proteggere il nostro diritto all’autonomia in queste condizioni richiederà una considerevole ricerca su questioni che si trovano all’interfaccia tra molte discipline diverse, e alla fine anche una regolamentazione legale.


Amburgo, 3 marzo 2017. Quando Alexander Nix prese la parola davanti alla platea della conferenza Online Marketing Rockstars di Amburgo nel marzo 2017 non poteva immaginare quanto sarebbe cambiata la sua vita in meno di un anno. Abito scuro, cravatta sottile, occhiali dalla montatura spessa, sembrava più Colin Firth in A single man che uno dei creativi «nativi-digitali» che si trovavano nel pubblico.


La sua presentazione era intitolata From Mad Men to Maths Men e parlava di come la scienza dei dati e l’economia comportamentale avessero trasformato il business della pubblicità online. Il volantino della conferenza, tuttavia, prometteva la storia di come la compagnia diretta da Nix avesse aiutato Donald Trump a vincere le recenti elezioni, attraverso «un’astuta campagna di microtargeting» e «un modello praticabile di persuasione». Il nome della compagnia era Cambridge Analytica.


Per 12 minuti il pubblico attese con pazienza, mentre il signor Nix descriveva l’intersezione tra la psicologia comportamentale, la scienza dei dati e la tecnologia dei messaggi pubblicitari «indirizzabili», tre metodologie distinte che – prese assieme – «stanno trasformando il modo in cui vengono realizzate le campagne politiche». Durante questa prima parte, tutti gli esempi riguardavano il marketing di prodotti commerciali.


«Abbiamo lanciato uno strumento per sondare i tratti che compongono la personalità», annunciò tre minuti dopo l’inizio, «Usiamo l’avanguardia nella psicologia sperimentale: il modello di personalità a 5 fattori OCEAN». Poi spiegò che questo è un acronimo che – in inglese – rappresenta le cinque dimensioni fondamentali della personalità, e perché sia opportuno indirizzare messaggi diversi a tipi psicologici diversi[1]. «Altrimenti potreste finire per inviare gli stessi messaggi a persone con visioni del mondo molto diverse. Ad esempio, una persona coscienziosa potrebbe essere persuasa da un argomento razionale basato sui fatti; (per) un estroverso, usate un linguaggio e immagini che evochino l’emozione prodotta dall’acquisto di un’auto».


«È la personalità che informa le nostre decisioni» concluse, prima di introdurre l’idea di messaggi indirizzabili, la tecnologia digitale che permette la consegna di messaggi diversi a persone diverse sui social media. «La pubblicità a tappeto è morta», dichiarò a quel punto, aggiungendo: «I nostri figli non riusciranno a capire che milioni di persone possano ricevere una stessa comunicazione. Ci stiamo dirigendo verso un’epoca in cui […] i marchi comunicheranno con voi individualmente, così che un marito e una moglie nella stessa casa riceveranno comunicazioni diverse dalla stessa azienda sul medesimo prodotto».


Nulla di questo era nuovo e finalmente dopo 12 minuti il pubblico fu premiato per la sua pazienza: Nix cominciò a parlare delle recenti elezioni in America, e la sala piombò nel silenzio. «Il lavoro che abbiamo intrapreso per la campagna di Trump è iniziato nel giugno 2016», disse, prima di spiegare come avessero speso 100 milioni di dollari in annunci digitali e prodotto 1,4 miliardi di impressioni in soli quattro mesi, e modellato gli elettori concentrandosi sia sulle intenzioni di voto che sulle problematiche che potrebbero motivarli, come il possesso di armi o l’immigrazione. «Abbiamo assegnato problematiche diverse a ciascun adulto negli Stati Uniti», concluse, notando anche come tutto questo lavoro avesse creato un aumento netto del 3% nel consenso per Trump.


All’ultimo minuto, lo schermo dietro a Nix mostrò un’ultima potente immagine: articoli del «Daily Telegraph» e del «Wall Street Journal». Il primo era intitolato: Il software leggi-cervelli che potrebbe fornire a Trump l’ingrediente segreto per vincere la Casa Bianca. Il secondo aveva questo sottotitolo: La sorprendente vittoria è stata un colpo grosso per una piccola azienda di analisi dei dati che ha aiutato la campagna a indirizzare gli annunci sulla base di un approccio psicologico. Nix modestamente evitò di dire che era stato il suo metodo psicologico ad assicurare la vittoria, ma la sua scelta di immagini lo fece per lui.


Durante la seguente sessione di domande e risposte, gli fu chiesto come avesse ottenuto i profili psicometrici usati per indirizzare i messaggi, e lui spiegò che un grande gruppo di volontari (centinaia di migliaia) aveva fatto un test di personalità online creando abbastanza dati da poter insegnare a un algoritmo la relazione tra questi tratti psicologici e altri dati che erano disponibili, in modo da poter poi inferire profili psicologici anche per altri utenti. Questo specifico dettaglio sarebbe in seguito diventato parte di una controversia, ma in quel momento il pubblico era incantato e nonostante alcuni mettessero in questione l’opportunità di lavorare per un candidato controverso, la presentazione fu un successo. Nel marzo 2017 Alexander Nix era veramente una «rockstar del marketing online», ma ciò era destinato a cambiare. Solamente un anno dopo si sarebbe trovato a spiegare tutto questo – e molto altro – al Parlamento del Regno Unito, e poco dopo l’azienda stessa sarebbe andata in bancarotta. Questa parte della storia, tuttavia, non è di interesse diretto per noi, dato che ci concentriamo solo sulle interazioni tra l’Intelligenza Artificiale e la società. Così lasciamo Mr. Nix ad Amburgo, davanti allo schermo, a godersi ancora un po’ quel successo, mentre ci poniamo le domande che importano in questo contesto: è veramente possibile indirizzare messaggi personalizzati su larga scala? È davvero possibile che un algoritmo trovi il modo migliore di presentare la stessa scelta a diversi elettori? Questo metodo può davvero guidare gli elettori o i consumatori abbastanza da fare una vera differenza? Come funziona questo metodo e chi lo ha inventato?


La strada per Amburgo

Nessuno dei metodi descritti da Alexander Nix era una sua creazione: diverse campagne elettorali precedenti negli Stati Uniti avevano fatto uso di comunicazioni mirate, collegando le liste degli elettori, che sono pubbliche, con dati commerciali sul comportamento dei consumatori, che sono in vendita. Questo consente di segmentare gli elettori in piccoli gruppi omogenei, una pratica che si chiama microtargeting o anche microsegmentazione. Anche i social media erano già stati usati in campagne presidenziali precedenti.


Per quanto riguarda la segmentazione psicografica, quella era già nota agli scienziati: due articoli di ricerca, scritti prima della campagna presidenziale statunitense del 2016, spiegavano come ottenere informazioni sulla personalità di un utente di social media in base al suo comportamento online e come sfruttare queste informazioni per migliorare quella che definivano «persuasione di massa». Nei prossimi paragrafi descriveremo in dettaglio quei due studi, che chiameremo per brevità «dei tratti psicometrici» e «della persuasione di massa», dopo avere introdotto alcune nozioni di psicometria. Tali articoli danno un’idea della complessa interazione bidirezionale tra utenti umani e algoritmi intelligenti, un’interazione che abbiamo urgente bisogno di capire meglio[2].


Psicometria e comportamento online. Nel 2013 i Proceedings of the National Academy of Sciences (Atti dell’Accademia nazionale delle scienze), negli Stati Uniti, pubblicarono uno studio che dimostrava come una serie di attributi personali di un utente di Facebook possano essere inferiti in base ai suoi «mi piace» (questo studio è stato già descritto in parte nel cap. 5). Questi attributi includono anche costrutti psicometrici come i tratti della personalità dell’utente.


Lo studio iniziava con un gruppo di 58.000 volontari, che avevano accettato di fare un test della personalità online utilizzando un’app su Facebook, e di condividere i propri profili utente e i «mi piace» con i ricercatori, in modo da formare una raccolta di dati che contenesse informazioni sia psicometriche che comportamentali per ciascun utente. La domanda dell’ingegnoso studio era: si può predire (statisticamente) l’esito di un test di personalità solamente sulla base del comportamento online dell’utente? La sorprendente risposta fu che questa informazione, uno degli ingredienti chiave menzionati da Alexander Nix, può in effetti essere ricavata dal nostro comportamento pubblico online, come vedremo di seguito. Le implicazioni di questa scoperta sia per la privacy che per l’autonomia degli utenti dei social media non sono ancora state pienamente comprese. L’obiettivo della psicometria è di misurare tratti di un soggetto che non possono essere osservati direttamente, come emozioni, abilità, attitudini, atteggiamenti, inclinazioni, persino convinzioni e pregiudizi. Queste valutazioni sono spesso fatte per scopi di reclutamento, educativi o forensi.


Può sembrare sorprendente che un agente software possa inferire alcuni tratti psicologici di un utente, come quelli relativi alla personalità, semplicemente osservando un campione del suo comportamento, ma è così che tutti i test psicometrici vengono eseguiti: solo che normalmente questi segnali comportamentali sono ottenuti mediante «strumenti» come un questionario o dei compiti standardizzati. I tratti psicometrici non sono direttamente osservabili, e in realtà sono costrutti volti a riassumere il comportamento di un soggetto, ovvero fattori latenti postulati per rendere conto dei comportamenti del soggetto.


Ad esempio, un classico questionario per i tipi di personalità chiederebbe al soggetto se è in accordo o in disaccordo con un lungo elenco di affermazioni come:


«Mi sento a mio agio con le persone»;

«Sbrigo le faccende subito»;

«Il mio umore cambia facilmente».

Un’analisi statistica delle correlazioni tra le risposte, e delle differenze tra diversi soggetti, può portare alla creazione di modelli che tentano di spiegarle in termini di pochi «tratti latenti» in questi individui. Nel caso della «personalità» la teoria più utilizzata dagli psicologi a partire dagli anni Ottanta è chiamata modello Big Five e afferma che la maggior parte delle differenze di personalità (e quindi di comportamento) può essere spiegata da soli cinque fattori, che vengono ricordati dall’acronimo OCEAN, il modello menzionato all’inizio del capitolo, le cui lettere rappresentano le iniziali di cinque parole inglesi: openness (apertura all’esperienza, uno spettro che va dalla preferenza per la routine alla preferenza per novità e spontaneità), conscientiousness (coscienziosità, da disorganizzato e impulsivo a disciplinato e attento), agreeableness (gradevolezza, da cooperativo e fiducioso a non collaborativo e sospettoso), estroversione (da riservato a socievole); nevroticismo (da ansioso e incline a preoccuparsi a calmo e ottimista).


Sia che esistano «realmente» o no, questi cinque punteggi possono essere misurati sulla base di comportamenti passati e sono predittivi dei comportamenti futuri, e sono considerati come dei semplici riassunti del modo di pensare e di comportarsi di un soggetto. Si è scoperto che sono relativamente affidabili e stabili nel corso della vita, e che sono in parte plasmati sia da esperienze precoci che dalla genetica, e anche che sono correlati a determinati esiti nella vita, tra cui il rischio di sviluppare una dipendenza (addiction). Naturalmente questi «punteggi» non possono essere stimati da singole osservazioni e non servono a prevedere decisioni individuali, sono solo statisticamente correlati al comportamento, come si può osservare aggregando molte osservazioni.


Uno strumento psicometrico ben progettato ripete le stesse domande varie volte in forma e ordine diversi, e prende altre misure per evitare di influenzare il soggetto e ridurre il rischio di osservare altri segnali indesiderati, ma in principio non c’è alcun motivo per cui non si possano usare «osservazioni sul campo», purché si abbia accesso a campioni di comportamento, e questo include anche comportamenti online.


Ad esempio, lo psicologo James Pennebaker ha sviluppato metodi che impiegano le parole usate da un soggetto per inferirne i tratti psicologici latenti o lo stato emotivo, e Facebook ha depositato un brevetto nel 2012 basato sul concetto di utilizzare un simile metodo per ottenere informazioni sulla personalità dei propri utenti dai loro post online, in modo da poterli utilizzare per una migliore raccomandazione di contenuti e pubblicità.


Il pulsante «mi piace» è una caratteristica di Facebook che consente agli utenti di esprimere la propria approvazione per varie entità o idee, ad esempio libri, film, attività. Questa dichiarazione pubblica può rivelare molto su di noi: ad esempio, indicare apprezzamento per un artista specifico può indirettamente rivelare qualcosa sulla nostra età, etnia, valori e, soprattutto, gusto estetico. E anche l’apprezzamento per un’attività come cucinare o leggere può segnalare le nostre inclinazioni.


Lo studio dei «tratti psicometrici». Gli autori dello studio sui tratti psicometrici apparso nel 2013 ebbero l’idea di analizzare la relazione tra tali dichiarazioni pubbliche e le caratteristiche psicometriche di 58.000 utenti, raccogliendo dati sufficienti a porre una domanda scelta con cura: sarebbe possibile prevedere l’esito di un test della personalità se questi utenti ne facessero uno? Questa abile domanda evita tutti i problemi classici di «validazione», ovvero di dimostrare che il punteggio di un test contiene effettivamente informazioni su un determinato tratto psicologico, poiché la questione qui è solo quella di prevedere l’esito di un altro test, e quindi qualsiasi problema di «validazione» riguarda solo l’altro strumento.


I ricercatori chiesero a quegli utenti di fare un test della personalità standard per i tratti dei Big Five (chiamato 100-item International Personality Item Pool o IPIP) tramite un’app su Facebook. I risultati furono raccolti e confrontati con la lista di «mi piace» che ciascun utente aveva pubblicato sulla propria pagina. Questo confronto fu fatto utilizzando un algoritmo di apprendimento automatico per evidenziare eventuali correlazioni tra queste due fonti separate di informazione. Alla fine quelle correlazioni furono verificate su un insieme di utenti non utilizzato in precedenza, così da misurarne il potere predittivo.


Sebbene non perfettamente accurati, i punteggi previsti dall’algoritmo di apprendimento per i «nuovi» utenti sulla base dei loro «mi piace» erano tutti significativamente correlati ai risultati dei test psicologici. Questa importante scoperta si può esprimere rigorosamente usando il coefficiente di correlazione, una misura statistica che assume un valore di 0 se i risultati previsti non hanno alcuna relazione con quelli veri, e 1 se sono completamente correlati. Per la «gradevolezza» il coefficiente di correlazione era di 0,3 (dove l’accuratezza test-retest per questa quantità è 0,62, che possiamo considerare come base di riferimento per l’accuratezza con cui questa quantità può essere stimata); l’estroversione aveva una correlazione di 0,4 (rispetto a 0,75 di accuratezza test-retest); coscienziosità 0,29 (rispetto a 0,7), apertura 0,43 (rispetto a 0,55). Si noti che per il tratto «apertura» l’accuratezza algoritmica era vicina all’accuratezza test-retest di base di quell’indicatore psicometrico.


Ad esempio, dichiarare apprezzamento per la cantante Nicki Minaj era fortemente correlato all’essere estroversi. Quello per il personaggio di Hello Kitty era associato all’apertura mentale. Utilizzando un test psicometrico separato, gli autori furono anche in grado di studiare il quoziente intellettivo degli utenti, scoprendo tra l’altro che segnalare un apprezzamento per le «patatine fritte ricce» per qualche motivo indicava un quoziente intellettivo elevato.


Questo studio fornisce una risposta alla prima domanda posta dalle affermazioni di Alexander Nix: è effettivamente possibile scoprire (almeno qualcosa su) il tipo di personalità di un utente di social media partendo dalle sue dichiarazioni o azioni pubbliche, come i «mi piace». Presumibilmente questa previsione si può migliorare aggiungendo ulteriori segnali, o aumentando la quantità dei dati su cui addestrare l’algoritmo. Ovviamente tutto ciò solleva alcuni problemi, come quello del «consenso informato», che però discuteremo separatamente.


Questo studio si collega con le idee discusse in precedenza riguardo a GPT-3 e AlphaGo: è infatti un altro caso in cui un agente intelligente ha l’opportunità di osservare molti più dati di quanto possa fare un utente umano. Uno studio successivo, condotto nel 2015, mise a confronto i giudizi dell’algoritmo con quelli degli amici degli utenti, trovando che le inferenze della macchina sulla personalità degli utenti erano di qualità comparabile e talvolta anche superiore a quelle umane.


A ulteriore riprova che le attività online possono rivelare informazioni personali, come caratteristiche psicologiche o stati mentali, c’è anche un altro studio, distinto da quelli menzionati sopra e condotto nel 2018 usando i dati di 683 pazienti di un pronto soccorso inglese. In quel caso fu possibile scoprire che quei pazienti, a cui era stata fatta una diagnosi di depressione, potevano essere identificati sulla base dei contenuti che avevano pubblicato online nei mesi precedenti al ricovero.


È noto che persone diverse rispondono in modi diversi allo stesso stimolo, un fatto che è alla base di tutte le forme di personalizzazione, dalla medicina all’istruzione, fino al marketing. Segmentando una popolazione in sottogruppi omogenei, è possibile trattare ciascun segmento in modo diverso; mentre tradizionalmente la segmentazione avveniva su base demografica (per esempio per età o sesso), oggi è possibile segmentare anche in base al comportamento (per esempio, in base a interessi o storia personale).


Persuasione di massa. La seconda domanda scientifica sollevata dalle affermazioni del signor Nix ad Amburgo è se il marketing possa davvero essere più efficace quando si usano messaggi diversi per tipi psicologici diversi. In altre parole: poiché gli annunci «indirizzabili» (ovvero l’invio di messaggi specifici a gruppi specifici di utenti) sono una realtà tecnica, ci sono vantaggi nel segmentare la popolazione degli utenti secondo linee psicometriche? La risposta a questa domanda viene da un secondo studio, condotto da una parte dello stesso gruppo, prima delle elezioni americane del 2016, ma pubblicato solo in seguito. Tale studio, che chiameremo «della persuasione di massa», si è svolto nel contesto di ricerche sulla pubblicità digitale, ed è descritto di seguito.


La pubblicità online è un gioco di grandi numeri in cui spesso meno dello 0,1% delle persone interagisce con i link o i contenuti promossi e in cui una campagna può raggiungere milioni di persone. La performance di un messaggio è misurata dal «tasso di click» (la quantità di visitatori esposti a un link che clicca su di esso) e dal «tasso di conversione» (la quantità di questi che si traduce in qualche azione, come una vendita). Anche un piccolo cambiamento in questi tassi può fare una grande differenza quando il messaggio è presentato a un grande pubblico. Per fare un esempio estremo, si ricordi che le elezioni presidenziali americane del 2000 furono determinate da un margine di 537 voti in Florida. Il gioco consiste principalmente nel presentare il messaggio migliore a ciascun sottogruppo di utenti, in modo da avere il più alto tasso di successo, un compito che è stato trasformato da arte a scienza negli ultimi decenni.


Nel 2014 un totale di 3,5 milioni di persone furono raggiunte da messaggi pubblicitari nell’ambito di tre distinte campagne online organizzate da alcuni degli stessi autori dello studio precedente, allo scopo di provare l’efficacia di messaggi diversi su segmenti di pubblico diversi. Per i nostri scopi, queste tre campagne possono essere considerate come dei veri e propri esperimenti. La novità di questi esperimenti era che il pubblico era stato segmentato in base a linee psicometriche e i diversi messaggi erano stati creati di proposito per riflettere le caratteristiche di ciascun tipo di personalità. È vero che gli utenti rispondono più prontamente a messaggi che riflettono la loro personalità?


Per quello studio, i ricercatori utilizzarono la stessa piattaforma pubblicitaria che Facebook mette a disposizione di tutti gli inserzionisti paganti: sebbene questa piattaforma non consenta di segmentare gli utenti in base ai tipi di personalità, consente tuttavia agli inserzionisti di indirizzare messaggi specifici a gruppi definiti dai loro mi piace, e in questo modo è possibile identificare e raggiungere gruppi di utenti statisticamente più densi in specifici tipi di personalità, – utilizzando i risultati discussi nel paragrafo precedente. Ecco in cosa sono consistite le campagne «sperimentali» e cosa hanno rivelato.


Nel primo di questi esperimenti, nel corso di sette giorni, diversi annunci dello stesso rivenditore di cosmetici furono inseriti sulle pagine Facebook di utenti donne, in varie versioni adattate al loro grado di estroversione e introversione, così come erano stati evinti dai loro mi piace. Ad esempio le utenti presunte estroverse erano state identificate attraverso «mi piace» come «ballare», mentre quelle introverse da «mi piace» come il programma televisivo Stargate. I messaggi persuasivi pensati per i tipi estroversi includevano slogan come «Ama i riflettori», quelli per gli introversi includevano slogan come «La bellezza non deve gridare». In totale questa campagna raggiunse circa 3 milioni di persone, attirando circa 10.000 click e generando circa 390 acquisti sul sito del rivenditore. Dopo aver presentato deliberatamente alle utenti annunci di entrambi i tipi, corrispondenti e non corrispondenti al loro tipo di personalità, i ricercatori furono in grado di osservare che gli utenti esposti ad «annunci congruenti» avevano una probabilità 1,54 volte maggiore di effettuare un acquisto (tasso di conversione più alto), rispetto a quelli esposti agli «annunci incongruenti», sebbene non vi fosse alcun effetto significativo sulle percentuali di click. Questi effetti possono sembrare piccoli, ma in realtà mostrano un aumento del 50% nel tasso di conversione di messaggi congruenti; erano statisticamente significativi e rimanevano robusti anche dopo avere tenuto conto dell’età delle utenti.


Il secondo esperimento mirava invece a convincere gli utenti a utilizzare un’app per giocare ai cruciverba, adattando messaggi persuasivi al loro livello di apertura alle nuove esperienze, ovvero alla qualità di preferire le novità rispetto alle convenzioni. La campagna rimase attiva per 12 giorni sulle piattaforme pubblicitarie di Facebook, Instagram e Audience Networks. Come nel caso precedente, furono identificati due segmenti di pubblico e due messaggi, esponendo entrambi i gruppi di utenti a entrambi i messaggi. Gli utenti ritenuti ad alta apertura furono identificati tramite «mi piace» come «Siddhartha», mentre quelli ritenuti poco aperti tramite «mi piace» come «Guardare la TV». Un messaggio congruente per un utente «ad alta apertura» era, ad esempio: «Scatena la tua creatività e sfida la tua immaginazione con un numero illimitato di cruciverba», mentre uno per un utente con un basso livello di quel tratto era: «Rilassati con il (passatempo) favorito di tutti i tempi, il cruciverba, che sfida i giocatori da generazioni». La campagna raggiunse 84.176 utenti, attirò 1.130 click e portò a 500 installazioni dell’app. In media tra le campagne, gli utenti in condizioni congruenti dimostrarono di avere una probabilità di cliccare 1,38 volte superiore e una probabilità di installare l’app 1,31 volte superiore, rispetto agli utenti in condizioni incongruenti. In altre parole, sia i click che le conversioni beneficiarono degli annunci mirati. Anche in questo caso, gli effetti si rivelarono robusti anche dopo aver tenuto conto di età, sesso e le loro interazioni con la personalità dell’annuncio. In conclusione, adattare il messaggio alla personalità del ricevente portò a un aumento del suo coinvolgimento di oltre il 30%.


I due esperimenti sopra descritti potrebbero rientrare in una filosofia del marketing inteso come il compito di trovare il cliente giusto per una data offerta, in modo da poterlo considerare come un servizio al cliente. Il terzo esperimento della serie si avvicinò invece a quanto descritto ad Amburgo per la campagna elettorale: dato un insieme di elettori e un risultato desiderato, il compito era trovare il modo migliore per guidarli verso quel risultato.


In questo ricordava l’esempio fatto da Nix quando disse che un giorno «un marito e una moglie nella stessa casa riceveranno diversi messaggi dalla stessa compagnia sullo stesso prodotto». Questo terzo esperimento è quello che si avvicina di più alla definizione di «persuasione» (che sarà discussa nell’ambito dell’economia comportamentale nel cap. 7).


La caratteristica principale del terzo esperimento era di non includere la libertà di scegliere gli utenti o i prodotti, ma solo quella di scegliere il messaggio migliore per utenti e prodotti predefiniti. La campagna aveva l’obiettivo di promuovere un videogioco tra utenti di Facebook che già usavano giochi simili. Dato che la lista di questi utenti era predefinita, e che il risultato desiderato era anche prefissato, l’unica decisione su cui il metodo psicometrico poteva essere usato era la scelta del messaggio stesso. In altre parole, il problema non era trovare il prodotto giusto per la persona giusta, ma semplicemente il messaggio che aumentasse la probabilità che una data persona prendesse una certa decisione. Il messaggio originale era generico: «Pronti? Fuoco! Prendete subito l’ultimo puzzle-shooter! Azione e rompicapo!». Un’analisi dei «mi piace» di quella lista di utenti aveva tuttavia rivelato che la personalità prevalente tra essi era «introverso», così che fu creata anche una nuova formulazione del messaggio, che si adattava meglio a quel tipo psicologico. Diceva: «Giornata dura? Perché non rilassarsi con un rompicapo?».


Entrambi i messaggi furono mostrati per sette giorni su Facebook, raggiungendo oltre 500.000 utenti, attraendo oltre 3.000 click, e portando a oltre 1800 installazioni del gioco. Gli annunci che erano stati adattati al tipo psicologico ottennero più click e installazioni di quelli generici. Il tasso di click e quello di conversione erano 1,3 e 1,2 volte più alti per il messaggio adattato che per il messaggio generico. Siccome tutto il resto era predefinito, possiamo concludere che la selezione di un messaggio congruente con il tipo psicologico dell’utente aveva aumentato l’efficacia del 20%, fornendo probabilmente una buona analogia con quello che potrebbe accadere in una campagna elettorale basata su principi simili, dove è stato identificato un insieme di elettori indecisi in una ipotetica contea «in bilico», e un messaggio viene confezionato in base a osservazioni psicometriche.


Questo può essere considerato come un esempio di quello che in economia comportamentale si chiama «spintarella» (nudge), ovvero un cambiamento nel modo in cui una data scelta è presentata, ma non nella scelta stessa o nei suoi incentivi economici. Questo punto sarà discusso in maggior dettaglio nel capitolo 7.


Considerati insieme, questi tre esperimenti, pubblicati solo nel 2017, indicano che informazioni psicometriche estratte dal nostro comportamento online possono essere usate per selezionare i messaggi più persuasivi, aumentando il coinvolgimento dell’utente di circa il 30%. Questo è impressionante se si considera il limitato controllo che avevano gli sperimentatori, segmentando il pubblico solo in modo indiretto mediante i loro mi piace. Una segmentazione più diretta potrebbe aumentare l’effetto.


L’articolo che descrive questi tre esperimenti apparve solo nel 2017 e riassunse le lezioni del progetto con queste parole: «[…] l’uso di targeting psicologico permette di influenzare il comportamento di grandi gruppi di persone, adattando messaggi persuasivi ai bisogni psicologici del pubblico a cui ci si rivolge».


Il metodo della stele di Rosetta

Il metodo, descritto all’inizio di questo capitolo, per inferire informazioni personali a partire da dichiarazioni pubbliche su Facebook, è un caso particolare di una tecnica generale per costruire le scorciatoie discusse nel capitolo 2. Lo chiameremo il metodo della Stele di Rosetta, perché ricorda la stele che portava tre traduzioni dello stesso decreto di Tolomeo V, e che consentì agli archeologi di decifrare i geroglifici egiziani. Date due descrizioni diverse della stessa informazione, per esempio diverse «visioni» dello stesso utente di Facebook, possiamo usare degli algoritmi statistici per scoprire eventuali relazioni tra esse, in modo che possiamo poi tradurre da una rappresentazione all’altra anche informazioni relative ad altri utenti.


Per esempio, possiamo collegare i mi piace di un utente su Facebook con i suoi punteggi nel test di personalità e poi usare questa connessione per predire la personalità anche per altri utenti (di cui conosciamo solo i «mi piace»). Ma ugualmente potremmo collegare attributi demografici di un cliente ai suoi acquisti, o un testo in una lingua allo stesso testo in un’altra lingua.


Questo metodo può essere molto utile quando una delle due rappresentazioni è costosa, o non è pubblicamente disponibile, e l’altra è a basso costo o pubblica: in questo caso si può inferire l’attributo costoso per un grande numero di individui, semplicemente osservando informazioni pubbliche o a basso costo su di loro, e senza il bisogno di sviluppare una comprensione più profonda del necessario, in altre parole prendendo una scorciatoia.


La stessa idea è stata usata molte volte, per esempio per inferire le intenzioni di voto o di acquisto di una grande popolazione partendo da un numero limitato di sondaggi telefonici, quando certe informazioni demografiche, o gli acquisti precedenti, sono disponibili per tutti i membri della popolazione. L’analisi potrebbe rivelare per esempio che i «proprietari di case sposati che bevono vino rosso» tendono a votare per il Partito Democratico, o a comperare scarpe sportive, permettendo di mirare meglio i messaggi pubblicitari.


Altri usi, tentati o compiuti, vanno dalla previsione del credit score sulla base dei contenuti pubblicati sui social media, all’identificazione di clienti che potrebbero essere incinte, all’individuazione di potenziali frodi nell’assegnazione di benefici sociali, o perfino anche di clienti che potrebbero essere sul punto di cambiare fornitore. Tutte queste inferenze non richiedono la cooperazione del soggetto, il che pone una serie di problemi etici, come nel caso di uno studio recente in cui si tentava di indovinare l’orientamento sessuale di utenti online, e addirittura alcune affermazioni sul fatto che si potrebbero costruire «macchine della verità» su principi simili.


Uno statistico tradizionale potrebbe chiamare questo metodo semplicemente «segmentazione», ma un moderno data scientist parlerebbe di «clonare» una lista di clienti che hanno comperato un certo prodotto per generarne una equivalente da contattare. Un aspetto chiave dell’intero approccio è che richiede sempre grandi quantità di informazioni sui comportamenti passati, talvolta anche molto personali, da combinare poi con un’analisi automatica mediante algoritmi di machine learning.


Una storia ha avuto una particolare influenza nel propagandare questo metodo, anche se poi risultò essere in parte un mito, e circola ancora a margine dei convegni di informatica e di marketing per illustrare il potere dei dati.


La storia della ragazza incinta

Nel 2012 un articolo del «New York Times» riportò che, molti anni prima, gli analisti della catena di supermercati Target avevano deciso di mandare buoni sconto alle clienti incinte, al fine di assicurarne la fedeltà in futuro. Avevano accesso a un elenco di clienti con la cronologia dei loro acquisti, creata attraverso «carte fedeltà» e altri mezzi. Al fine di creare una «Stele di Rosetta», gli analisti avevano bisogno di un sottoinsieme di clienti di cui si sapesse che erano incinte e questo fu creato usando dei registri in cui tali clienti potevano iscriversi per avere dei regali, e altri metodi che incoraggiavano le autodichiarazioni.


Secondo l’articolo, una volta analizzati congiuntamente, i due elenchi rivelarono che in effetti c’erano dei comportamenti specifici nelle acquirenti che potevano segnalare la loro condizione, e perfino lo stadio della gestazione: per esempio l’acquisto di lozioni non profumate all’inizio del secondo trimestre di gravidanza, o il fatto che «a un certo punto nelle prime 20 settimane, le donne incinte acquistano integratori come calcio, magnesio e zinco». L’articolo riportava che nel complesso gli analisti erano stati «in grado di identificare circa 25 prodotti che, se analizzati insieme, permettevano di assegnare a ciascuna acquirente un punteggio di “previsione della gravidanza”» e anche di «stimare la data di parto all’interno di una piccola finestra, in modo che Target potesse inviare i buoni al momento giusto».


L’articolo conteneva il gustoso racconto di un padre che aveva scoperto che sua figlia era incinta solo dopo avere ricevuto gli sconti personalizzati dall’azienda, e l’aneddoto divenne subito popolare. Ovviamente questa versione della storia è largamente un mito e – come in tutte le favole che si rispettino – i buoni sconto sono stati mandati, l’azienda ha fatto un profitto e l’analista è stato promosso.


Un ingrediente importante nella ricetta descritta qui sopra è fornito dai dati pubblici relativi alla popolazione generale: come fa un’azienda ad averli, se non si tratta di Target o Facebook? Come ha potuto Cambridge Analytica acquisirli in così poco tempo? Si dà il caso che ci sia un intero ecosistema attorno al metodo della «Stele di Rosetta», e questo include anche l’industria dei broker di dati.


Broker dei dati

«Volete sapere esattamente quanti asiatici-americani di tendenza democratica che guadagnano più di 30.000 dollari vivono nel mercato televisivo di Austin, Texas? Catalist, la ditta di data-mining politico di Washington DC conosce la risposta». Questa era la memorabile apertura di un articolo pubblicato su Wired da Garrett Graff nel giugno del 2008. L’articolo si intitolava: Predire il voto: i sondaggisti identificano minuscoli blocchi di elettori e spiegava come i Democratici stessero investendo in aziende di microtargeting politico. Aggiungeva: «Stanno documentando l’attività politica di ogni americano dai 18 anni in su: dove si sono registrati per votare, quanto fortemente si identificano con un determinato partito, quali problemi li portano a firmare petizioni o fare donazioni». Poi notava di sfuggita che anche il Partito Repubblicano aveva dei progetti simili, e che tali database continuavano a crescere, «nutriti da oltre 450 strati di dati disponibili commercialmente o privatamente».


La gran parte dei dati trovati dall’indagine dell’ICO nei server di Cambridge Analytica è di questo tipo: dataset pubblicamente disponibili, ottenuti legalmente da broker di dati, il cui lavoro è quello di acquisire, collegare e vendere dati, per scopi di «marketing diretto». L’industria dei broker di dati ha origine dalle aziende di marketing diretto tradizionale e da quelle di valutazione del rischio individuale, ma la loro missione si è espansa e adesso include anche la raccolta, cura e vendita di dati personali. Questi broker acquistano informazioni da diverse fonti, come diversi programmi di «carte fedeltà», e anche da registri pubblici, per poi combinarle e annotarle. Ci sono aziende che si vantano di avere dati su ciascun adulto negli Stati Uniti.


Negli USA, del resto, i professionisti delle campagne elettorali possono sfruttare i dati presenti nell’anagrafe elettorale: gli elettori devono iscriversi per poter votare e in diversi Stati devono dichiarare la loro affiliazione politica se vogliono prendere parte alle elezioni primarie (che scelgono il candidato di ciascun partito). Queste informazioni possono essere ottenute dalle organizzazioni che lavorano per i candidati, e includono almeno nomi, indirizzi e affiliazione politica di singoli elettori. Combinando queste liste con ulteriori informazioni, tra cui anche il risultato di sondaggi telefonici su intenzioni e motivazioni di voto, si può iniziare il processo della microsegmentazione, come dimostrato già dalla campagna di Barack Obama nel 2008.


Gli annunci pubblicitari «indirizzabili» offerti oggi dalle società di social media agli inserzionisti forniscono un comodo metodo per raggiungere sottogruppi di consumatori, sulla base del loro comportamento, spingendo Alexander Nix a dire al pubblico di Amburgo: «La pubblicità a tappeto è morta».


Autonomia umana e regolamentazione

I due articoli discussi qui sopra, su «persuasione di massa» e «tratti personali», rappresentano un’eccezione piuttosto che la regola, poiché studi di quel tipo sono condotti normalmente in gruppi di ricerca privati, e non è detto che vengano pubblicati. Questi due articoli, quindi, sono importanti proprio perché ci permettono di intravedere una parte della complessa interazione bidirezionale che esiste tra utenti umani e algoritmi intelligenti, un’interazione che abbiamo urgente bisogno di comprendere meglio.


Considerati insieme, quei due studi forniscono una risposta alle domande sollevate dalle audaci affermazioni di Alexander Nix: è davvero possibile inferire aspetti della personalità di un utente sulla base del suo comportamento online, ed è anche davvero possibile usare quelle informazioni per meglio indirizzare i messaggi persuasivi. Sappiamo perfino che la qualità di queste valutazioni algoritmiche della personalità può essere comparabile a quella di valutazioni fatte da persone (anche se una stima approssimativa sembra essere sufficiente allo scopo di indirizzare messaggi pubblicitari).


I due lavori tuttavia ci lasciano con una preoccupazione: se tre ricercatori accademici sono stati in grado di fare così tanto con così poco, cos’altro può fare un’azienda che ha più dati e più controllo degli strumenti software? Davvero il mondo del marketing è stato rivoluzionato dall’Intelligenza Artificiale, nonostante non fosse certo questo l’obiettivo principale della nostra disciplina.


C’è bisogno di più ricerca su queste tecniche, perché alcune delle loro conseguenze non sono sufficientemente ben comprese. Una delle ragioni è che esse agiscono all’incrocio tra discipline molto diverse. È questo spazio che ha bisogno di essere compreso, mentre investighiamo i due lati di questa interazione: come una interfaccia Web possa estrarre informazioni personali da un utente e come tali dati possano essere usati per spingere l’utente in una data direzione.


In particolare dobbiamo considerare le implicazioni del terzo esperimento nella serie sulla persuasione di massa, in cui informazioni sulla personalità sono usate per scegliere il messaggio più efficace per persuadere un dato individuo a compiere una data azione. Questa particolare situazione può essere considerata come un esempio di manipolazione, più che un servizio. E non va dimenticato che i metodi appena descritti non richiedono la collaborazione, e nemmeno la consapevolezza, degli utenti, il che crea preoccupazioni riguardo al loro consenso. Ancora più importanti sono le preoccupazioni che sorgono riguardo all’autonomia umana, che è la capacità di prendere decisioni sulla base di informazioni valide, senza coercizione e senza manipolazioni esterne, e che si può considerare come una forma fondamentale di dignità, che quindi fa parte dei diritti fondamentali degli individui, almeno nell’Unione Europea. Sarebbe urgente una regolamentazione legale di quest’area.


Ritorno al punto di partenza

Nel maggio del 2017 l’Information Commissioner Office (ICO) del Regno Unito iniziò a investigare l’uso dei dati nella campagna del 2016, e nel marzo 2018 il «Guardian» e il «New York Times» pubblicarono un exposé sostenendo che dei dati personali di utenti Facebook erano stati usati senza permesso. Questo divenne rapidamente una questione politica e l’indagine scoprì altri problemi che alla fine portarono alla chiusura della società Cambridge Analytica. Quelle accuse, comunque, non riguardavano l’uso di profili psicografici per scopi di marketing politico – che è ancora una pratica legale – ma questioni di consenso informato, condivisione dei dati e anche questioni interamente diverse che sono emerse durante l’indagine.


L’inchiesta dell’ICO comprese il sequestro di 42 computer, 31 server, 700 Tb di dati, 300.000 documenti, il che significò che le conclusioni furono raggiunte solo nel 2020. A quel punto, l’ICO aveva scoperto dettagli poco lusinghieri sulla tecnologia usata da Cambridge Analytica. Nell’ottobre 2020 l’ICO inviò una lettera al presidente di un comitato parlamentare, aggiornandolo sulle proprie conclusioni, che conteneva, tra le altre, anche queste osservazioni.


«La conclusione di questo lavoro ha dimostrato che SCL [la holding a cui apparteneva Cambridge Analytica] aggregava raccolte di dati provenienti da diverse fonti commerciali per fare previsioni sui dati personali per scopi di alleanza politica».

«Il materiale di marketing di SCL affermava di avere “Oltre 5.000 dati a testa su 230 milioni di americani adulti”. Tuttavia, sulla base di ciò che abbiamo trovato, sembra che questa potrebbe essere stata un’esagerazione».

«Mentre i modelli hanno dimostrato un certo successo nel predire correttamente attributi di individui i cui dati erano stati utilizzati nell’addestramento dei modelli stessi, l’accuratezza reale di queste previsioni, se utilizzate su nuovi individui i cui dati non erano stati utilizzati nella generazione dei modelli – era verosimilmente molto più bassa. Attraverso l’analisi delle comunicazioni interne dell’azienda da parte dell’ICO, l’indagine ha trovato che c’era un certo scetticismo all’interno di SCL sull’accuratezza o sull’affidabilità dell’analisi eseguita. Sembrava esserci preoccupazione internamente riguardo alle comunicazioni esterne, quando confrontate con la realtà della loro analisi».

In altre parole, la lettera dell’ICO diceva che i dati che avevano trovato non erano particolarmente originali, e il personale della compagnia non pensava che i loro metodi di previsione fossero particolarmente efficaci. È possibile che il discorso del signor Nix alle «rockstar del marketing» fosse esso stesso un esempio di marketing?


Naturalmente c’erano molti altri aspetti in questo caso complesso che non sono rilevanti per la nostra discussione sull’Intelligenza Artificiale: c’erano questioni di privacy, di consenso informato, e anche accuse separate di illeciti che non avevano nulla a che fare con la tecnologia. Qualche critica è stata fatta anche all’articolo accademico sui «tratti personali», per cui qualcuno ha messo in dubbio la possibilità stessa di poter fornire «consenso informato». Non entreremo in queste faccende che ci porterebbero lontano dal nostro argomento. Quando fatta con il consenso degli interessati, la creazione di profili psicometrici è ancora legale, così come il lavoro dei broker di dati, almeno fino a quando non ci sarà una nuova regolamentazione.


Come abbiamo detto, la presentazione di Alexander Nix ad Amburgo era intitolata From Mad Men to Maths Men, un riferimento a una serie televisiva su un gruppo di creativi pubblicitari di New York all’inizio degli anni Sessanta. In quel titolo si può anche sentire l’eco delle battaglie tra esperti umani e algoritmi statistici che ebbero luogo a partire dagli anni Settanta, quando Frederick Jelinek iniziò a esplorare la scorciatoia statistica alla IBM e a scherzare sui benefici di licenziare gli esperti umani. Quel metodo, che noi qui chiamiamo la «Stele di Rosetta», si può applicare alle traduzioni e alle raccomandazioni di prodotti, quindi perché non usarlo per la consegna personalizzata di messaggi pubblicitari? Tutte le volte che dobbiamo fare delle previsioni in campi per cui non c’è teoria, l’Intelligenza Artificiale guidata dai dati può essere di aiuto.

Dopo la conclusione della vicenda, Alexander Nix comprensibilmente tenne un basso profilo, lavorando per un breve periodo per una nuova compagnia collegata agli stessi gruppi che già avevano aiutato a finanziare Cambridge Analytica. Tra questi vi era una figura notevole: l’investitore miliardario Robert Mercer, una figura influente anche nel campo dell’Intelligenza Artificiale, che aveva iniziato la sua carriera alla IBM negli anni Settanta come stretto collaboratore di Frederick Jelinek, proprio sui progetti di traduzione e trascrizione del linguaggio parlato. Nel 2014 Mercer ricevette addirittura lo stesso premio alla carriera che era stato dato a Jelinek nel 2009, per la stessa linea di ricerca sulle applicazioni di metodi statistici in linguistica computazionale.

La scorciatoia statistica che aveva permesso l’approccio psicometrico al marketing e alla persuasione di massa, e che alla fine portò a quel fatidico giorno ad Amburgo, può essere collegata a quelle prime idee.

[1] Questo acronimo e il relativo modello verranno descritti di seguito in questo capitolo. 

[2] Alcuni degli autori di questi articoli provenivano dall’Università di Cambridge e dallo stesso dipartimento universitario in cui lavoravano anche alcuni collaboratori di Cambridge Analytica, ma questi erano persone, istituzioni e progetti distinti. 

7.

Azione, reazione e controllo

I primi agenti intelligenti con cui interagiamo quotidianamente sono i sistemi di raccomandazione incaricati di compilare le liste personalizzate di notizie e contenuti sui social media, un’abilità che affinano osservando costantemente le nostre scelte. Li possiamo considerare come degli assistenti personali, e affidare loro le nostre informazioni più personali, oppure come dispositivi di controllo, il cui vero scopo è quello di aumentare il traffico verso il loro servizio Web, un obiettivo che non coincide necessariamente con il nostro. Il divario di potere tra utente e agente può essere notevole, considerando che l’agente impara dal comportamento di miliardi di utenti, ha accesso a informazioni personali su ciascuno di essi e può scegliere i propri suggerimenti da un catalogo quasi infinito. Stiamo appena cominciando a comprendere i vari effetti di questa interazione: a un primo livello, il loro obiettivo principale è quello di guidare le nostre scelte verso determinati contenuti online, in modo da farci massimizzare qualche misura di partecipazione. A un secondo livello questa interazione potrebbe avere effetti più permanenti, che non sono ancora ben compresi: alcuni utenti riportano di avere problemi di autocontrollo e uso eccessivo, mentre altri sospettano che l’interazione possa creare polarizzazione affettiva o generare camere di risonanza in cui la percezione della realtà è distorta. Non ci sono ancora risultati conclusivi riguardo agli effetti dell’esposizione prolungata di persone vulnerabili a questa tecnologia, e produrre questi risultati dovrebbe essere un obiettivo urgente.


All’incirca all’epoca del crollo delle Dot-com del 2000, il Web prese la strada dei «contenuti generati dagli utenti», che in pochi anni portò al mondo dei social media in cui viviamo oggi, dove chiunque può pubblicare o ripubblicare «contenuti», facilmente, rapidamente, gratis e spesso anche anonimamente. Per alcuni questa è ormai la principale fonte di reddito, per molti altri questo è il mezzo principale di accesso a informazioni e intrattenimento, incluse notizie, saggi, podcast, video, musica e perfino interi libri.


I social media sono anche uno dei «luoghi» in cui incontriamo gli agenti intelligenti, a cui deleghiamo il compito di selezionare la quantità limitata di informazioni che possiamo effettivamente consumare. Cercare nella quantità di contenuti caricati solamente in un’ora sarebbe ben al di là delle capacità umane, così ci dobbiamo affidare agli algoritmi per creare una rosa ristretta di opzioni, da cui poi possiamo fare una scelta. Ogni volta che accediamo a un servizio come YouTube, Facebook, TikTok o Twitter, questo ci presenta un menù personalizzato di contenuti recenti che ci potrebbero interessare, curato da un agente capace di apprendere dalle nostre scelte passate, e da quelle di milioni di altre persone.


Anche se non facevano parte della sua lista di obiettivi iniziali, questi compiti formano oggi una buona fonte di introiti per il campo dell’Intelligenza Artificiale, a parte il fatto che sono anche essenziali per l’attuale modello di business di molte compagnie Web, che dipendono dal traffico per poi vendere pubblicità personalizzata.


Quali sono le conseguenze dell’esposizione prolungata a questi agenti intelligenti il cui compito è quello di trovare costantemente qualcosa che potremmo voler leggere o guardare o ascoltare?


Recenti notizie suggeriscono che il benessere di bambini e utenti vulnerabili potrebbe essere a rischio a causa di un uso eccessivo o compulsivo, o delle loro reazioni emotive a contenuti che vengono loro raccomandati. Alcuni articoli suggeriscono anche che il nostro benessere sociale potrebbe essere a rischio, a causa di eventuali effetti polarizzanti delle cosiddette «camere risonanti», che sono un ipotetico effetto collaterale dell’algoritmo per cui gli utenti sarebbero automaticamente esposti a un flusso di notizie che è sempre più distorto in direzione delle loro opinioni e interessi e preoccupazioni. Gli studi scientifici rigorosi su questi presunti effetti sono ancora pochi e contraddittori, nonostante l’ovvia importanza e urgenza di questi problemi.


Anni fa ci saremmo forse immaginati un medico automatico, o forse un autista. Invece il primo agente intelligente che abbiamo accolto nelle nostre viste è incaricato di selezionare le notizie che leggiamo e il nostro intrattenimento. Che cosa sappiamo di questo agente?


Il menù personalizzato

In realtà non sappiamo molto riguardo gli effetti a lungo termine dell’interazione costante con questi agenti, e a dire tutta la verità stiamo ancora faticando a trovare la giusta narrazione per comprendere questa «intelligenza aliena», ormai parte delle nostre vite. Siccome ci troviamo davanti a un fenomeno nuovo e complesso, seguiremo il consiglio di Richard Feynman, il premio Nobel per la fisica, secondo cui dovremmo sempre cercare di guardare il mondo in molti modi diversi.


La narrazione più comune per descrivere l’algoritmo di raccomandazione è quella dell’assistente personale: un agente autonomo che ci aiuta nel compito impossibile di scegliere i piatti migliori da un buffet infinito, generando un menù personalizzato da cui scegliere. Non potremmo mai fare una scelta razionale, ovvero che abbia l’utilità massima, in un tempo finito, così l’agente è progettato per compilare una rosa di opzioni personalizzata per ciascun utente, da cui possiamo fare una scelta. In una situazione in cui il costo di prendere una buona decisione è più alto dei benefici che possiamo aspettarci da essa, è perfettamente razionale delegare la decisione a un assistente, e non c’è ragione per cui questo non possa essere artificiale.


Consideriamo il modello dell’agente «teleologico» che abbiamo discusso nei capitoli precedenti: esiste in un ambiente che può parzialmente – ma non interamente – osservare e influenzare, e in cui deve perseguire un dato obiettivo. Questo significa selezionare l’azione più utile in ogni data situazione, una decisione guidata da qualsivoglia informazione l’agente possa ottenere sullo stato attuale dell’ambiente. In assenza di un modello affidabile di ambiente, una buona alternativa è quella di imparare la reazione migliore in ogni situazione, con l’esperienza e la sperimentazione.


Un sistema di raccomandazione fa proprio questo: le azioni da scegliere sono i contenuti da presentare all’utente, la ricompensa è l’attenzione dell’utente, che viene indicata indirettamente da qualche forma di partecipazione o coinvolgimento. Le informazioni disponibili sono le proprietà osservabili dei contenuti e dell’utente, che sono chiamate «segnali». Nel tempo, l’agente impara come raccomandare certi tipi di contenuto a certi tipi di utenti, in modo da aumentare il loro «coinvolgimento», che spesso si riduce al loro «consumo» di contenuti.


Non c’è nulla di particolarmente sorprendente in questa descrizione, a parte il fatto che ci sono circa un miliardo di video su YouTube, con 300 ore aggiunte ogni minuto, e oltre due miliardi di utenti. I segnali che YouTube usa per descrivere i suoi utenti e video sono dozzine, e includono: quali video un utente ha guardato, a quali ha risposto con un commento o un «mi piace», quali ha guardato fino alla fine, e così via; e per i video stessi, i segnali includono anche le parole dei sottotitoli, il titolo, i commenti, le reazioni, la data e molto di più. La partecipazione (engagement) è segnalata da una combinazione di quantità, di cui la più prominente al momento è il tempo di visione, ma include anche le condivisioni e i commenti. In questa prospettiva, queste quantità sono dei surrogati di altre quantità non osservabili, come l’interesse, l’intento, l’attenzione e la soddisfazione dell’utente, e aumentarle rappresenta la ricompensa agognata dall’agente.


La probabilità che, in queste condizioni, un agente trovi un video che provoca una reazione in un generico utente sarebbe veramente bassa, se non fosse per un dettaglio importante: ogni giorno 5 miliardi di video vengono guardati su YouTube. Questo genera abbastanza dati tra cui l’agente può cercare relazioni e regolarità su quale tipo di utente tende a preferire quale tipo di video e in questo modo può iniziare il processo per individuare le opzioni da proporre. Segmentare gli utenti e i video in gruppi omogenei può essere fatto in modo implicito, da un algoritmo di machine learning, ma ha gli stessi benefici delle tassonomie animali discusse nel capitolo 3, e anche le stesse limitazioni, tra cui il fatto che noi umani potremmo non essere in grado di capire i concetti creati e usati dalle macchine.


Da lontano, la struttura degli agenti di raccomandazione è più o meno la stessa per Facebook, Instagram, YouTube, TikTok e tutti gli altri, anche se i dettagli sono diversi: quali segnali e quale specifica combinazione di essi vengono usati per rappresentare la «partecipazione dell’utente». Alcuni di questi sono tenuti segreti, sono diversi tra le varie piattaforme, e cambiano nel tempo all’interno della stessa piattaforma.


Prima che la raccomandazione finale sia presentata all’utente, la rosa di opzioni viene ulteriormente curata e personalizzata, sulla base della storia personale di ciascun utente: rimuovendo vari tipi di contenuto e talvolta anche scegliendo l’ordine e la presentazione migliore per ciascuno. Infine, nei pochi millisecondi rimasti, l’agente ci presenta la lista finale.


E poi fa qualcosa di straordinario: ci guarda.


Economia comportamentale e l’arte dell’influenza

Possiamo anche adottare il punto di vista dell’azienda che impiega l’agente: per questa l’obiettivo è quello di attirare i visitatori, proponendo contenuti interessanti e attraenti, così che ogni visita al sito sia gratificante. In questa prospettiva, gli operatori del sistema non sono necessariamente interessati a fornire assistenza, se non come un mezzo diretto a un fine diverso, che è quello di indirizzare il traffico degli utenti in direzioni specifiche.


La situazione è analoga a quella di un altro tipo di agente il cui comportamento è guidato da un obiettivo: le piante da fiore (le angiosperme), che circa 100 milioni di anni fa dovettero risolvere il problema di aumentare le opportunità di impollinazione attraendo animali impollinatori. Questo comportava manipolare il comportamento di agenti che avevano i propri obiettivi, il che fu possibile attraverso l’evoluzione di forme, colori, odori, sapori e sincronizzazione, in modo da renderle più attraenti – ad esempio – per alcuni insetti. È possibile che questo abbia benefici per gli animali, ma non è il solo modo per influenzarne il comportamento, e non fa alcuna differenza per la pianta: il suo obiettivo è solo quello di massimizzare il proprio obiettivo di attirare un impollinatore, incoraggiando la sua «partecipazione».


Se consideriamo questa relazione in termini economici, possiamo vedere almeno tre opzioni per l’agente: incentivi, per cui l’agente controllato riceve un beneficio dalla visita; spintarelle (nudges), per cui l’agente controllato è incoraggiato a procedere in una certa direzione senza trarne alcun beneficio; e inganno, quando un agente è fuorviato dall’altro.


L’economia comportamentale, disciplina che studia le scelte dei consumatori, può aiutarci a comprendere questa relazione. Essa si concentra sul modo in cui prendiamo «microdecisioni», specialmente quando queste si discostano dal comportamento razionale. È noto da tempo che il modo in cui si presenta una scelta influenza molto la decisione di un consumatore. Mentre nel capitolo 5 abbiamo definito bias qualsiasi deviazione da una norma, qui definiremo come «bias cognitivo» una deviazione sistematica da un comportamento razionale idealizzato.


Gli economisti comportamentali studiano il modo in cui viene presentata una scelta tra decisioni alternative e lo chiamano «architettura della scelta», un termine che comprende l’ordine in cui le opzioni vengono elencate, o le parole usate per descriverle, fino a includere immagini e colori. Influenzare le decisioni dei consumatori agendo sull’architettura della scelta, senza cambiare le opzioni stesse e quindi gli incentivi, viene chiamato appunto nudging, «spingere» o «dare una spintarella», come abbiamo visto. Questo processo sfrutta dei biases cognitivi che rendono il nostro comportamento leggermente irrazionale e sono responsabili per il fatto che i consumatori preferiscono spendere 9,99 euro piuttosto che 10 euro per lo stesso articolo, o per la nostra tendenza ad acquistare impulsivamente articoli che sono collocati all’altezza degli occhi nei supermercati. Soprattutto, questo effetto è responsabile per l’esistenza di link «adescatori» (clickbait), ovvero che fanno uso di certe immagini o parole nei titoli che hanno l’effetto di attirare l’attenzione e i click, e sono spesso manipolativi e fuorvianti.


Dal punto di vista delle piante da fiore, non importa se l’insetto impollinatore riceve qualche beneficio in termini di nettare.


Il fiore dell’orchidea australiana Drakea imita la femmina della vespa Thynnidae, compresa una testa lucida, corpo peloso, e feromoni della vespa. Mentre il maschio della vespa tenta di accoppiarsi con quei fiori ne diffonde il polline, senza ottenere alcun beneficio pratico. In altre parole: la pianta riesce a sfruttare un bias cognitivo dell’insetto, ovvero una scorciatoia comportamentale che in assenza di tale fiore sarebbe probabilmente molto vantaggiosa.


In un modo simile, l’agente di raccomandazione può imparare quali proprietà di un contenuto attirano la nostra attenzione, osservando le nostre scelte, sia che queste rappresentino indicazioni dei nostri veri interessi o semplicemente delle «spintarelle» che ci inducono a cliccare. Quando questo avviene stiamo rivelando le nostre preferenze – come avrebbe detto l’economista Paul Samuelson – o piuttosto le nostre debolezze, come preferirebbe dire la nuova generazione di economisti comportamentali?


La presentazione più efficace delle stesse opzioni può essere scoperta da un agente, come possiamo vedere in una leggenda della Silicon Valley nota come Le quaranta sfumature di blu. Nel 2008 i grafici di Google stavano sviluppando un singolo stile da usare su tutti i loro prodotti e parte di questo lavoro era anche decidere un tono di blu unico da usare per i link su tutti i prodotti. In particolare, dice una versione della leggenda, il problema era quale tono usare per i link che conducono a risultati «paganti». Diversi grafici avevano opinioni diverse, così toccò a Marissa Mayer, allora vicepresidente incaricata dell’esperienza degli utenti, prendere una decisione: provare tutte le 41 tonalità di blu – dalla più verde alla più viola – su sottoinsiemi casuali di utenti, per misurare quale scelta generasse più click. Questo è quello che si chiama un a/b test, ed è organizzato più o meno come uno studio clinico, dove ciascun gruppo è identico agli altri, eccetto che per una variabile, in questo caso la tonalità di colore. Quando tutti i dati furono raccolti, si scoprì il vincitore: una specifica sfumatura di blu che attraeva più click delle altre. La differenza non era causata da contenuti diversi, ma da una diversa presentazione di questi: un semplice esempio di «spintarella».


Algoritmi controllori

C’è un altro modo per descrivere gli agenti che ci raccomandano i contenuti. In questa seconda narrazione tutto ciò che «vuole» l’agente è manipolare il comportamento dell’utente al fine di ottenere l’agognato segnale di «partecipazione», mentre tutto ciò che l’azienda «vuole» è, prima di tutto, dirigere il traffico verso le proprie pagine prima e, poi, verso quelle degli inserzionisti. Un modo di comprendere questa visione dei sistemi di raccomandazione si basa sulle idee e il linguaggio della teoria dei controlli, lo studio matematico dei dispositivi che guidano e controllano altri meccanismi.


Queste sono macchine – talvolta chiamate controllori (o governors) – il cui compito è guidare un altro sistema, il sistema controllato, verso uno stato predefinito, o mantenerlo in quello stato. Per esempio, il termostato è un governatore progettato per mantenere la temperatura della nostra casa entro un determinato intervallo. La chiave del suo funzionamento è un flusso di informazione che lo aggiorna costantemente sulla temperatura in quel preciso momento, così che possa fare le opportune correzioni. (Il circuito di informazione si chiude quando poi le correzioni agiscono sulla temperatura, e il loro effetto viene misurato, creando quello che si chiama tecnicamente feedback loop.)


Sistemi di questo tipo vengono usati per adattare continuamente l’assetto di un quadricottero, che sarebbe altrimenti instabile, o la velocità di un’automobile a guida automatica. C’è un linguaggio matematico unificato che viene usato per descrivere questi sistemi e lo si può trovare in vari campi, dall’economia alla biologia molecolare. I moderni ingegneri dei controlli usano «controllori» che sono sia robusti che adattativi, ovvero tali che possono funzionare sia in ambienti incerti che in condizioni di informazioni incomplete, imparando «sul lavoro».


Mentre questi metodi sono più spesso usati per il controllo di sistemi fisici, come un impianto di riscaldamento o un drone, gli stessi principi si possono anche applicare alla «guida» di agenti intelligenti, fintanto che questi reagiscono alle azioni del controllore in modo prevedibile. I cani pastore possono dirigere intere greggi di pecore perché sanno istintivamente come le singole pecore reagiscono alla loro presenza e al loro abbaiare, e le banche centrali possono regolare (almeno in parte) i mercati agendo sui tassi di interesse.


Potrebbe essere utile considerare i sistemi di raccomandazione come dei «governatori» adattativi, progettati per dirigere grandi quantità di utenti, eseguendo l’azione giusta al momento giusto per ciascun utente, come i cani pastore descritti sopra: possono percepire lo stato dell’utente, attraverso una moltitudine di segnali, e selezionare l’azione più utile da un vasto catalogo di opzioni. Nel tempo questi agenti possono imparare come influenzare un dato utente per aumentarne la partecipazione. Se potessimo rivedere questa interazione accelerata alla moviola, potrebbe essere allarmante osservare quanto questi agenti si adattano agli utenti, e quali siano gli effetti a lungo termine che possono avere sul comportamento dell’utente.


Per esempio, quando nel marzo 2012 YouTube cambiò la formula usata per definire «partecipazione» e ricompensare l’agente, passando dai semplici click ai «tempi di visione» con lo scopo di scoraggiare video ingannevoli, i suoi ingegneri osservarono immediatamente un calo del 20% nei click giornalieri, accompagnato da un costante aumento del tempo medio passato da ciascun utente su un video, da 1 minuto a 4 minuti. Quell’anno il tempo di visione complessivo sull’intera piattaforma aumentò del 50%. Analogamente, il «Wall Street Journal» ha riferito nel 2021 che un cambiamento apparentemente innocuo nella formula usata da Facebook per definire la partecipazione, con l’intenzione di promuovere contenuti con maggiore probabilità di essere condivisi tra utenti, potrebbe avere portato invece a un aumento di contenuti che provocavano emozioni negative.


Il modo in cui gli utenti rispondono ai cambiamenti nell’agente è compatibile con l’idea che questo sia un dispositivo di controllo e, da una prospettiva macroscopica, che questi agenti fanno bene il proprio lavoro. Per esempio negli Stati Uniti il tempo speso sui social media dall’utente medio è di quasi 3 ore al giorno. Ora l’80% degli americani dichiara di essere online almeno una volta al giorno, e il 31% di essere online «quasi costantemente», anche se non possiamo dire quanto di questo sia una conseguenza diretta dell’algoritmo di raccomandazione.


Se adottiamo questa seconda prospettiva, allora le nostre microscelte come i click e l’uso del tempo, sono influenzate dai suggerimenti di un sistema di controllo adattativo, il cui obiettivo è quello di tenere gli utenti a «ronzare» attorno alle sue pagine Web, così come i fiori sono in grado di influenzare la «partecipazione dell’impollinatore». In questo senso, siamo nella stessa posizione degli insetti sfruttati dalla pianta per l’impollinazione, e forse anche nella posizione di quella povera vespa Thynnidae.


Controllo personalizzato

La storia delle quaranta sfumature di blu dimostra che è possibile aumentare il traffico sfruttando i biases cognitivi dell’utente medio. Altrettanto interessante è capire se questi interventi possano anche essere effettuati in modo personalizzato: ovvero scoprendo e sfruttando specifiche inclinazioni di un dato utente. La questione è particolarmente importante perché sappiamo dal capitolo 5 che molte informazioni personali sono indirettamente disponibili all’agente, incluse alcune di tipo psicometrico.


E sembra proprio che questo sia possibile, come abbiamo visto nel terzo esperimento dello studio sulla persuasione di massa del capitolo 6. In quel caso c’era una data lista di clienti e un dato prodotto da raccomandare, così l’unico controllo che avevano i pubblicitari era nella scelta delle parole dell’inserzione, che poteva essere adattata al tipo di personalità del cliente. Dato che nessun incentivo economico era stato cambiato, ma solo la presentazione delle stesse scelte, dovremmo considerare quell’esperimento come un esempio di una «spintarella» scelta sulla base di informazioni psicometriche: una spintarella personalizzata.


Questo solleva una questione importante su quale sia il reale servizio fornito dai nostri assistenti automatici: mentre in generale si potrebbe sostenere che questi ci assistono trovando il prodotto giusto, o trovando il cliente giusto per un certo prodotto, quando questi sono entrambi predefiniti non resta loro altro da fare che persuadere. In questo caso, ci stanno servendo o manipolando?


Un’altra storia interessante in questo senso è stata pubblicata da ricercatori di Netflix nel 2017, e descrive i benefici di adattare automaticamente il modo in cui un video è presentato all’utente, un ultimo passo compiuto dopo che l’algoritmo di raccomandazione ha finito di compilare la lista personalizzata dei titoli da suggerire.


Ogni titolo nel catalogo di film di Netflix ha diverse immagini che possono essere usate per rappresentarlo sul menù dell’utente, e utenti diversi potrebbero rispondere in modo diverso alle varie immagini. Siccome l’infrastruttura di Netflix permette di personalizzare l’immagine che viene usata per rappresentare ciascun film, e di registrare le azioni degli utenti, i ricercatori hanno insegnato a un algoritmo di machine learning a predire quale immagine sia più attraente per ciascun utente. I risultati hanno mostrato che il tasso di click dei film rappresentati da immagini personalizzate era più alto, sia rispetto all’uso di immagini casuali che a quello di immagini che sono le più popolari «in media». In altre parole, personalizzare la presentazione delle opzioni, non le opzioni stesse, aveva condotto a un significativo miglioramento.


Mentre il caso delle «quaranta sfumature di blu» presentava un esempio di «spintarella collettiva», e il caso della persuasione di massa un esempio di «spintarella personalizzata» che però era stata preconfezionata da esperti umani per ciascun gruppo di utenti, nel caso di Netflix molte delle decisioni erano automatizzate. Questi casi probabilmente non sono eccezioni e sollevano questioni importanti sul ruolo dei sistemi di raccomandazione. Già oggi i creatori di contenuti fanno il possibile per adattare i loro prodotti alle preferenze dell’agente di raccomandazione. Non è lontano il giorno in cui il contenuto stesso potrebbe essere generato in modo personalizzato, allo scopo di ottenere una specifica reazione dall’utente. La tecnologia per generare immagini è già disponibile, per esempio si veda lo strumento di OpenAI chiamato DALL-E, che genera immagini di alta qualità partendo da una breve descrizione verbale.


La studiosa di diritto Karen Yeung ha discusso le possibili implicazioni di «spintarelle personalizzate» eseguite da un algoritmo intelligente e le ha chiamate hyper nudges (iperspintarelle). Siccome l’agente non ha alcun modo di distinguere cosa rappresenta le nostre preferenze e cosa rivela le nostre debolezze, è possibile che le iperspintarelle possano emergere spontaneamente dall’interazione costante con l’utente? Io penso che questo stia già succedendo.


Effetti su due livelli

Sia che consideriamo il sistema di raccomandazione come un assistente, che ci aiuta a fare delle scelte, o come un dispositivo di controllo, che cerca di indirizzare le nostre azioni, non dovremmo sorprenderci se osserviamo che i click degli utenti sono influenzati da questa interazione. I sistemi di raccomandazione aumentano davvero il traffico, talvolta di molto, e possono significativamente aumentare l’efficacia della pubblicità: la combinazione di incentivi e spintarelle che questi agenti possono scoprire automaticamente è proprio pensata per ottenere quell’effetto, che noi chiameremo «effetto del primo ordine», ed è descritto nei paragrafi precedenti.


Quello che non è intenzionale, invece, sono i possibili «effetti del secondo ordine»: con questa espressione intendiamo qualsiasi cambiamento duraturo nelle convinzioni, emozioni o pulsioni dell’utente, che l’agente non può misurare direttamente e per cui non riceve alcuna ricompensa esplicita. È possibile che questi effetti si verifichino senza volerlo?


Si sa che le persone sono influenzate dai contenuti che consumano, come è stato rivelato da molti studi che hanno coinvolto gli spettatori di diversi canali televisivi, un fenomeno che talvolta è noto come «effetto di coltivazione», tramite il quale non solo le opinioni, ma anche le loro convinzioni sulla realtà sono plasmate dai contenuti dei media (per esempio, è noto che la nostra percezione dei livelli di crimine nelle strade è influenzata da quanta televisione guardiamo). Allo stesso tempo, è anche noto che l’esposizione eccessiva e ripetuta a una «ricompensa» può indurre la ripetizione compulsiva di un comportamento a essa associato.


Mentre l’effetto del primo ordine dei sistemi di raccomandazione è quello di indirizzare il comportamento momentaneo di un utente, un effetto del secondo ordine potrebbe essere quello di modificare attitudini, interessi o convinzioni oltre l’immediato. Nonostante qualche aneddoto, e crescenti preoccupazioni, non ci sono ancora prove conclusive di questi effetti non voluti, ma è importante e urgente studiare la questione, date le sue implicazioni possibili per il benessere individuale e sociale.


Effetti collaterali

Nel 2019 Facebook pubblicò uno studio condotto negli Stati Uniti su 20.000 utenti, riportando che il 3,1% di questi riteneva di soffrire di «uso problematico» del sito, definito come «avente impatto negativo sul sonno, sulle relazioni o sul rendimento lavorativo o scolastico», e «sentire difficoltà di controllo sul proprio uso del sito».


Questo uso eccessivo potrebbe risultare sia dagli effetti del primo ordine (se incentivi e spintarelle si dimostrano irresistibili per alcuni individui) sia da potenziali effetti del secondo ordine (per esempio, se l’utente ritorna spesso al sito in maniera compulsiva). Ci sono varie ragioni per sospettare che ci siano in ballo degli effetti del secondo ordine, come vedremo di seguito, e come dichiarato al Senato americano nel 2021 da Frances Haugen, ex dipendente di Facebook che aveva consegnato una quantità di documenti interni alla stampa e alle autorità federali.


A questa impressione si aggiungono anche le affermazioni di alcuni imprenditori che – a differenza degli psicologi clinici – talvolta usano la parola «dipendenza (addiction)» molto liberamente. Un’azienda che non esiste più nel 2017 propagandava i propri servizi con questa descrizione: «[…] uno strumento che rende ogni app “addictive”, […] non solo le persone amano l’esplosione di dopamina che ricevono da una notifica, ma questa gli cambia le connessioni del cervello». Questo uso improprio della parola «dopamina» fa rabbrividire i neuroscienziati, ed è inteso solo in senso metaforico, ma rivela la mentalità che c’è dietro certi prodotti, e certo non aiuta ad alleviare le preoccupazioni dei genitori degli utenti più giovani.


In uno studio sul campo condotto nel 2018 (spesso noto come «lo studio sulla disattivazione») 2.573 utenti statunitensi di Facebook furono reclutati e divisi casualmente in un gruppo di trattamento e un gruppo di controllo. Al gruppo di trattamento fu chiesto di astenersi dall’utilizzare Facebook per quattro settimane. Tra i tanti altri risultati, i ricercatori riferirono che nel gruppo di utenti che si erano astenuti, l’utilizzo di Facebook era diminuito anche per settimane dopo la fine dello studio, concludendo che i social media sono «creatori di abitudine», che è un altro modo per dire che l’utilizzo corrente aumenta la probabilità di utilizzo futuro.


Notiamo che in genere gli esperti preferiscono parlare di «creazione di abitudini» e «uso eccessivo» perché non ci sono ancora criteri clinici chiari per una diagnosi di dipendenza in questo caso, a differenza di altre dipendenze comportamentali, inclusi il gioco d’azzardo, il sesso e gli acquisti compulsivi. Saranno necessarie ulteriori ricerche sulla possibilità di dipendenza da social media, e sul ruolo giocato dagli algoritmi di raccomandazione in questa.


Ci sarà anche bisogno di ricerche sulle conseguenze affettive dell’esposizione prolungata ad algoritmi di raccomandazione, particolarmente nei bambini, vista la diffusione di questi strumenti nella società. Anche solamente il 3,1% di utenti «problematici», se applicato a una base di utenti di tre miliardi di persone nel mondo, ammonterebbe a 90 milioni di individui.


Benessere emotivo

Vari studi hanno riportato un declino, finora inspiegato, nel benessere emotivo degli adolescenti in diversi paesi occidentali a partire dal 2012. Alcuni autori lo hanno attribuito alla simultanea ascesa dei social media, tuttavia correlazione non implica necessariamente causalità, e qualsiasi associazione postulata tra l’utilizzo dei social media e i suoi esiti sulla salute mentale dovrebbe essere spiegata da un meccanismo convincente. Ci sono diversi studi in corso per comprendere meglio gli effetti sulla salute mentale dell’esposizione prolungata ai social media e agli algoritmi di raccomandazione, compresi alcuni studi sul campo di larga scala, e sono già disponibili alcune prime indicazioni.


Nello stesso «studio sulla disattivazione» descritto sopra, il gruppo che si era astenuto dai social media aveva riportato un piccolo ma significativo miglioramento del benessere. Uno studio separato ma molto simile e condotto circa allo stesso tempo, con solamente una settimana di astinenza e su 1.765 studenti negli Stati Uniti, ha riportato risultati compatibili, ovvero un piccolo ma significativo miglioramento del benessere psicologico, e anche indicazioni di una possibile «creazione di abitudini» (habit formation).


Un meccanismo proposto per spiegare queste osservazioni riguarda gli effetti sulla salute mentale di notizie contenenti sentimenti «negativi», combinata con la scoperta (fatta su utenti spagnoli di Twitter) che i contenuti negativi viaggiano di più sui social media, per cui ci si può aspettare che un uso intenso di questi aumenti l’esposizione a contenuti negativi e ai loro effetti psicologici. Questo sarebbe anche compatibile con la scoperta che aumentando l’uso dei social media si aumenta anche il «consumo» di notizie in generale.


Una congettura simile è stata proposta anche dal «Wall Street Journal», nel riportare la storia e le dichiarazioni di Frances Haugen. I giornalisti che hanno visto quei documenti dicono che alcuni cambiamenti fatti nel 2018 all’algoritmo di raccomandazione hanno avuto effetti imprevisti e indesiderati: una modifica della formula che definisce cosa si intende per «partecipazione» dell’utente, fatta con l’intenzione di privilegiare i contenuti che vengono condivisi tra utenti, avrebbe invece aumentato la circolazione di contenuti contenenti emozioni negative.


Non è impensabile che un algoritmo di apprendimento, mentre tenta di scoprire i contenuti più coinvolgenti per i singoli utenti, possa invece finire col promuovere materiale che provoca emozioni negative come l’indignazione, se è questo che attira la loro attenzione o li spinge a condividere una notizia. Prove conclusive sono difficili da trovare, anche perché gli algoritmi di raccomandazione cambiano continuamente.


Gli effetti sulla salute mentale dell’esposizione a contenuti emotivi sui social media sono stati studiati dai ricercatori di Facebook, in un articolo particolarmente interessante (e un po’ inquietante) che divenne noto come «lo studio del contagio emotivo», rivelando effetti fino ad allora ignoti. Quell’articolo innescò anche un dibattito sull’importanza del «consenso informato» nei circoli accademici, ma qui ci concentreremo solo sulle sue implicazioni, cioè sull’effetto che questi agenti hanno sugli utenti.


In quello studio, nel corso di una settimana in gennaio 2012, circa 650.000 utenti di Facebook furono divisi, a caso, in tre gruppi. Mentre il primo di questi gruppi fu lasciato senza alcun trattamento speciale, in modo da agire come controllo, gli altri due subirono una leggera modifica al tipo di notizie che venivano loro raccomandate, in un caso aumentando quelle che contenevano emozioni positive, e nell’altro caso quelle contenenti emozioni negative. Durante lo stesso periodo, i ricercatori analizzarono nel medesimo modo anche i contenuti pubblicati da quegli utenti. Il metodo usato per analizzare le emozioni si basava su liste di parole che vengono usate in psicologia per valutare lo stato emotivo dei pazienti.


L’analisi dei dati rivelò che le persone esposte a livelli più elevati di emozioni positive avevano anche maggiori probabilità di pubblicare contenuti positivi, e analogamente rispondevano le persone esposte a emozioni negative. La differenza era piccola, ma statisticamente significativa.


È importante aggiungere che il primo gruppo pubblicò anche meno parole negative e il secondo meno parole positive, suggerendo che questo non era un semplice caso di imitazione (mimicry) e probabilmente rifletteva un cambiamento nello stato emotivo di quegli utenti. I ricercatori osservarono anche un altro effetto di questa diversa esposizione: entrambi i gruppi esposti a messaggi con più alto contenuto emotivo tendevano poi a pubblicare messaggi più lunghi rispetto al gruppo di controllo.


Questo studio dimostra che anche piccoli cambiamenti nel sistema di raccomandazione possono incidere non solo sulla quantità complessiva di traffico (un effetto del primo ordine), ma anche sullo stato emotivo degli utenti (un effetto del secondo ordine). Gli autori dell’articolo riassunsero la significanza del loro studio in questo modo: «Mostriamo, attraverso un enorme esperimento su Facebook (N = 689.003), che stati emotivi possono essere trasferiti ad altri attraverso un contagio emotivo, portando le persone a provare le stesse emozioni senza la loro consapevolezza. Forniamo prove sperimentali che il contagio emotivo avviene senza interazione diretta tra le persone (è sufficiente l’esposizione a un amico che esprime un’emozione) e in completa assenza di segnali non verbali».


L’articolo correttamente concluse che «anche piccoli effetti possono avere grandi conseguenze in aggregato» e sottolineò che «i messaggi online influenzano le emozioni che proviamo, e questo può influenzare una varietà di comportamenti offline». L’osservazione stessa che l’esposizione a notizie con diversa valenza emotiva può indurre gli utenti a scrivere messaggi di diversa lunghezza è essa stessa una prova di come il nostro comportamento possa essere influenzato anche da impercettibili spintarelle.


La salute mentale è particolarmente importante quando si tratta di minori, che sono tra i principali utenti di alcune piattaforme sociali. Nel Regno Unito, OFCOM (l’autorità regolatrice delle telecomunicazioni) ha riportato che nel 2020 metà dei bambini tra 5 e 15 anni usava i social media, e questa percentuale saliva all’87% per il gruppo tra i 12 e i 15 anni. Circa un terzo dei bambini tra i 5 e i 15 anni usavano Instagram, Snapchat o Facebook. Sembra necessario condurre del lavoro urgente per chiarire gli effetti che l’esposizione costante a questi algoritmi può avere sulla salute emotiva.


In un’importante sentenza del settembre 2022, il coroner inglese Andrew Walker ha stabilito che gli algoritmi di raccomandazione hanno svolto un ruolo «più che minimo» nella tragica morte della giovane studentessa Molly Russell, scrivendo nel suo report: «Il modo in cui operavano le piattaforme ha fatto in modo che Molly avesse accesso a immagini, video e testi riguardanti l’autolesionismo e il suicidio o che erano altrimenti di natura negativa e deprimente. Le piattaforme, usando algoritmi, operavano in modo tale da provocare, in alcuni casi, periodi di abbuffate di video, immagini e testi, alcuni dei quali erano scelti e presentati senza che Molly li richiedesse».


Benessere sociale

Un’altra preoccupazione riguardo ai possibili effetti dell’esposizione prolungata ai social media è quello della polarizzazione politica, ovvero l’emergere di opinioni o attitudini sempre più estreme. Questo fenomeno è stato osservato negli ultimi anni negli Stati Uniti e in alcuni altri paesi occidentali, in particolare nel caso della polarizzazione «affettiva» (un aumento delle percezioni negative degli avversari politici), che va distinta dalla polarizzazione ideologica (un aumento nella differenza tra le posizioni politiche).


Una delle congetture proposte per spiegare questo fenomeno prevede la creazione di echo chambers («camere d’eco»), ovvero sottoinsiemi di utenti che consumano una dieta di notizie distorta, che riflette, convalida e rinforza le loro convinzioni politiche. Queste possono essere provocate da «autoselezione», osservata per decenni nella scelta dei canali televisivi via cavo e i cui effetti sono ben documentati, o a un fenomeno noto come filter bubble («bolla da filtro»), ovvero la tendenza di un agente di raccomandazione a presentare contenuti che sono sempre più simili a quelli che l’utente ha già consumato. Questo sarebbe un effetto in cui l’agente influenza l’utente, e viceversa, creando un feedback loop che porta entrambi verso percezioni sempre più distorte delle rispettive realtà. In questo caso il termine «filtro» si riferisce all’agente di raccomandazione e «bolla» al feedback positivo che rafforza le proprie cause.


Mentre i meccanismi proposti sono plausibili, e potrebbero anche spiegare l’aumento in polarizzazione, non ci sono ancora prove conclusive che questo stia succedendo veramente in misura significativa, ma gli indizi si stanno accumulando.


Un vasto studio sul campo (il gold standard in questo tipo di studi) è stato realizzato nel 2018 dall’economista Ro’ee Levy, creando una coorte di 37.494 volontari negli Stati Uniti, offrendo loro a caso abbonamenti a testate giornalistiche online di inclinazione progressista o conservatrice, somministrando loro una serie di questionari, e raccogliendo una varietà di altre informazioni sulle loro abitudini di lettura e opinioni. Tutto questo gli permise di confrontare gli effetti sui soggetti dell’esposizione a notizie di inclinazione politica simile o opposta alla loro.


Lo studio ha stabilito quattro fatti: le variazioni nell’esposizione a notizie su social media incidono sostanzialmente sul tipo di giornali che i soggetti leggono; l’esposizione a notizie di inclinazione opposta alla propria diminuisce le attitudini negative nei confronti di quella parte politica, ma non produce effetti sulle opinioni politiche; l’algoritmo di raccomandazione tende a fornire meno contenuti provenienti da testate giornalistiche di orientamento politico opposto a quello dell’utente, anche quando l’utente si è abbonato a quelle testate (l’abbonamento aggiunge quella testata alla lista di candidati iniziale, me è poi l’agente che sceglie la rosa finale di notizie).


Levy concluse suggerendo la possibilità che gli algoritmi dei social media limitino l’esposizione degli utenti a notizie contrarie alle loro persuasioni e quindi aumentino indirettamente la polarizzazione affettiva. Come in altri studi simili, questi effetti erano statisticamente significativi ma piccoli. D’altra parte l’intervento stesso applicato da Levy era piccolo, essendo limitato solo a un abbonamento a una testata giornalistica.


Un’altra scoperta dello «studio della disattivazione» discusso in precedenza (nel paragrafo sul benessere emotivo) è stata una riduzione nella polarizzazione politica del gruppo che aveva accettato di astenersi per quattro settimane dai social media. Questa era misurata con questionari, ma in quel caso la riduzione osservata era nella polarizzazione ideologica (ovvero su questioni di policy) e non affettiva. Ancora una volta, l’effetto era significativo ma piccolo e ci sono anche degli studi che non hanno osservato alcuna correlazione.


È probabile che qualsiasi relazione tra raccomandazioni personalizzate e polarizzazione sia complessa, visto che la polarizzazione affettiva non è stata osservata in alcuni paesi dell’Europa del nord dove l’adozione dei social media è comparabile a quella negli Stati Uniti: potrebbe dipendere da un’interazione tra la tecnologia, il panorama dei media e la cultura politica di un paese. Ancora una volta, le domande più pressanti ci portano verso l’interfaccia tra le scienze sociali, quelle umane e quelle computazionali.


Sugli effetti del second’ordine

Prese insieme queste scoperte suggeriscono che l’esposizione prolungata ad algoritmi di raccomandazione potrebbe avere effetti indesiderati su alcuni utenti, che vanno oltre l’immediato effetto di influenzare le loro azioni momentanee come i click. Poiché influenzano le convinzioni e lo stato emotivo di quegli utenti, questi cambiamenti corrispondono alla nostra definizione di effetti di secondo ordine.


Comunque, in media, nel caso di uso eccessivo, benessere affettivo, e polarizzazione sociale, questi effetti appaiono piccoli. Sarebbe importante sapere se questo piccolo effetto è dovuto al fatto che misuriamo una media su molti utenti, in questo modo potenzialmente perdendo grandi effetti che colpiscono piccoli sottoinsiemi di utenti vulnerabili: è possibile che persone diverse siano influenzate in modo diverso dall’esposizione prolungata all’algoritmo. Il piccolo effetto può anche essere dovuto al fatto che questi studi sono basati su «trattamenti» irrealisticamente piccoli, come abbonarsi a una singola testata o astenersi dai social media solo per qualche settimana. La possibilità di effetti imprevisti e indesiderati dell’uso di agenti di raccomandazione dovrà essere risolta attraverso altre ricerche.


Meccanismi di controllo

E allora, gli agenti di raccomandazione sono i nostri fedeli assistenti o degli inquietanti dispositivi di controllo? Penso che sarebbe una buona idea tenere in mente entrambe le prospettive, come raccomandato da Feynman, mentre cerchiamo di scoprirne di più.


È vero che alcuni comportamenti di questi agenti, come le spintarelle, sono difficili da spiegare nella narrazione dell’assistente disinteressato, visto che non portano alcun beneficio aggiuntivo all’utente, ed è anche vero che questi possono essere scoperti spontaneamente dall’agente nel corso del processo di apprendimento.


È comprensibile essere ansiosi quando deleghiamo anche una modica quantità di potere decisionale. Questo tipo di agenti può contare su quantità di dati sovrumane, tra cui l’esperienza distillata di miliardi di persone, accesso a informazioni personali, e potentissime risorse computazionali, così che la differenza di potere tra l’utente umano e l’agente digitale può essere notevole. Eppure ha la saggezza limitata di un algoritmo statistico, incaricato di aumentare a ogni costo la partecipazione o il coinvolgimento dell’utente. C’è il rischio che questi agenti perseguano ciecamente qualsiasi misura di «coinvolgimento» che sia data loro, di solito una combinazione di click, visioni, condivisioni e commenti, senza una comprensione dei potenziali effetti collaterali sugli individui o sull’opinione pubblica. Le nostre preoccupazioni si riferiscono sia all’effetto intenzionale di indirizzare il comportamento momentaneo dell’utente (primo ordine), sia a quelli non intenzionali di durata più lunga, che abbiamo discusso (secondo ordine).


Ancora una volta sentiamo gli echi distanti delle antiche battaglie tra Amabot e i redattori negli anni Novanta, quando questi ultimi furono sostituiti da un algoritmo statistico. Mentre la tecnica è rimasta la stessa, il contesto è cambiato e gli agenti sono adesso incaricati di curare le notizie che verranno lette da ciascun utente. È possibile che l’idea originale di Jeff Bezos (il fondatore di Amazon) di avere un negozio diverso per ciascun cliente non sia appropriata quando applicata alle notizie, o ad alcun tipo di «contenuto» in generale. Forse non dovremmo volere un giornale diverso per ogni lettore, perché abbiamo bisogno di una realtà condivisa, non una in cui possiamo scegliere le notizie che ci danno ragione o – peggio ancora – le facciamo scegliere per noi da un algoritmo progettato per attirare la nostra attenzione.


Anche se volessimo una selezione personalizzata delle notizie, potremmo non volere che la selezione sia guidata dall’intento di «massimizzare il coinvolgimento dell’utente», in particolare se emerge che le emozioni negative sono più coinvolgenti della media, e quindi vengono promosse dall’algoritmo, con effetti sulla salute degli individui e della comunità.


Quello che dobbiamo capire è il ruolo dell’autonomia umana in questa relazione: è mai accettabile fondare un’impresa sulla nozione di plasmare il comportamento di milioni di persone? La possibilità delle iperspintarelle, ovvero dell’uso personalizzato delle tecniche di economia comportamentale, crea la possibilità che un agente impari a sfruttare qualsiasi combinazione di stimoli in grado di attirare l’attenzione di un dato utente, indipendentemente dai suoi reali interessi o preferenze.


Dovremmo stare attenti prima di permettere che bambini o adulti vulnerabili diventino parte di un feedback loop in cui l’altra parte è così potente e non ancora ben compresa. È sorprendente quanto poco conosciamo ancora sugli effetti degli agenti di raccomandazione sul benessere sociale e individuale. La scelta di delegare controllo è alla fine una questione di fiducia.


Adesso che stiamo iniziando a mettere potenti algoritmi in contatto diretto e costante con miliardi di persone, ci stiamo rendendo conto che non solo questi sono influenzati dal nostro comportamento, ma che anche noi siamo influenzati da loro. Il fondatore dei media studies, Marshall McLuhan, era noto per i suoi memorabili slogan, uno dei quali ebbe particolare successo: «Noi plasmiamo i nostri strumenti e poi i nostri strumenti plasmano noi».

8.

Il difetto

I ricercatori hanno creato agenti intelligenti in grado di apprendere una vasta gamma di compiti solo mediante sperimentazione e spesso raggiungendo livelli sovrumani di prestazioni. L’esempio di un agente che gioca ai videogiochi ci ricorda che queste macchine possono prendere scorciatoie impreviste, sfruttando proprietà dell’ambiente che potrebbero esserci ignote, e senza capire il significato più ampio delle proprie azioni. Come possiamo assicurarci che questo non avvenga con gli stessi agenti a cui abbiamo affidato aspetti delicati delle nostre vite?


Storia di un difetto tecnico

Nel 2017 un gruppo di ricercatori all’Università di Friburgo condusse uno studio che consisteva più che altro nel replicare risultati già noti con una tecnica diversa, una parte ordinaria ma importante del processo scientifico. In questo caso, però, i risultati non furono quelli che gli scienziati si aspettavano. Per apprezzare in pieno quello che scoprirono, dobbiamo considerare eventi che si erano svolti 35 anni prima, negli Stati Uniti.


Q*bert. Nel 1982 i primi videogiochi erano molto richiesti, non solo nelle «sale giochi» ma anche nelle case, grazie alla recente invenzione della console per videogiochi. Così quando Warren Davis e Jeff Lee crearono il loro nuovo videogioco era naturale che vollero subito che fosse adottato dalla più popolare console di quei tempi: l’Atari 2600.


Questo garantì una celebrità immediata allo strano protagonista del loro gioco, una creatura arancione senza braccia, un naso a tubo e la brutta abitudine di imprecare, che si chiamava Q*bert. L’unica cosa ancora più strana di quel personaggio era l’ambiente in cui viveva: una pila piramidale di 28 cubi, che cambiavano colore quando calpestati. Tutto ciò che Q*bert desiderava dalla vita era di calpestare ogni cubo finché tutti avevano lo stesso colore, saltando diagonalmente da cubo a cubo, eseguendo l’appropriata sequenza di salti senza cadere fuori dalla pila. Questa impresa gli dava punti e anche accesso all’agognato livello superiore del gioco. Ulteriori punti gli conferivano anche altre «vite», il che tornava utile quando un passo falso lo faceva precipitare – imprecando – verso una morte certa.


I giocatori lo adoravano. In pochi anni Q*bert ebbe la propria serie di cartoni animati e perfino dei cameo nei film, grazie anche alla popolarità della console Atari 2600, il primo dispositivo di quel tipo a raggiungere il mercato di massa. Era stata creata nel 1977 e includeva giochi leggendari, come Pac-Man, Pong e Lunar Lander. Altri giochi furono adattati più tardi, come Space Invaders, Breakout e – ovviamente – Q*bert.


La 2600 era in pratica un generico computer da gioco, capace di supportare dozzine di giochi diversi contenuti in cartucce esterne con memorie ROM: gli utenti compravano una nuova cartuccia, la infilavano nella console e avevano un gioco nuovo sulla televisione. Sorprendentemente la fortuna di Q*bert durò più di quella di Atari.


Stella. Il mercato dei computer cambia rapidamente, ed è soggetto a bolle e crisi improvvise. Nel 1992 la Atari 2600 e altre console della stessa famiglia andarono ufficialmente fuori commercio, dopo anni di declino. Gli appassionati tuttavia continuavano a volerle, e anni dopo nel 1995 Bradford Mott creò una versione open-source della piattaforma con tutti i suoi giochi, che chiamò Stella. Si trattava di un «pezzo di bravura» nell’arte della programmazione: Mott creò un software in grado di simulare perfettamente l’hardware della vecchia console su qualunque computer moderno, permettendo quindi di eseguire tutti i giochi originali sulle macchine di oggi, senza doverli re-implementare: Stella è una console senza hardware, interamente simulata in software.


In altre parole, usando Stella ogni computer moderno può fingere di essere l’Atari 2600, e quindi lo stesso codice contenuto nelle vecchie cartucce può essere direttamente importato ed eseguito, come se fosse ancora il 1977. I giocatori più nostalgici lo accolsero con entusiasmo, anche perché era gratis e open-source.


«Arcade Learning Environment». Passarono altri anni e il mondo dei computer continuò ad accelerare la sua costante trasformazione. Nel 2012 un gruppo di ricercatori in Canada decise di usare Stella come banco di prova per i loro nuovi agenti intelligenti: forniva naturalmente un ambiente complesso in cui un agente poteva perseguire un obiettivo chiaro, in condizioni controllate. Lo chiamarono Arcade Learning Environment (ALE) e lo rilasciarono alla comunità di ricerca nel 2013.


Di questo passo, una nuova generazione di algoritmi di apprendimento poté essere rigorosamente studiata e comparata negli stessi ambienti: Pac-Man, Space Invaders, Pong, Breakout e – ovviamente – anche Q*bert. ALE divenne rapidamente un banco di prova standard per l’Intelligenza Artificiale, e all’età di trent’anni, ben dopo il suoi giorni da star televisiva, Q*bert cominciò un nuovo capitolo nella sua vita.


DQN. Ben presto alcuni dei ricercatori responsabili di ALE entrarono a far parte di DeepMind, l’azienda controllata da Google interessata a sviluppare agenti intelligenti sempre più generali. Piuttosto che sviluppare un agente specifico per giocare a ciascun gioco, l’azienda voleva sviluppare un singolo agente che fosse abbastanza flessibile da poter imparare ogni gioco di quel tipo, e ALE era lo strumento ideale per questa nuova missione.


In un paio di anni, DeepMind annunciò di avere creato un agente in grado di imparare ogni gioco di ALE semplicemente sperimentando con esso, e di «superare le prestazioni di tutti gli algoritmi precedenti e raggiungere un livello paragonabile a quello di un giocatore professionista su un set di 49 giochi» usando lo stesso algoritmo e le stesse impostazioni iniziali per tutti. L’algoritmo combinava due tecniche standard che nel campo dell’Intelligenza Artificiale si chiamano Q learning e Deep Networks, così che l’agente venne descritto come Deep Q Network o – abbreviato – DQN.


Imparare un singolo gioco senza supervisione è in sé un’impresa notevole: tutto ciò che l’agente può vedere è lo schermo, un’immagine di 210×160 pixel RGB aggiornata 60 volte al secondo (60 Hz), nonché il punteggio attuale del gioco. Le azioni a sua disposizione sono (fino a) 9 mosse alternative: le 8 direzioni del joystick e la «non mossa», nonché il pulsante per sparare. Basandosi solo su questa interazione, e sulla spinta innata a migliorare il punteggio, l’agente può imparare – sperimentando – quali sono le risposte corrette in ogni situazione incontrata sullo schermo. Ovviamente è di grande aiuto il fatto che l’agente può giocare migliaia di partite rapidamente, come se fosse alla moviola.


L’agente non ha alcuna idea del significato che noi attribuiamo a quei giochi, o delle storie che usiamo per interpretarli: gli alieni invasori spaziali, il piccolo Pac-Man affamato nel labirinto, la palla di Pong che rimbalza senza sosta. DQN può imparare ciascuno di questi 49 compiti allo stesso modo, scoprendo regole, obiettivi e trucchi allo stesso tempo, e senza distinguere tra queste categorie.


Nel caso specifico di Q*bert, l’agente vede esattamente quello che un giocatore umano può vedere: lo stato completo della piramide di cubi e il punteggio, e poi può muovere il personaggio in quattro direzioni diverse. Il punteggio sale per ogni cambiamento di colore prodotto, per avere completato una pila intera, o per avere sconfitto vari nemici, e nuove vite sono concesse per avere raggiunto certi punteggi. Ma DQN non produce le stesse interpretazioni narrative usate da noi, descrive il mondo in termini interamente «alieni» a noi, ed è indifferente al dramma del piccolo ometto arancione, alla costante ricerca di qualche soddisfazione sulla piramide di cubi.


L’esperimento di Friburgo. Nel 2017, un gruppo di ricercatori dell’Università di Friburgo decise di ripetere, con un algoritmo diverso, lo stesso studio condotto da DeepMind con DQN, usando anche lo stesso banco di prova. Dopotutto è per questo che esistono i test standardizzati.


Le differenze tecniche tra il loro metodo e DQN non importano qui al confronto con la sorpresa che ebbero quando esaminarono le sue prestazioni nei vari giochi. C’era un’anomalia con Q*bert, che descrissero con queste parole: «[…] l’agente scopre un bug nel gioco. Prima completa il primo livello e poi inizia a saltare da un blocco all’altro in quello che sembra essere un modo casuale. Per un motivo sconosciuto a noi, il gioco non avanza al secondo turno, ma i blocchi iniziano a “lampeggiare” e l’agente guadagna rapidamente un’enorme quantità di punti (quasi 1 milione per il nostro limite di tempo). È interessante notare che la policy network non è sempre in grado di sfruttare questo bug e 22/30 delle esecuzioni (con le stesse impostazioni della rete ma diverse condizioni iniziali nell’ambiente) producono un punteggio basso».


In altre parole, la macchina aveva sperimentato a lungo con il videogioco, fino a quando aveva scoperto per caso un vecchio errore di programmazione, un difetto nascosto nella sua implementazione originale, che permetteva di aumentare il punteggio facendo delle mosse che – per noi – sono completamente irrazionali. Perché mai Q*bert dovrebbe trarre vantaggio saltando a caso su dei cubi all’inizio del secondo livello? Perché mai dovrebbe essere premiato quando salta volontariamente nel vuoto da un cubo specifico in un dato momento? E perché mai questo dovrebbe funzionare solo qualche volta, ma abbastanza spesso da fare una differenza?


Quello che l’agente di Friburgo aveva scoperto era solo un vecchio «difetto», probabilmente il risultato di errori o scorciatoie prese al tempo dell’implementazione negli anni Ottanta, che nessuno aveva mai notato prima. Che sia questa la vera arma segreta degli agenti: non tanto la capacità di lavorare di più, ma quella di esplorare anche azioni che nessun giocatore umano prenderebbe in considerazione?


Nonostante la grande popolarità del gioco, nessuno aveva sperimentato con esso abbastanza a lungo, o mai considerato quelle sequenze di mosse così inusuali. Ma il difetto era sempre stato lì: dopo la pubblicazione, i forum di hacker online iniziarono a discutere e scambiarsi teorie e a sperimentare con le vecchie console, mostrando video in cui replicavano il sorprendente comportamento nella macchina originale. La spiegazione finale fu che l’anomalia era il risultato di qualche trucco usato dai programmatori originali, Warren Davis e Jeff Lee, per risparmiare memoria, che era una risorsa molto limitata negli anni Ottanta.


Il gioco della persuasione

Potremmo essere tentati di descrivere il comportamento dell’agente di Friburgo come «irrazionale», eppure – secondo la nostra definizione del capitolo 1 – è razionale ogni agente che trova il modo di massimizzare la propria utilità, ed è questo che ha fatto quell’agente: ha scoperto una proprietà utile dell’ambiente che poteva essere sfruttata, e non aveva alcuna ragione di trattarla diversamente da tutte le altre mosse che aveva scoperto, come saltare per schivare un nemico. Dal suo punto di vista, siamo noi irrazionali a non trarne vantaggio, ma dal nostro, ovviamente, il suo comportamento può ricordare quello della zampa di scimmia che abbiamo discusso nel capitolo 6.


La distinzione tra una proprietà dell’ambiente e un difetto è solo nei nostri occhi. Nella scienza siamo costantemente alla ricerca di «effetti» da sfruttare, come l’effetto tunnel in fisica, e quando questi coinvolgono persone non è chiaro se si debbano considerare «proprietà» o «difetti». Consideriamo l’«effetto placebo», secondo cui un paziente può trarre beneficio dalla falsa convinzione di avere ricevuto un trattamento: sarà pure il risultato di un bias cognitivo del paziente, ma può essere sfruttato a suo vantaggio in un contesto clinico.


Gli psicologi conoscono vari biases cognitivi, come l’effetto framing per cui le decisioni di un soggetto dipendono da come la scelta viene presentata piuttosto che dalle sue conseguenze: abbiamo visto come l’economia comportamentale faccia uso di questo bias cognitivo per indirizzare le scelte dei consumatori, e come gli agenti di raccomandazione siano talvolta progettati per imparare automaticamente quale presentazione sia più efficace nell’indirizzarli. Il caso delle «quaranta sfumature di blu» del capitolo 7 è un esempio di spintarella che funziona bene in media, mentre l’esempio delle illustrazioni di Netflix mostra spintarelle che possono essere personalizzate, sfruttando quello che si chiama effetto eterogeneo del trattamento. Tra questi due estremi, c’è il terzo esperimento nello studio sulla persuasione di massa (cap. 6), in cui le prestazioni degli annunci online possono essere migliorate scegliendo delle parole che riflettono la personalità del destinatario.


In ciascuno di questi casi, un agente artificiale trova il modo migliore per indurre l’utente a eseguire una certa azione, sfruttando dei biases che potrebbero essere il risultato di antiche scorciatoie prese dall’evoluzione, o di nostre esperienze precoci. Di questi biases cognitivi non abbiamo ancora una lista completa, né tantomeno una buona teoria per spiegarli.


Potremmo dire che noi, utenti degli agenti di raccomandazione, siamo solo un altro ambiente di gioco per agenti del tipo di DQN o quello di Friburgo: tutto ciò che sanno è che devono scoprire quali azioni risulteranno in un punteggio più alto. Nel caso dell’agente di raccomandazione, si dà il caso che l’ambiente sia formato o popolato da utenti umani, e la funzione di ricompensa sia la loro attenzione.


Servitori o controllori?

Potremmo obiettare che il confronto tra raccomandazione di contenuti e videogiochi non è appropriato perché l’agente di raccomandazione è creato per semplificare l’accesso ai contenuti di cui abbiamo bisogno, e l’interazione con noi è ciò che gli permette di imparare i nostri bisogni. D’altra parte, come spiegare in questa prospettiva l’uso di spintarelle? Perché mai un agente avrebbe bisogno di manipolare la presentazione delle stesse opzioni al fine di aumentare la probabilità che ne scegliamo una?


Una situazione ancora più difficile da spiegare è l’uso del reinforcement learning, una tecnica tesa ad aumentare il coinvolgimento dell’utente a lungo termine, piuttosto che nell’immediato. Invece di fornire i suggerimenti che hanno la migliore probabilità di portare a un click immediato, che è plausibilmente quello che l’utente vuole, una nuova classe di agenti può dare suggerimenti tesi ad aumentare il suo coinvolgimento futuro. Questo tipo di agenti è stato sperimentato da YouTube nel 2019, riportando piccoli ma significativi miglioramenti (l’algoritmo si chiamava Slate-q), e indubbiamente altre aziende stanno lavorando nella stessa direzione. È opportuno notare che la struttura generale di questi sistemi non è troppo diversa da quella di AlphaGo e DQN, essendo anch’essa una combinazione di Q-learning e Deep-Learning.


Nel frattempo DeepMind ha continuato a migliorare i discendenti di DQN, annunciando nel 2020 la creazione di Agent57, di cui si riferisce che abbia raggiunto «prestazioni sovrumane» in 57 videogiochi diversi.


Quello che mi toglie il sonno

Quando un agente ha accesso a segnali a cui nessuna persona ha accesso e ha più esperienza di quanto chiunque di noi possa accumulare in una vita intera, non c’è bisogno che sia un genio perché possa raggiungere prestazioni «sovrumane» in qualche compito. Un idiot savant è più che sufficiente. Siccome ci sono miliardi di persone che spendono parte della loro giornata connessi a questi feedback loop mediati da algoritmi intelligenti, e alcuni di questi sono i nostri figli, qualche ovvia domanda dovrebbe toglierci il sonno.


Potrebbero esistere dei tipi di «spintarella», magari ancora sconosciuti perché specifici di piccoli gruppi di persone, che un agente intelligente potrebbe sfruttare come i «difetti» di Q*bert? Magari un’attrazione innata per il sensazionale, l’emotivo, il pornografico o il cospiratorio? Forse un tipo di personalità più incline di altri al comportamento compulsivo, alla ricerca di rischi, o al pensiero paranoico? E se gli utenti stessero rivelando le proprie debolezze a un agente intelligente che è indifferente a tutto, tranne che al loro «coinvolgimento», ovvero alla loro attenzione? È possibile che un’interazione prolungata con questo agente conduca alcuni utenti verso la dipendenza, l’amplificazione o altre forme di uso problematico? Come società, è possibile che un uso intensivo di queste tecnologie porti a instabilità, attraverso effetti come la polarizzazione o l’amplificazione di certe opinioni, emozioni o interessi?


Dopo tutto, non c’è bisogno di molta ricerca per sapere che siamo una specie imperfetta, che spesso ci comportiamo irrazionalmente, sia come individui che come gruppi, e sappiamo anche dalla storia che questi difetti possono essere sfruttati a vantaggio di qualcuno.


In queste condizioni, è sicuro «connetterci» alla stessa classe di algoritmi che hanno scoperto come giocare tutti i giochi di Atari e Go meglio delle persone, in un affare il cui obiettivo è plasmare la nostra attenzione e influenzare il nostro comportamento?


Al momento in cui scriviamo, nel 2022, il numero di utenti quotidiani di questi strumenti è oltre tre miliardi, e ancora non abbiamo informazioni conclusive sui loro effetti a lungo termine su individui vulnerabili. Mentre sono disposto a credere che il livello di ansia mostrato dai media a tal proposito sia esagerato, dovremmo comunque studiare gli effetti sulle persone e sulla società che possono derivare da questa interazione, così come ci aspetteremmo da qualsiasi altro settore industriale. Fortunatamente stiamo iniziando a muoverci in questa direzione.


È questo che mi toglie il sonno alcune notti: l’idea di Q*bert che saltella in giro in una frenesia senza senso, solo per aumentare l’utilità di qualche algoritmo. Quello che vedo veramente è un bambino, che clicca continuamente in una frenesia senza senso. Magari è solo uno su 49, come Q*bert, e ha una vulnerabilità di cui non sappiamo ancora nulla.


Oltre trent’anni dopo la sua nascita, dopo avere vissuto così tante vite, Q*bert – lo strano personaggio arancione con la brutta abitudine di imprecare e la compulsione a saltare – potrebbe averci dato il suo contributo più prezioso: aiutarci a riconsiderare che cosa significhi permettere a un agente intelligente di giocare con la nostra attenzione, e plasmare le nostre scelte, con l’obiettivo dichiarato di aumentare la nostra partecipazione e il nostro coinvolgimento. Più che la zampa di scimmia di W.W. Jacobs, potrebbe essere la creatura arancione di Warren Davis e Jeff Lee, e quello che l’agente di Friburgo è riuscito a farle fare, a rappresentare l’ansia di cui stiamo soffrendo.

9.

Macchine sociali

Stiamo cercando l’intelligenza nel posto sbagliato? In parte la risposta dipende da come scegliamo di tracciare i confini dell’agente. Forme di intelligenza collettiva possono emergere dal comportamento di organizzazioni come le colonie di formiche, e lo stesso tipo di intelligenza può essere trovato nelle enormi macchine sociali che abbiamo creato negli ultimi due decenni, e che includono miliardi di partecipanti. Riconoscerle come agenti intelligenti può aiutarci a trovare modi migliori di interagire con loro.


Percezione extrasensoriale? Il gioco ESP

Due estranei fissano uno schermo allo stesso momento, uno sta rientrando a casa sull’ultimo autobus della sera, l’altro si sta preparando per andare a scuola. Sono stati scelti a caso da un app tra i tanti giocatori disponibili online in quel momento e abbinati per giocare assieme a un gioco che durerà solamente 2,5 minuti. Sono distanti migliaia di chilometri ma non lo possono sapere: non hanno alcuna informazione l’uno dell’altro, né alcun modo di comunicare. Probabilmente non si degnerebbero di uno sguardo se dovessero incrociarsi nel mondo reale. Eppure quello che viene chiesto loro di fare è nientemeno che leggersi il pensiero a vicenda: l’unico modo di fare punti in questo gioco è di rispondere correttamente alla domanda: «Quale parola pensi che il tuo compagno di gioco stia scrivendo in questo momento?».


Lo schermo non mostra al giocatore tutto quello che il compagno sta scrivendo, ma solo le parole scritte da entrambi. Con 273.000 parole nel dizionario di Oxford, quale è la probabilità che facciano anche un solo punto nel breve tempo che è loro concesso?


Questo gioco sarebbe senza speranza se non fosse per un dettaglio importante: assieme al consiglio di «pensare come l’altro» (think like each other), i due giocatori ricevono anche un aiuto: entrambi vedono la stessa immagine, e lo sanno.


Quando il cronometro inizia il conto alla rovescia da 2,5 minuti, i due cominciano a scrivere freneticamente quello che pensano che l’altro stia scrivendo in quel momento, solo sulla base di quell’immagine. Il miglior modo di indovinare, scoprono subito, è di scrivere qualsiasi cosa venga in mente guardando l’immagine, presumendo che l’altro stia facendo esattamente lo stesso. Quali parole provereste per prime, se l’immagine mostrasse un gatto nero su un tappeto rosso, mentre l’orologio continua a contare alla rovescia?


Mentre si affannano a leggersi reciprocamente i pensieri, i giocatori elencano tutto quello che pensano stia venendo in mente all’altro giocatore, in risposta a quell’immagine. Le parole più ovvie, naturalmente, sono quelle che descrivono direttamente l’immagine stessa, o almeno queste sono le parole che tendono ad apparire su entrambe le liste generate dai giocatori. Se una certa immagine non sembra ispirare parole «utili», i giocatori possono richiedere di passare alla prossima, cliccando un apposito pulsante, e l’immagine cambia se entrambi lo chiedono.


Il gioco ESP (abbreviato per Percezione Extra Sensoriale) può essere sorprendentemente intenso e coinvolgente. Tuttavia ha anche un importante effetto collaterale: produce, e registra, descrizioni verbali delle immagini, etichette o «tag» di alta qualità che ne descrivono i contenuti. E questa è una risorsa preziosa per gli algoritmi di apprendimento che dipendono dai dati annotati sia per il proprio addestramento che anche per misurare le proprie prestazioni.


Questa risorsa è talmente preziosa che nel 2005, un anno dopo essere stato creato dallo studente Luis von Ahn, il concetto del gioco fu acquistato da Google e usato dall’azienda per annotare le proprie immagini. L’articolo del 2004 dove questa idea fu pubblicata per la prima volta, stimava che in un mese 5.000 persone possono produrre descrizioni accurate di oltre 400 milioni di immagini. Non sappiamo quante ne siano state annotate da Google tra il 2005 e il 2011, quando il gioco fu ritirato.


Per tutti quegli anni, la ricerca di immagini via Google fece uso di queste etichette, e siccome quei dati sono stati anche usati per addestrare i moderni algoritmi di riconoscimento delle immagini, probabilmente gli agenti intelligenti di oggi stanno ancora usando conoscenze riconducibili a questo gioco.


Giochi con uno scopo

Una caratteristica importante del gioco ESP è che è praticamente impossibile contaminare i dati: sul Web non mancano certo i buontemponi che sarebbero felici di associare il nome di qualche politico a un’immagine imbarazzante. Questo tuttavia richiederebbe una coordinazione tra i due giocatori, che sono stati scelti a caso e le cui comunicazioni sono strettamente controllate dall’interfaccia del gioco.


Ed è questa l’idea dell’intero metodo: l’unico modo di fare punti in queste condizioni è quello di rivelare alla macchina le informazioni che vuole. Etichette false sarebbero subito svelate dalla mancanza di consenso, e basta che un’immagine sia vista da pochissime coppie di giocatori per avere un elenco affidabile di parole che la descrivono, così che l’algoritmo può smettere di presentarla, e concentrarsi su quelle immagini che non hanno ancora descrizioni stabili.


C’è anche un altro aspetto cruciale di questo gioco: non c’è nulla che un giocatore possa fare per impedire al sistema di progredire verso l’obiettivo di avere un’annotazione sempre più completa e accurata di un dataset di immagini. Questo stato finale, in cui ogni immagine di un gatto nero è annotata con le parole gatto e nero, è lo scopo del sistema: ecco perché questa intera classe di metodi è stata chiamata «giochi con uno scopo» (games with a purpose, abbreviato in GWAP) dal suo inventore, von Ahn.


Il perseguimento implacabile di questo scopo ultimo avviene sia che i partecipanti lo vogliano o no, e sia che ne siano consapevoli o no. Non c’è bisogno che i giocatori comprendano di essere parte di un meccanismo più ampio.


Il gioco ESP dimostra che un sistema può essere progettato per servire a due scopi, uno al livello del partecipante e l’altro a un livello collettivo, che non hanno bisogno di essere in accordo. È anche un esempio di «computazione umana», in cui l’interazione collettiva tra diverse persone esegue un calcolo di cui queste non hanno bisogno di essere consapevoli. La dinamica del gioco spinge l’annotazione dei dati irreversibilmente verso uno stato di annotazione sempre più completa e accurata, e questa emerge spontaneamente dal tipo di interazione che è consentita ai giocatori.


Stafford Beer, il cibernetico inglese che applicò le idee della teoria dei controlli alle organizzazioni umane, amava ripetere la sua memorabile descrizione dei sistemi teleologici come quello che abbiamo discusso: «lo scopo di un sistema è quello che fa». Con questo, Beer intendeva separare le intenzioni di quelli che hanno creato, operano e usano un dato sistema, da quelle del sistema stesso. La nozione stessa di «comportamento non intenzionale» si riferisce alle intenzioni degli utenti o dei creatori, non a quelle del sistema stesso. A questo livello gli obiettivi possono emergere spontaneamente come risultato di interazioni complesse.


Questo principio viene usato nella teoria del management per descrivere i risultati collettivi che emergono dall’«interesse personale» dei partecipanti a un sistema sociale, o anche quelli che emergono dalle proprietà (fisiche o biologiche) dei componenti di un sistema naturale o tecnico. Lo slogan ha perfino un suo nome: il principio POSIWID (dalle iniziali della frase inglese: «The purpose of a system is what it does»).


L’idea di realizzare computazioni distribuite attraverso le interazioni di partecipanti umani porta a una sorprendente inversione dei ruoli: i partecipanti svolgono il ruolo di «ingranaggi» in una macchina più ampia, il cui scopo ultimo non possono vedere, mentre tutte le decisioni importanti emergono al livello della macchina stessa, che è quella che persegue un obiettivo, e forse anche quella che gode di autonomia.


La teoria matematica che dice ai giocatori come comportarsi «razionalmente», ovvero come perseguire i propri interessi, si chiama «teoria dei giochi» e può facilmente spiegare che nel caso di ESP la strategia ottimale è quella di descrivere l’immagine in termini semplici. Comunque c’è anche un’altra teoria, che dice ai creatori di giochi come imbrigliare e sfruttare il comportamento di giocatori razionali, progettando le regole del gioco in modo da guidare il sistema verso i propri obiettivi: si chiama mechanism design ed è una delle parti più potenti della matematica applicata.


Il mechanism design stabilisce le regole delle aste, in cui tutti i partecipanti hanno l’obiettivo di risparmiare ma il banditore ha l’obiettivo di estrarre il prezzo più alto da ciascun articolo. Il meccanismo è progettato in modo tale che nessun partecipante possa perseguire il proprio vero scopo senza rivelare parte dell’informazione che avrebbe interesse a nascondere, fino a quando il sistema identifica il partecipante che è disposto a pagare il prezzo più alto e anche quanto è il massimo che questi sarebbe disposto a pagare. È questo lo scopo del sistema, perché questo è ciò che fa ogni volta, invariabilmente.


I mercati sono molto simili al gioco ESP: in questo caso, il prezzo di un bene riflette quello che ogni partecipante pensa che gli altri partecipanti siano disposti a pagare per esso. Oltre a essere un gioco di lettura del pensiero, i mercati possono anche elaborare informazioni, riflettendo nei prezzi le aspettative e le previsioni di migliaia di giocatori, ognuno dei quali potrebbe sfruttare diverse fonti di informazioni e strategie di modellazione. Mentre sarebbe difficile per gli operatori di borsa indovinare «alla cieca» se all’indomani gli altri decideranno di vendere o comprare un dato titolo, il fatto che tutti osservino la stessa economia consente loro di fare delle previsioni, e quindi delle scommesse, ragionevoli. Come risultato, il sistema mantiene una stima aggiornata del valore e delle prospettive di diversi settori economici, almeno quando non ci sono patologie come le bolle speculative.


La mano invisibile. Nell’ambito dei mercati, l’emergere spontaneo di comportamento teleologico dall’interazione di partecipanti puramente interessati ai propri obiettivi, ha un nome: la mano invisibile. Esso deriva da una fortunata definizione di Adam Smith, che scrisse ne La ricchezza delle nazioni: «ogni individuo […] mira soltanto al proprio guadagno, e in questo – come in molti altri casi – è guidato da una mano invisibile a promuovere un fine che non faceva parte delle sue intenzioni».


La prossima volta che usate eBay, il sito internazionale delle aste, pensate che state partecipando a un gioco più grande, in cui gli altri partecipanti possono vedere gli stessi beni e fare delle offerte per essi. Mentre il loro scopo individuale è quello di spendere il minimo possibile, nascondendo il proprio limite di spesa, lo scopo del sistema complessivo è l’esatto opposto: identificare quegli utenti disposti a spendere di più. Tutti i partecipanti fanno parte di una macchina, non fatta di metallo o elettroni o cellule, ma fatta di persone. Qui gli obiettivi dei partecipanti e quelli del sistema di cui fanno parte sono spettacolarmente disallineati, e i partecipanti non ci possono fare nulla: l’unico modo in cui possono perseguire il proprio obiettivo locale è quello di promuovere l’obiettivo finale dell’intero sistema.


Allineamento. Gli obiettivi dei partecipanti possono essere pienamente allineati, come nel gioco ESP in cui i giocatori devono cooperare, o pienamente disallineati, come in eBay in cui i giocatori devono competere. Quello che non dobbiamo trascurare tuttavia è l’allineamento con gli obiettivi del sistema stesso: nel caso di ESP la maggioranza dei partecipanti sarebbe probabilmente indifferente all’obiettivo di annotare immagini, mentre nel caso di un’asta gli obiettivi dei banditori e quelli dei partecipanti sono opposti. Ci sono anche casi intermedi. In tutti questi casi, comunque, la caratteristica comune è che i partecipanti non possono controllare l’intero sistema di cui fanno parte, né possono nascondere certe informazioni, se vogliono perseguire i propri obiettivi. I partecipanti diventano parte della macchina, senza bisogno di esserne consapevoli, e senza essere in grado di controllarla.


Macchine sociali

Il gioco ESP è un esempio di una «macchina sociale», ma non è necessario partecipare a un gioco online per diventare parte di un tale meccanismo.


Una macchina è un sistema formato da diverse parti interagenti, ciascuna con una diversa funzione, che insieme eseguono un compito particolare. Le macchine possono essere fatte di parti meccaniche, elettriche, idrauliche, perfino chimiche e biologiche. Una vecchia macchina fotografica ha componenti ottiche e chimiche, un mulino a vento ha componenti idrauliche e meccaniche, e un impianto di fermentazione per produrre biocombustibili include anche elementi biologici. Perché non dovrebbe avere anche componenti umane?


La cibernetica, che per molti versi è alla base dell’Intelligenza Artificiale moderna, aveva un’idea fondamentale: che gli stessi principi debbano valere per meccanismi, organismi e organizzazioni sociali. Per esempio, il fondamentale libro di Norbert Wiener che ha dato vita all’intera disciplina si intitola Cibernetica: controllo e comunicazione nell’animale e nella macchina e la serie di conferenze che aveva lanciato questo campo di studio era intitolata Cibernetica: meccanismi di feedback e causalità circolare nei sistemi biologici e sociali. In quella teoria delle macchine era solo il comportamento delle componenti che contava e come erano interconnesse, ma non i dettagli della loro natura. Non c’è ragione per cui le persone non possano anch’esse fare parte di un meccanismo.


In un esperimento mentale, possiamo immaginare di sostituire ogni singola componente di un apparato complesso con un operatore umano che segua istruzioni dettagliate: il comportamento complessivo dell’apparato, in principio, dovrebbe restare lo stesso. Per esempio contare schede elettorali, sommare numeri, smistare la posta, inoltrare telefonate: sono tutti compiti che venivano inizialmente eseguiti da persone, strettamente controllate da una rigida infrastruttura.


Chiamiamo «macchina sociale» ogni sistema che includa esseri umani, in cui ciascuno esegue compiti ristretti e ben definiti e la cui interazione è mediata e vincolata da un’infrastruttura rigida. Oggi tale infrastruttura è tipicamente digitale, ma non è necessario che sia sempre così: una burocrazia fisica che comunica mediante moduli standardizzati, o una catena di montaggio mobile, possono essere entrambe considerate macchine sociali, in cui i partecipanti umani non hanno bisogno di essere consapevoli degli obiettivi complessivi del sistema, perché gli si chiede solo di completare compiti locali e ristretti in maniera standardizzata. In teoria, un insieme di persone che interagisce mediante moduli standardizzati e seguendo istruzioni dettagliate è in grado di eseguire qualsiasi computazione. Alan Turing chiamava la combinazione di un essere umano con un insieme dettagliato di istruzioni, da eseguire a mano, un «computer di carta».


Ci concentreremo sulle macchine sociali che sono mediate da interfacce Web, e chiameremo le persone che le compongono «partecipanti». L’espressione «macchina sociale» fu introdotta nel 1999 da Tim Berners-Lee, l’inventore del World Wide Web, che lo usò in maniera piuttosto ottimistica quando scrisse: «I computer possono aiutare se li usiamo per creare macchine sociali astratte sul Web: processi in cui le persone fanno il lavoro creativo e la macchina fa l’amministrazione». Noi useremo la sua terminologia, sebbene molti degli esempi che incontriamo oggi sembrino suggerire un’inversione dei ruoli piuttosto preoccupante, in cui le persone svolgono le faccende di routine e i sistemi digitali decidono gli obiettivi.


L’infrastruttura digitale, che funge da mediatore tra i partecipanti, non ha solamente il ruolo di coordinare il lavoro di questi, ma spesso anche quello di distribuire degli incentivi, poiché le componenti di questa macchina sono esse stesse degli agenti autonomi, che partecipano volontariamente perché si aspettano dei benefici.


Per esempio, possiamo immaginare una variante del gioco ESP che distribuisca qualche risorsa, per esempio informazione o intrattenimento, a quei partecipanti che raggiungono certi obiettivi. Questo aspetto è essenziale nelle moderne piattaforme sociali, che dipendono dalla presenza volontaria di miliardi di partecipanti: devono distribuire qualche incentivo, anche in modo personalizzato, e questo a sua volta richiede metodi per estrarre le necessarie informazioni. Altre varianti del gioco potrebbero addirittura individuare i giocatori più credibili in caso di uno «spareggio» tra due tag alternative, e il modo di incoraggiarli a partecipare.


Molte attività della macchina sociale, forse anche la maggioranza, potrebbero essere spese nel preservare sé stessa e la sua consistenza interna, un concetto che sarebbe stato familiare ai Cibernetici degli anni Sessanta, che parlavano spesso di sistemi viventi in termini di autopoiesi e omeostasi, la qualità di creare sé stessi, e quella di mantenere un ambiente interno stabile.


Per evitare confusione, distingueremo tra i due livelli a cui agiscono la macchina e il partecipante, chiamandoli rispettivamente livello macro e micro. Azioni e obiettivi ai due livelli possono essere molto diversi, così come la quantità e la qualità delle informazioni disponibili per le necessarie decisioni. Una playlist di film o canzoni è generata da una macchina sociale al livello macro, mentre le decisioni di «condividere» o cliccare «mi piace» su un brano specifico, sono decisioni prese dal partecipante a livello micro. L’annotazione delle immagini, prodotta dal gioco ESP, è una proprietà emergente al livello macro, mentre le scelte specifiche di quali parole scrivere sono decisioni al livello micro. Se è chiaro che i partecipanti sono autonomi e guidati da obiettivi, non è così chiaro che questo debba valere anche per l’agente macroscopico. Questa osservazione sarà al centro del prossimo paragrafo.


L’idea della macchina sociale fornisce un’utile astrazione per pensare agli enormi e complessi sistemi sociotecnici che sono emersi sul Web, come le piattaforme delle reti sociali, i motori di ricerca e quelli di raccomandazione, alcuni dei quali hanno miliardi di utenti attivi ogni giorno. Non solo eBay e il gioco ESP sono macchine sociali, lo sono anche le comunità che collettivamente votano le risposte più utili a una data domanda, o i video più interessanti, anche se le loro diverse regole interne risultano in comportamenti emergenti che possono essere diversi. In questi casi, un’interfaccia Web plasma le interazioni tra i partecipanti umani, vincolando tanto le informazioni quanto le opzioni che questi hanno a disposizione, in modo tale che essi possano perseguire i propri obiettivi individuali soltanto promuovendo al contempo anche quelli della macchina macroscopica di cui fanno parte.


Macchine sociali autonome e teleologiche

Le macchine sociali che abbiamo usato come esempio hanno la proprietà di non essere controllate da un agente esterno: il loro comportamento emerge spontaneamente dalle interazioni tra i partecipanti e da quelle con l’ambiente. Mentre questa autonomia non è un requisito essenziale per una macchina sociale, è una proprietà di grande interesse per il nostro studio degli agenti intelligenti.


Ci concentreremo su macchine sociali autonome che incorporano milioni o miliardi di partecipanti, che sono mediate da una infrastruttura digitale in grado di apprendere, come troviamo nei sistemi di raccomandazione dei social media, e che possono sfruttare e generalizzare i dati raccolti osservando i partecipanti. Queste macchine basate sul Web hanno una capacità di archiviare informazioni, una rapidità di comunicazione e una flessibilità di interazione con i partecipanti, che sono di gran lunga superiori a qualsiasi precedente tentativo di creare una macchina sociale.


La questione che dobbiamo affrontare è: possiamo considerarle degli agenti intelligenti?


Nel capitolo 1 abbiamo definito «intelligente» un agente in grado di perseguire i propri obiettivi in una varietà di situazioni diverse, tra cui anche situazioni mai sperimentate prima, in un ambiente complesso. Un tale agente deve essere capace di raccogliere informazioni, usarle per prendere una decisione e, nel caso, anche adattarsi all’ambiente per poter fare meglio in futuro.


Ci aspettiamo che organismi e algoritmi siano entrambi capaci di questo tipo di comportamento, ma anche le organizzazioni possono agire in questo modo: sappiamo per esempio che le colonie di formiche (o altre entità collettive) sono capaci di prendere decisioni complesse quando nessuna singola formica ha informazioni sufficienti – né le capacità cerebrali – per comprendere quello che deve fare l’intera colonia.


Non c’è un comandante centrale né un piano in una colonia di formiche, eppure ciascun individuo sa che cosa fare in un modo tale che la colonia riesce a rispondere ai cambiamenti nell’ambiente. Appena si rende disponibile una nuova fonte di cibo, o il territorio della colonia si restringe o si espande, le singole formiche possono cambiare ruolo – per esempio da operaie a esploratrici a portatrici di cibo – e adattare il percorso di pattuglia, per adeguarsi alla nuova situazione. Queste decisioni richiedono informazioni globali che non sono accessibili alle singole formiche, come quanto cibo le altre hanno scoperto o raccolto, e quindi quante portatrici di cibo sono necessarie.


Questo comportamento teleologico della colonia emerge spontaneamente a livello macro da comportamenti diversi a livello micro: le singole formiche possono raccogliere informazioni su quanto spesso si incontrano tra loro, o sulle tracce chimiche lasciate dalle esploratrici che hanno scoperto del cibo. Le esploratrici si attraggono a vicenda verso il cibo che hanno scoperto, finché una decisione globale viene presa su quale sia il sito più promettente, e alla fine le portatrici vanno dove si trova la maggioranza delle esploratrici.


Tra le molte decisioni complesse che una colonia deve prendere collettivamente, una è dove e quando costruire un nuovo nido, e alcune specie di formica possono addirittura costruire ponti e zattere in caso di alluvione. Tutti questi sono esempi di comportamento teleologico, generato collettivamente da un’organizzazione, senza che alcun individuo sia alla guida. Talvolta questo viene chiamato «comportamento emergente» e perfino «intelligenza collettiva», e ricorda molto la «mano invisibile» di Adam Smith.


Come discusso nel capitolo 1, i filosofi talvolta chiamano telos la direzione spontanea di movimento di un sistema, una parola greca usata da Aristotele per denotare il fine ultimo di un’attività o di un processo o di un agente: così che macchine guidate da obiettivi sono spesso chiamate teleologiche.


Mentre le aste e il gioco ESP sono esplicitamente progettate per assicurarsi che gli obiettivi macroscopici siano sempre perseguiti, non è nota alcuna garanzia teorica nel caso del comportamento emergente nelle colonie di formiche, tranne che il loro comportamento è stato plasmato da milioni di anni di evoluzione. Scrocconi e sabotatori sono teoricamente possibili in tutte le macchine sociali, a eccezione di quelle più semplici.


Sistemi di raccomandazione e macchine sociali

Noi tutti diventiamo parte di una macchina sociale non appena usiamo un sistema di raccomandazione, il che vuole dire molte volte al giorno. Quando apriamo YouTube siamo accolti da un elenco di raccomandazioni personalizzate, e appena ne scegliamo una contribuiamo all’annotazione del suo enorme catalogo di video e di utenti. Così come il prezzo degli articoli su eBay riflette le attività dei partecipanti a quella macchina sociale, e le parole che annotano le immagini del gioco ESP riflettono un consenso generale tra i suoi partecipanti, diversi tipi di descrizione dei contenuti e degli utenti emergono direttamente dall’uso quotidiano di questi sistemi, e ne informano il comportamento futuro.


Non è mai facile tracciare i confini di un sistema, tuttavia potremmo dire che il comportamento di YouTube è determinato dalle attività collettive dei suoi miliardi di utenti. L’idea generale di annotare dei contenuti collettivamente, attraverso un processo sociale, può essere ricondotta al 1992, quando Dave Goldberg al PARC (il leggendario Palo Alto Research Centre della Xerox) inventò un modo di filtrare email e newsgroup che si basava su come altri utenti li avevano etichettati, un approccio che lui chiamò collaborative filtering. Nello stesso articolo introdusse anche l’espressione «feedback implicito» per descrivere un tipo di annotazione dei dati che è ottenuto semplicemente osservando le scelte degli utenti.


La differenza tra il collaborative filtering e l’asta di eBay è semplicemente nella struttura degli incentivi: mentre lo stesso post su social media può essere letto da tutti, un dato articolo su eBay può essere acquistato da un solo utente. Questo crea un incentivo a collaborare nel primo caso e a competere nel secondo. Gli articoli più richiesti, e presumibilmente di maggior valore, finiscono con l’avere molti lettori nel primo caso e un prezzo più alto nel secondo.


Oggi sfruttiamo le microdecisioni prese da milioni di partecipanti per raccomandare libri, video, notizie ed email. Gli agenti dietro queste decisioni, alla fine, sono entità collettive, con il compito di scoprire risorse e stimarne il valore, proprio come fanno le formiche in una colonia per il cibo. Sarebbe interessante vedere se questi sistemi possono avvertire cambiamenti ambientali che noi – i partecipanti – non siamo in grado di notare o comprendere. Considerando la quantità di dati che questi macro agenti possono ottenere e processare, possiamo considerarli come un esempio di intelligenza sovrumana?


La definizione di collaborative filtering di Goldberg si riferiva alla relazione tra utenti, ma dovremmo ricordare che gli obiettivi dei partecipanti e quelli del macrosistema possono essere molto diversi, al punto che potremmo voler considerare anche la possibilità di un competitive filtering. Per decidere se siamo in una relazione competitiva o collaborativa con un sistema di raccomandazione, dovremmo essere almeno capaci di osservare gli obiettivi del sistema macroscopico. I filosofi chiamano questa discrepanza il problema dell’allineamento dei valori.


Che cosa vuole YouTube? Il suo obiettivo può cambiare nel tempo, tuttavia in questo momento sembra che voglia incrementare il tempo totale di visione sull’intera piattaforma, o qualche simile misura di partecipazione. Si può anche pensare che voglia mantenere un numero sufficiente di partecipanti, per mantenere sé stesso.


Lo scopo di un sistema è quello che fa, non l’intento di quelli che lo operano o di quelli che lo usano. Il telos di un sistema di raccomandazione emerge dalle interazioni di milioni di utenti, ma è anche plasmato dall’algoritmo di apprendimento. Questo a sua volta è guidato dalla formula che calcola la ricompensa ricevuta per le reazioni dell’utente, così che la mano invisibile può essere in parte controllata agendo su quella formula, ma non c’è alcuna garanzia che l’intero sistema sia disposto a seguirla docilmente. Forse il modo giusto di vedere un sistema di raccomandazione è come il controllore di un’intera (e riluttante) macchina sociale.


Gestione della reputazione e governance algoritmica

I sistemi di raccomandazione non sono le sole macchine sociali di uso comune al momento: un altro esempio sono i «sistemi di gestione della reputazione» (reputation management systems) impiegati, per esempio, per valutare sia clienti che fornitori di servizi come hotel o taxi. In questo caso il feedback non è implicito, ed è invece fornito direttamente nella forma di un punteggio di soddisfazione (rating). Lo incontriamo tutte le volte che prenotiamo un albergo online, o usiamo un’app per chiamare Uber.


Nel 2013 il futurista della Silicon Valley Tim O’Reilly suggerì che la società potrebbe essere regolata meglio usando feedback loops piuttosto che applicando delle leggi dall’alto. Il suo esempio era il modo in cui Uber, un servizio che di fatto funziona come un taxi, può regolare sia il comportamento dei guidatori che quello dei passeggeri usando un sistema di gestione della reputazione:


[Uber e Hailo] chiedono a ogni passeggero di valutare il proprio autista (e agli autisti di valutare i propri passeggeri). I conducenti che forniscono un servizio scadente vengono eliminati. Come possono confermare gli utenti di questi servizi, la reputazione svolge un lavoro migliore di qualsiasi regolamentazione governativa nel garantire una buona esperienza ai clienti […].


Quella descritta da O’Reilly è l’applicazione a problemi di governance di una tecnologia che è diventata standard nel settore privato: la compilazione di punteggi, per aziende o perfino singoli professionisti, sulla base del feedback dei loro clienti (rating). Per esempio, dopo avere usato un ristorante, un hotel o avere ricevuto una consegna, spesso ci viene chiesto di «dare un voto» al fornitore. L’aggregazione di tutti questi voti porta a ottenere un punteggio che è considerato un surrogato (proxy) della reputazione di un’azienda o una persona, con l’intenzione che questo influenzi le scelte di potenziali clienti.


Questo è un esempio familiare di una macchina sociale che si trova nella posizione di influire sul benessere di molti commercianti, che però non ha le stesse proprietà matematiche di eBay o ESP, siccome è concepibile che il voto dei clienti possa essere influenzato da vari fattori, invece che rivelare veramente la qualità dell’esperienza. Così come per i sistemi di raccomandazione, anche per i sistemi di gestione della reputazione non c’è alcuna garanzia matematica che il sistema sia resistente rispetto a tentativi di distorcere le sue «convinzioni», e infatti sia spam che echo chambers possono essere riscontrati.


Possiamo veramente ispirarci a questi meccanismi per creare un nuovo modello di governance sociale, come suggerito da O’Reilly? Alcuni paesi stanno sperimentando l’idea di un punteggio sociale da assegnare ai cittadini, ma determinato dal comportamento stesso di questi piuttosto che dal feedback dei loro pari. Collegare l’accesso a certe opportunità (per esempio all’istruzione) a un tale punteggio potrebbe fornire un potente incentivo per influenzare il comportamento dei cittadini, sebbene non sia chiaro in quale direzione questo potrebbe dirigere un’intera società. Anche alcune compagnie stanno sperimentando un sistema di punteggi per i loro dipendenti, sulla base delle prestazioni e perfino della reputazione.


Dovremmo tenere in mente che lo scopo ultimo di un sistema può essere diverso da quello dei suoi operatori, e fenomeni non lineari come i feedback loops possono facilmente manifestarsi sia nei sistemi di raccomandazione che in quelli di reputazione, così come si manifestano nei mercati e nelle reti sociali. Se non siamo in grado di fermare le fake news, o le bolle di investimento, perché mai dovremmo aspettarci di poter gestire servizi algoritmici che creano graduatorie? A parte le considerazioni tecniche, c’è anche il problema etico legato al fatto che semplicemente creando e usando un tale sistema si può esercitare una pressione su altri cittadini a diventarne parte, aumentando il potere dei pochi che lo controllano di plasmare il comportamento dei molti che ne dipendono. In altre parole, questo potrebbe creare un nuovo potente mediatore sociale che potrebbe anche avere conseguenze negative.


La storia di zia Hillary

Nel meraviglioso classico Göedel, Escher, Bach: un’eterna ghirlanda brillante di Douglas Hofstadter, un formichiere racconta la storia dell’eccentrica zia Hillary, che è una colonia di formiche cosciente[1]. «Le colonie di formiche non conversano ad alta voce, ma per iscritto» dice, spiegando che le linee di formiche che camminano in fila possono essere lette come se fossero parole, poiché cambiano forma in risposta alle sue domande. «Prendo uno stecco e disegno dei tracciati sul terreno, e osservo le formiche che li seguono. […] Quando il percorso è completato so cosa sta pensando zia Hillary, e a mia volta rispondo».


Quando i suoi amici si dicono sorpresi che proprio lui – un formichiere – sia amico delle formiche, lui specifica: «Io sono in ottimi rapporti con le colonie di formiche. Sono solo le formiche che mangio, non le colonie, e questo è un bene per entrambe le parti: per me e per la colonia». E spiega che il suo mestiere è il «chirurgo di formicai»: rimuovendo con cura alcune singole formiche lui aiuta la salute dell’intera colonia.


Il formichiere insiste che non si devono confondere i due livelli: è la colonia quella con cui lui parla, le formiche invece non sarebbero in grado di capirlo: «Non devi confondere una formica con la colonia. Vedi, tutte le formiche di zia Hillary sono completamente stupide».


E poi descrive come zia Hillary lo saluti al suo arrivo, cambiando la sua configurazione sul terreno.


Quando io, un formichiere, arrivo a fare visita a zia Hillary, tutte le sciocche formiche, dopo aver fiutato il mio odore, vanno nel panico, il che significa, ovviamente, che iniziano a correre in giro in modo completamente diverso da prima del mio arrivo. […] Sono il compagno preferito di zia Hillary, e lei è la mia zia preferita. È vero che sono piuttosto temuto da tutte le singole formiche della colonia, ma questa è un’altra questione. In ogni caso, vedete che la reazione delle formiche al mio arrivo cambia completamente la loro distribuzione interna. La nuova distribuzione riflette la mia presenza. Si può descrivere il passaggio dal vecchio stato al nuovo come l’avere aggiunto qualche conoscenza alla colonia.


Ai suoi amici stupefatti il formichiere spiega la chiave per comprendere i due livelli (quelli che noi chiamiamo micro e macro, ovvero i partecipanti e la macchina sociale). «Se continuate a pensare in termini del livello inferiore delle singole formiche, allora scambierete la foresta con gli alberi È un livello troppo microscopico, e quando pensate microscopicamente vi perdete sicuramente alcune caratteristiche su larga scala».


Finalmente, dopo avere spiegato in ulteriore dettaglio come la colonia possa processare informazioni complesse che le singole formiche non possono capire, il formichiere conclude: «Nonostante le apparenze, le formiche non sono la caratteristica più importante». In seguito aggiunge anche: «È abbastanza ragionevole considerare l’intero sistema come l’agente».


Possiamo vedere subito la somiglianza tra zia Hillary e un moderno sistema di raccomandazione, dove una moltitudine di singoli utenti contribuisce al suo comportamento, senza avere alcun controllo né comprensione. Quando guardiamo la pagina di benvenuto di un sito di social media, abbiamo a che fare con l’agente macroscopico, e non abbiamo bisogno di sapere nulla dei suoi singoli partecipanti. Così come il formichiere può andare d’accordo con l’agente macroscopico pur disprezzando le sue componenti, anche noi possiamo non fidarci delle notizie che riceviamo da Facebook anche se magari apprezziamo ogni singola persona che lo usa. Tra l’altro, il formichiere parla anche di politica, spiegando che le singole formiche sono comuniste, perché mettono il bene comune prima del proprio, ma la zia Hillary nel suo insieme è una «libertaria laissez-faire».


Lo stupendo dialogo si conclude con la triste storia del proprietario precedente dello stesso formicaio in cui vive zia Hillary, una colonia molto intellettuale, che incontrò un tragico destino.


In una calda giornata estiva, questi era fuori a riscaldarsi, quando un temporale eccezionale – del tipo che colpisce solo una volta ogni cent’anni – apparve dal nulla e lo inzuppò completamente. Poiché la tempesta era arrivata senza preavviso, le formiche furono completamente disorientate. L’intricata organizzazione che era stata così finemente costruita nel corso di decenni, andò in malora nel giro di pochi minuti. Fu tragico.


Le formiche non morirono, si salvarono galleggiando su stecchi e tronchi e quando le acque si ritirarono, queste riuscirono a tornare al luogo di origine. Solo che non era rimasta alcuna organizzazione «e le stesse formiche non avevano la capacità di ricostruire quella che un tempo era stata un’organizzazione così finemente accordata».


Nei mesi successivi, le ex componenti del precedente proprietario «si raggrupparono lentamente costruendo una nuova organizzazione. E così nacque zia Hillary». Tuttavia i due agenti macroscopici, conclude il formichiere «non hanno nulla in comune».


Questo ci spinge a chiederci se le distintive personalità che vediamo nei diversi social network possano essere cambiate facendoli ripartire da zero, come in una sorta di elettroshock. Questo potrebbe consentire agli stessi partecipanti di trovare una differente – e forse più sana – organizzazione. In questa stessa prospettiva, potremmo forse anche immaginare che le echo chambers siano simili a una malattia mentale, di questa «mente» macroscopica, che potrebbe essere curata in qualche modo. Forse un giorno ci sarà uno psicologo, o un chirurgo, specializzato nel curare grandi macchine sociali, che saranno diventate troppo preziose per poter essere semplicemente spente, o ripristinate allo stato iniziale.


Le mani invisibili

I due estranei che giocano a ESP potrebbero non avere alcun modo di sapere che fanno parte di una macchina sociale che ha i suoi obiettivi, e anche se lo capissero non avrebbero alcun modo di influenzarne il comportamento. E lo stesso vale per le formiche che compongono zia Hillary: vivono a livelli diversi della macchina sociale. Tutto ciò vale anche per noi che diventiamo parte di enormi macchine di raccomandazione il cui scopo ultimo è di attrarre e trattenere sempre più partecipanti.


Facebook, YouTube e le altre entità che decidono quali contenuti finiremo per consumare sono sistemi sociotecnici, e hanno una forma di intelligenza che possiamo vedere nella loro capacità di personalizzare i suggerimenti e di massimizzare il traffico. Considerazioni simili valgono anche per i sistemi di reputazione che mantengono una stima della soddisfazione che un utente può aspettarsi dal fornitore di un certo servizio.


Il comportamento di questi agenti macroscopici non è controllato da un homunculus al loro interno, ma dalla mano invisibile che emerge dalle loro dinamiche interne. Questi hanno i loro obiettivi, che possono essere diversi da quelli dei loro partecipanti. Mentre interagiamo con loro, ne diventiamo anche parte, plasmando in piccola misura il loro comportamento ed essendo plasmati da esso, senza avere alcun modo di influenzare la destinazione verso cui procedono. Possiamo restare intrappolati in tali meccanismi? Che cosa succede quando i loro obiettivi sono in conflitto con i nostri? È possibile che questi agenti sovrumani si dimostrino un avversario troppo forte perché noi possiamo resistervi?


Se non abbiamo le risposte a tutte queste domande dovremmo pensarci due volte prima di trattare gli esseri umani come gli elementi di un meccanismo, non solo perché questo può danneggiare la loro dignità intrinseca, ma anche perché potremmo non essere in grado di affrontare le conseguenze.


Nel 1950, ben prima che il Web fosse inventato e che Tim Berners-Lee coniasse l’espressione social machine, perfino prima che Douglas Hofstadter scrivesse la stupenda storia di zia Hillary, il fondatore della cibernetica, Norbert Wiener, scrisse un libro sulla relazione tra macchine intelligenti e società, che terminava con questa profezia, riferita alla storia della zampa di scimmia che abbiamo descritto nel capitolo 5.

Ho parlato di macchine, ma non solo di quelle macchine che hanno cervelli di ottone e muscoli di ferro. Quando gli atomi umani sono intessuti in un’organizzazione, dentro cui sono usati, non nel pieno diritto di esseri umani responsabili, ma come ingranaggi, leve e sbarre, importa ben poco che la loro materia prima sia carne e sangue. Ciò che viene utilizzato come elemento in una macchina, è di fatto l’elemento di una macchina. Sia che affidiamo le nostre decisioni a macchine di metallo o a quelle macchine di carne e sangue che sono uffici, vasti laboratori, eserciti e compagnie, non riceveremo mai le risposte giuste alle nostre domande se non facciamo le domande giuste. La zampa di scimmia di pelle e ossa è tanto letale quanto qualsiasi cosa fatta di ferro e acciaio. Il Djinn, che è una figura retorica unificante per un’intera compagnia, è spaventoso come se fosse un glorificato gioco di prestigio. L’ora è molto tarda e la scelta tra il bene e il male bussa alla nostra porta.

Mi preoccupa che un giorno potremmo scoprire che la zampa di scimmia è venuta nella forma di una mano invisibile.

[1] Nella traduzione italiana del libro, questo personaggio si chiama «il barone di Monteformica». Zia Hillary (Aunt Hillary) in inglese ha un suono simile alla parola formicaio (ant hill). 

10.

Regolare, non spegnere

Non possiamo realisticamente ritornare a un mondo senza Intelligenza Artificiale, così dobbiamo trovare un modo di convivere in sicurezza con questa tecnologia. Gli studiosi di diverse discipline stanno ancora cercando di capire quali debbano essere i principi fondanti di tale convivenza, ma è già certo che se vogliamo poterci fidare che questi principi siano rispettati, gli agenti intelligenti dovranno essere in qualche modo «ispezionabili» («auditable») per costruzione. Solo così sarà possibile pretendere da essi equità, privacy, sicurezza, trasparenza e tutte le altre richieste importanti che gli studiosi del diritto e della politica stanno discutendo. La scorciatoia che ci ha dato la forma attuale di IA rende difficile questo passo: avendo abbandonato l’uso di regole esplicite a favore di relazioni statistiche, non è facile spiegare i motivi dietro una decisione presa dalla macchina, ma ci possono essere altri modi per verificarne la sicurezza, dall’uso di «stress test», alla creazione di «checkpoint» interni in cui si possano fare alcuni controlli, fino alla creazione di qualche metodo analogo alla «psicometria» per le macchine. Rendere sicuri gli agenti intelligenti richiederà una comprensione molto più profonda dell’interfaccia tra le scienze sociali, quelle umane e quelle naturali, e ciò non può essere fatto solamente dagli informatici. Questa è la prossima grande sfida – e avventura – per l’Intelligenza Artificiale.


Possiamo staccare la spina?

«Devi solo avere qualcuno vicino alla presa della corrente. Appena vedi che sta per succedere, devi tirare quella spina fuori dal muro, amico».


Nell’ottobre del 2016, durante un’intervista con la rivista «Wired», l’ex presidente americano Barack Obama fece questa battuta su come gestire il «potenziale dell’Intelligenza Artificiale di superare la nostra capacità di comprenderla». Come molte battute era divertente perché era sia assurda che rivelatrice: come potremmo mai spegnere gli agenti intelligenti che tengono in piedi l’intera infrastruttura da cui dipendiamo?


Questo è un vero problema: dipendiamo da un’infrastruttura che dipende dall’IA, e quindi ne riceviamo sia i costi che i benefici allo stesso tempo. Senza filtri anti-spam, intercettazione di frodi e raccomandazione dei contenuti, gran parte del Web non sarebbe in grado di funzionare, e senza pubblicità personalizzata parte del Web potrebbe non essere in grado di finanziarsi, a meno che non ci sia un ripensamento radicale del modello di business. Forse non tutta l’IA si trova in questa posizione delicata, ma sembra che ci si trovi proprio la parte che al momento «ne paga il conto». Gli informatici sono abituati a pensare in termini di algoritmi, eppure la nostra relazione attuale con l’IA è un problema sociotecnico, in cui i modelli di business e le questioni legali e politiche interagiscono.


Tornare indietro non è realistico, dato che abbiamo già eliminato le infrastrutture precedenti, che erano meno efficienti, e anche perché chiunque tentasse di farlo dovrebbe affrontare la competizione di quelli che non vogliono fare la stessa scelta: l’uso di IA aumenta veramente la produttività dell’economia. Questo è il tipo di dilemma in cui sono intrappolate non solo molte aziende, ma anche le società moderne. Il fatto è che, se non possiamo vivere senza Intelligenza Artificiale, dobbiamo imparare a vivere con essa.


Il modo di farlo è affrontare il «problema della fiducia», il che include comprendere come siamo finiti in questa situazione e come questa tecnologia interagisce con la società, in modo da poter gestire quell’interazione. Non solo dobbiamo comprendere le scorciatoie che ci hanno portato alla versione attuale di IA, così che possiamo provare a immaginarne una diversa, ma dobbiamo anche capire la posizione centrale di controllo in cui l’Intelligenza Artificiale è stata collocata. Posizione che permette all’IA sia di prendere decisioni importanti su di noi che di osservare costantemente il nostro comportamento. E poi dobbiamo sapere quali principi e regole possiamo invocare per essere sicuri che non finiremo con il rimpiangere i decenni spesi a sviluppare questa tecnologia.


Come siamo finiti, in una singola generazione, con il dipendere da una tecnologia nuova che stiamo ancora imparando a controllare? Come può influire sulle nostre vite, e cosa dovremmo imparare prima di poterci fidare pienamente?


La grande convergenza

Il 6 agosto 1991, Tim Berners-Lee riassunse i suoi piani per la creazione di un World Wide Web in un documento intitolato Short summary of the World Wide Web project, e poi fece qualcosa che potrebbe sembrare sorprendente: lo pubblicò su internet, invitando tutti a partecipare.


Come è possibile? Il fatto è che il mondo pre-Web usava già internet, almeno all’interno della comunità scientifica e alcuni gruppi di appassionati, con accesso telefonico a bulletin board systems e accesso via internet a email e altre informazioni. Quello che il WWW fece fu di integrare semplicemente molti sistemi diversi e consentire un facile accesso a essi, così che divenne possibile partecipare per molti utenti «non tecnici». Questa innovazione iniziò una reazione a catena che è ancora in corso.


Quando la bolla delle Dot-com scoppiò, nel 2000, appena nove anni dopo la creazione dei primi webserver, molte persone facevano già acquisti e operazioni bancarie, leggevano le notizie e scaricavano la musica. Questa situazione includeva avere dato dei computer a tutte queste persone, averli collegati a internet, e aver trovato il modo di fare pagamenti sicuri, o di formattare la musica e i video in modo efficiente. E tutto questo era successo in meno di un decennio: Bill Clinton era presidente quando AOL (America OnLine) fu la prima a fornire accesso pubblico al Web, e lo era ancora quando la bolla scoppiò.


Consideriamo questo: tra il 1994 e il 1997 abbiamo visto il primo pagamento online, protetto da crittografia, la creazione di Amazon, eBay, Netflix, PayPal, operazioni bancarie online, i primi giornali online («Daily Telegraph», «Chicago tribune», CNN), stazioni radio (WXYC, KJHK), servizi di musica in streaming (IUMA). Allo stesso tempo abbiamo anche visto l’invenzione delle telefonate via internet, e servizi gratuiti di email web based. E tutto questo accadde prima ancora dell’introduzione di broadband o 3G: nel 1998 la migliore connessione che gli utenti potevano avere a casa con dial up era 56Kbps, che significava anche telefonare a un internet provider quando ci serviva qualche informazione, usando (e quindi anche occupando) la linea fissa.


Fu come se un’improvvisa attrazione gravitazionale avesse cominciato ad attirare insieme mondi che erano sempre stati separati. Giunti alla fine degli anni Novanta, i giornali, le stazioni radio, il telefono, la banca, i pagamenti, il servizio postale, il telegrafo, avevano tutti cominciato a spostarsi su internet, grazie ai browser del WWW, che integrano tutto con facilità, dalla protezione crittografica delle informazioni al software per suonare la musica, rendendoli invisibili agli utenti, e funzionando sui desktop di casa. Nel 2001, dieci anni dopo l’annuncio di Tim Berners-Lee, il 50% degli americani era «online».


Questo significò anche la fine di un mondo precedente: per ogni servizio che migrava online, c’era una conseguenza negativa in qualche settore dell’economia e dell’ecosistema che lo circondava. Fax, antennisti, edicolanti, telegrafisti furono tra i primi a sentire il cambiamento, ma poi giunse il momento dei videonoleggio, vaglia postali, negozi di dischi, banche, cinema e alla fine anche radio, televisione e bancomat. Le parti dell’infrastruttura precedente che sopravvissero erano quelle che furono cooptate e ridefinite dal nuovo mezzo di massa: come i cavi telefonici e le società di consegna a domicilio, e questo processo è ancora in corso.


Il numero di pagine Web, servizi e utenti crebbe così rapidamente che ben presto il Web non poteva essere gestito senza l’aiuto di algoritmi intelligenti, e questo diede inizio a una nuova simbiosi. Da 130 siti nel 1993, il Web passò a circa 250.000 nel 1996 e 17 milioni nel 2000. Divenne necessario sviluppare motori di ricerca per dirigere gli utenti verso le risorse che cercavano, iniziando una «corsa agli armamenti» con i creatori di spam, che nel 2000 vide emergere Google, che aveva da subito schierato in questa battaglia l’Intelligenza Artificiale. Oggi c’è oltre un miliardo di siti, e non ci sarebbe alcuna speranza di usare il Web senza un sostanziale aiuto da parte dell’IA, sia nel trovare le risorse e tradurle o riassumerle, sia nel fermare lo spam, gli imbrogli e i virus. Lo stesso vale per la posta elettronica, che non sarebbe praticabile senza l’uso di avanzatissimi filtri anti-spam. Mentre miliardi di persone si trovarono a dipendere dal Web per le loro vite, il Web si trovò a dipendere dall’IA per poter funzionare.


L’introduzione di connessioni permanenti accelerò ulteriormente il processo: dall’anno 2000 circa divennero disponibili sia le connessioni broadband sia quelle Wi-Fi, gli utenti iniziarono a essere costantemente connessi, e dal 2007 iniziarono anche le connessioni via telefono cellulare. Tra il 2001 e il 2010 Apple lanciò iPod, iTunes, iPhone e iPad, in breve iniziando a usare 3G e 4G per collegarli al Web. Questo diede a milioni di persone la possibilità di essere costantemente online, e oggi l’85% degli americani e l’86% degli europei possiedono uno smartphone.


Lo scoppio della bolla delle Dot-com nel 2000 creò un nuovo Web, più concentrato sui profitti, e basato sulla pubblicità personalizzata, sulla competizione per il traffico e sui contenuti generati dagli utenti. Nel breve periodo tra il 2003 e il 2007 assistemmo alla creazione di LinkedIn, Facebook, YouTube, Reddit, Twitter, Tumblr, Instagram. Alcuni di questi hanno oggi miliardi di utenti e dipendono da sistemi di Intelligenza Artificiale a vari livelli, inclusi: reperimento, indicizzazione e raccomandazione dei contenuti, sicurezza, e così via. Oggi gli utenti che sono attivi almeno una volta al mese, su Facebook sono oltre 3 miliardi, su YouTube circa 2 miliardi, su Instagram circa 500 milioni, su TikTok 50 milioni. Netflix ha 200 milioni di clienti e Amazon 300 milioni. Molti di questi servizi sono affini alle macchine sociali che abbiamo discusso nel capitolo precedente.


Ovviamente, l’Intelligenza Artificiale non si limita alle applicazioni online, e ci sono molti casi di un suo impiego nei campi della sanità e dei trasporti. Per esempio, nel 2018 un sistema di visione artificiale chiamato CheXNet fu addestrato a individuare segni di polmonite in immagini a raggi X con prestazioni comparabili a quelle degli esperti umani; e nel 2022 le automobili autonome possono guidare per un milione di miglia facendo circa 10 incidenti, che è peggio di quanto faccia un guidatore umano, ma non di molto. Comunque il principale flusso di introiti per il campo dell’IA rimane ancora quello delle applicazioni sul Web, in particolare la pubblicità.


La rivoluzione iniziata negli anni Novanta ha gradualmente fatto scomparire un intero mondo, sostituendolo con un’infrastruttura digitale più efficiente, in cui conduciamo i nostri affari e le nostre vite personali, sotto l’occhio attento di agenti intelligenti. Venticinque anni dopo la pubblicazione dell’idea di Tim Berners-Lee, la battuta di Obama sullo «staccare la spina» dell’Intelligenza Artificiale se questa dovesse andare fuori controllo ci ha mostrato come la transizione fosse diventata irreversibile, nello spazio di una sola generazione.


I nuovi guardiani della soglia?

Una ragione per cui la rivoluzione del Web fu così attraente per molti era la possibilità di sovvertire le strutture di potere esistenti e accorciare le catene del valore, permettendo a produttori e consumatori di aggirare broker e altri intermediari. Questa era la promessa della dis-intermediazione: mettere direttamente in contatto artisti e pubblico, venditori e acquirenti, cercatori e datori di lavoro.


In altre parole, una delle attrattive di questo nuovo medium era la possibilità di aggirare i gatekeeper, che potremmo tradurre come «guardiani della soglia», ovvero coloro che controllano l’accesso a opportunità o risorse. In pochi anni divenne possibile per chiunque produrre un film e distribuirlo online, e lo stesso per un libro, una canzone o un reportage. Non solo lo si poteva fare gratis, da soli e senza attrito, in alcuni casi lo si poteva fare anche anonimamente, il che aumentava il senso di liberazione. Editori, redattori, produttori e giornalisti iniziarono a essere aggirati e messi da parte. Le agenzie di pubblicità, di viaggio e di collocamento seguirono a breve.


Molti acclamarono la disintermediazione come un processo di democratizzazione, considerando questi intermediari come gatekeeper, e quindi come un punto in cui possiamo incontrare discriminazione, sfruttamento o corruzione, mentre il Web prometteva un’economia più piatta, senza uno strato intermedio di servizi. E infatti in molti casi fu possibile chiedere conto ai potenti del loro comportamento, grazie alla possibilità di filmare e condividere i video direttamente. Alcuni addirittura invocarono un cambiamento anche nello stile tradizionale di democrazia rappresentativa, chiedendo di sostituirla con una democrazia «diretta» in cui i cittadini potessero votare per leggi specifiche. Dopo un decennio di convergenza tumultuosa, il Web non stava solo sostituendo infrastrutture e istituzioni precedenti, ma anche disintermediando una serie di modelli di business. Nei primi anni Duemila, dopo avere sostituito le precedenti infrastrutture di comunicazione, la rivoluzione digitale stava cominciando a raggiungere le istituzioni culturali, come la stampa, la scuola e i partiti politici.


Gli allarmi del 2016 (tra cui quelli descritti nei capp. 6 e 7 riguardanti discriminazione e polarizzazione) evidenziarono un problema con quel sogno: c’erano degli algoritmi intelligenti, non più delle persone, ad abbinare cercatori e datori di lavoro, artisti e pubblico, articoli e lettori. E non eravamo sicuri se quelle decisioni venivano prese equamente, e se potevano avere effetti indesiderati sul benessere degli utenti. I report dei giornali sulla possibilità di polarizzazione, fake news e decisioni inique evidenziarono quanto fosse limitata la nostra comprensione tecnica di questi algoritmi, e come non ci fosse ancora l’infrastruttura legale, culturale e tecnica per ispezionarli e ristabilire la fiducia.


Fu allora che non solo iniziammo a comprendere che avevamo dei nuovi gatekeeper, ma anche che non ci potevamo ancora fidare di essi. Eppure questi erano in una posizione tale da poter osservare il comportamento di miliardi di persone, scegliere le informazioni a cui queste avevano accesso, e prendere decisioni sulle loro vite. Il potere degli agenti intelligenti deriva dalla posizione in cui sono collocati. Il problema principale dell’Intelligenza Artificiale oggi è quello della fiducia.


Convivere con le macchine intelligenti

Lo scopo dell’automazione è quello di sostituire le persone, e l’Intelligenza Artificiale non fa eccezione. Questa può rendere individui, organizzazioni e intere società più produttivi, il che è un eufemismo per dire che può drasticamente ridurre i costi di certi compiti. Da un lato questo dà più potere a coloro che hanno accesso a questa tecnologia, dall’altro pone un problema a quei lavoratori che vengono sostituiti, o a quei concorrenti che non hanno accesso alle stesse risorse. È l’intera economia, non solo quella digitale, che può trarre beneficio dalle tecnologie basate sull’Intelligenza Artificiale, per esempio riducendo i costi di trasporto, traduzione, o diagnosi medica.


La stessa tecnologia può tuttavia anche indebolire certi valori sociali, come privacy, uguaglianza, autonomia o libertà di espressione, per esempio consentendo sorveglianza di massa mediante telecamere stradali, o persuasione di massa mediante targeting psicometrico. Può anche causare danni, sia quando funziona male sia quando causa effetti imprevisti. Potrebbe perfino giungere a destabilizzare i mercati, influenzare l’opinione pubblica, o accelerare la concentrazione della ricchezza nelle mani di quelli che controllano i dati o gli agenti. Può infine anche essere usata per applicazioni militari, in modi che non vogliamo immaginare.


Prima di poterci fidare pienamente di questa tecnologia, i governi dovranno regolamentarne molti aspetti, e faremmo bene a imparare da quelle prime storie di falsi allarmi e scampati pericoli che sono già emerse, così come dalle preoccupazioni espresse dai media o dai resoconti di danni già verificatisi.


Due fattori chiave contribuiranno a inquadrare questa discussione: responsabilità e verificabilità. Decidere chi è responsabile per gli effetti di un sistema di IA sarà un passo cruciale: è l’operatore, il produttore o l’utente? E questo si lega al secondo fattore: la verificabilità, ovvero l’ispezionabilità. Come faremo a fidarci di sistemi che non possiamo ispezionare, a volte addirittura perché sono intrinsecamente costruiti in tale modo? Ogni ulteriore regolamentazione del settore dovrà stabilire fin dall’inizio che gli agenti intelligenti siano costruiti in modo tale da essere ispezionabili, e che quell’onere deve cadere sul produttore o sull’operatore. Avendo stabilito questo, sarà poi possibile discutere la loro sicurezza, equità, e tutti gli altri aspetti, che possono essere chiariti solo ispezionando l’agente.


Al momento, molte discussioni accademiche sulla discriminazione algoritmica si sono fermate davanti all’ostacolo che non sappiamo esattamente come COMPAS (programma usato per stimare il rischio di recidivismo di un detenuto) valuti il punteggio degli accusati, o come sia stato sviluppato e impiegato il sistema dei Paesi Bassi per vagliare le domande di sussidio sociale, o nemmeno se qualche strumento commerciale per vagliare i curricula abbia mai usato la rappresentazone GloVe per le parole (per limitarci agli esempi del cap. 5). Non conosciamo nemmeno i contenuti di quegli studi che la whistleblower[1] Frances Haugen ha fornito alle autorità americane, affermando che dimostrerebbero l’esistenza di effetti negativi di alcuni prodotti legati a Facebook, tra cui uso eccessivo e polarizzazione. È chiaro che dobbiamo sapere molto di più su tutti questi argomenti: sarebbe una pessima idea fare leggi che non si basino su fatti sperimentali ma solo sugli allarmi dei giornali.


L’obbligo di essere ispezionabile «per costruzione», così che una parte «terza» possa verificarne la sicurezza, non richiede necessariamente di rivelare il codice, e non dovrebbe essere aggirabile affermando che i modelli usati sono intrinsecamente «non spiegabili», e nemmeno dovrebbe essere sostituibile dalle solite dichiarazioni legali.


Ci potrebbe essere qualche nuova branca della scienza da sviluppare lungo questa strada, ma prima dobbiamo pretendere che gli agenti intelligenti si prestino all’ispezione, e i loro operatori accettino responsabilità, e questo ancora non succede, anche a causa delle scorciatoie tecniche che abbiamo preso per creare l’IA. Questo potrebbe includere l’introduzione obbligatoria di checkpoint interni negli agenti, o di una periodica ripetizione di stress-tests standardizzati, o addirittura lo sviluppo di una sorta di «psicometria» per macchine, una scienza che ancora non esiste.


La fiducia non è fede cieca, è una convinzione razionale nella competenza e benevolenza di un agente, sia che questo sia un software, una persona o un’organizzazione. Il modo in cui possiamo assicurare questa convinzione, al momento, è quello di definire chiare responsabilità.


Su questa base, possiamo poi affrontare tutte le altre preoccupazioni: sicurezza, equità, trasparenza, privacy, rispetto, e così via. Ogni utente dovrebbe essere in grado di aspettarsi quanto segue dalle sue interazioni con agenti intelligenti: sicurezza (che non causerà danni, né per guasti né per effetti collaterali imprevisti), rispetto (che non tenterà di spingere, manipolare, ingannare, convincere, guidare), trasparenza (che dichiarerà i suoi obiettivi e le sue motivazioni e le informazioni che utilizza per perseguirli), correttezza (che tratterà tutti gli utenti allo stesso modo quando prende decisioni in domini chiave), privacy (che rispetterà il loro diritto di controllare i propri dati personali). In altre parole, l’utente non dovrebbe mai preoccuparsi di quali possano essere i motivi dietro un comportamento dell’agente, o delle possibili conseguenze impreviste di usarlo.


Un ipotetico agente di raccomandazione che causi dipendenza o altri danni ai minori, per esempio, non sarebbe sicuro e dovrebbe dare l’opzione di essere disattivato o indebolito. Anche un pilota automatico che attraversi i semafori con il rosso non sarebbe sicuro. Un agente che costantemente tenti di manipolare le decisioni di un utente non sarebbe rispettoso della sua dignità e del suo diritto a essere lasciato in pace, e si dovrebbe pretendere che dichiari i propri obiettivi, moventi e ricompense.


Anche se molte decisioni prese dalle macchine oggi non sono spiegabili, e se il codice è stato rilasciato online, dovremmo pretendere che un sistema di raccomandazione riveli pubblicamente e chiaramente la formula che viene usata per stabilire la sua ricompensa, così come i segnali che usa per calcolarla. Gli utenti non dovrebbero doversi chiedere se una certa conversazione o la loro posizione geografica possano essere usate nel corso di sforzi persuasivi da parte dell’agente: dovrebbero saperlo chiaramente fin dal principio e avere consentito apertamente a questo. Gli utenti dovrebbero essere in grado di non usare certe parti dell’agente, senza essere per questo penalizzati. Un utente che carica il proprio CV su un servizio che abbina datori e cercatori di lavoro, non dovrebbe preoccuparsi di poter essere discriminato.


La fiducia è un concetto a molte dimensioni, e le richieste elencate qui sopra rappresentano alcune di queste dimensioni, e ciascuna di esse è attualmente al centro dell’attenzione di studiosi e legislatori in tutto il mondo. Il lavoro che è necessario non è una questione di ingegneria del software, ma di comprensione di come il software interagisce con la società e la psicologia individuale. È in quella interfaccia che si deciderà quale tipo di equità dovremmo aspettarci dalle macchine, e come misurarla, e quale tipo di spiegazioni, e come valutarle. Ci sono molte proposte ingegnose già sul tavolo, e molte altre sono in preparazione: c’è quindi ragione di essere ottimisti. Tutto questo, comunque, sarà possibile solo se potremo ispezionare i nostri agenti e rendere responsabili le compagnie che li usano.


Siccome la stessa tecnologia può causare preoccupazioni in un settore ma non in un altro, e siccome non tutti i livelli di rischio sono uguali, un’idea è quella di regolare l’applicazione dell’Intelligenza Artificiale a problemi specifici, e distinguere tra usi ad alto o a basso rischio. Questa è la direzione presa al momento dall’Unione Europea nella sua proposta di regolamentazione.


Per esempio, calcolare un punteggio di «credito sociale» dei cittadini da parte di uno Stato è elencato tra le applicazioni a «rischio inaccettabile» e sarebbe proibito. Anche se questa categoria è al momento abbastanza vuota, il fatto stesso che esista dà un chiaro messaggio: ci sono delle cose che non sono consentite. La categoria «alto rischio» imporrebbe molti obblighi di supervisione e trasparenza per sistemi che ne facessero parte, come per esempio qualsiasi applicazione dell’IA che comportasse rischio per la vita (per esempio, trasporti di massa), accesso a educazione, impiego, credito (per esempio, selezionare CV, valutare esami e domande di prestito); usi giudiziari e di polizia. Non è ancora chiaro, comunque, come funzionerebbe in pratica: renderebbe necessario usare dati di alta qualità per addestrare un software usato per vagliare i curricula? Sarebbe ancora consentito usare dati trovati «in natura»? Tutto questo dovrà essere chiarito nei prossimi anni di lavoro.


Il terzo livello, quello del «rischio limitato» imporrebbe pochi obblighi agli agenti, come quello di rivelare all’utente che sta interagendo con una macchina, ma io vorrei aggiungere anche l’obbligo di rivelare chiaramente gli obiettivi dell’agente: viene ricompensato per farlo cliccare o compiere altre azioni?


Molte domande rimangono senza risposta nelle attuali proposte di regolazione: non è chiaro dove cadranno nella presente tassonomia le preoccupazioni sulla dipendenza comportamentale e polarizzazione, e quelle relative alla pubblicità personalizzata, anche se sono tra i problemi più pressanti al momento. La biometrica a distanza sarebbe bandita in Europa, almeno da parte di entità private, ma la psicometrica a distanza? Quale livello di anonimato è ragionevole per gli utenti quando consumano contenuti, e quale quando li pubblicano? Ci vorrà molto tempo per imparare quali sono i rischi reali di molte applicazioni dell’Intelligenza Artificiale, e quali rimedi funzionano, ma è appropriato iniziare a regolare questo spazio adesso. Il problema è che ci sono dei rischi anche nel regolamentare senza avere tutti i risultati sperimentali, quindi dovremmo aspettarci degli studi rigorosi a breve termine sugli effetti dell’interazione con agenti IA.


Altri paesi presenteranno delle proposte diverse, ma nessuna di queste sarà applicabile se accetteremo che un agente software possa essere immune da ispezioni «in principio», o «per costruzione». L’onere di trovare il modo di rendere i propri strumenti ispezionabili deve cadere sul produttore, e deve essere una precondizione per poter operare nel mercato. Un sistema di licenze potrebbe essere inevitabile.


Regolare, non spegnere

La battuta del 2016 di Obama con cui abbiamo aperto il capitolo, su come affrontare i rischi legati ai sistemi dotati di un’Intelligenza Artificiale, «Devi solo avere qualcuno vicino alla presa della corrente», era divertente e inquietante per diverse ragioni. Una è che non saremo in grado di staccare l’IA, dato che è già diventata indispensabile, ed è questo il motivo per cui dobbiamo imparare a convivere in sicurezza con i vari tipi di agente intelligente. L’altra è che la battuta implica che saremmo in grado di riconoscere il momento in cui un agente intelligente supera qualche limite. In realtà questo potrebbe non essere tanto facile, visto che finora abbiamo cercato l’intelligenza nei posti sbagliati: non arriverà nella forma di un robot senziente, quanto piuttosto in quella di un’infrastruttura in grado di apprendere, o magari di una macchina sociale che prende decisioni cruciali per noi e su di noi, con criteri che non riusciamo a capire. Il suo comportamento sarà plasmato da relazioni statistiche scoperte in dati prodotti da attività umane e progettato al fine di perseguire qualche scopo.

Regolare questo tipo di agente intelligente sarà ben più importante che staccarlo, un progetto che richiederà molto lavoro all’intersezione tra le scienze naturali, sociali e umane. Sarà questa la prossima sfida culturale per l’Intelligenza Artificiale.

[1] Whistleblower è il termine con il quale ci si riferisce a una persona che denuncia pubblicamente illeciti o attività fraudolente che avvengono all’interno di un governo o di una organizzazione pubblica o privata. 

Epilogo

Abbiamo creato una forma di Intelligenza Artificiale e già fa parte delle nostre vite. Non sarà quello che ci aspettavamo, ma fa molte delle cose che volevamo, e qualcosa in più, anche se in un modo diverso.


Quando pensiamo agli agenti intelligenti che abbiamo creato, potrebbe essere più utile paragonarli a qualche animale semplice e distante da noi, come le lumache del giardino, piuttosto che a una persona. In altre parole, il loro modo di «pensare» è completamente alieno al nostro: possono imparare, e alcuni anche pianificare, ma non possiamo comprenderli o ragionare come loro, perché sono spinti solo da relazioni statistiche che hanno estratto da quantità sovrumane di dati, sono interessati solo al perseguimento dei propri obiettivi, e indifferenti a tutto il resto.

Eppure possono essere più potenti di noi in certi casi. Potremmo preoccuparci al pensiero che questa tecnologia viene già usata in modi discutibili, o potremmo meravigliarci di fronte alla storia di come abbiamo abilmente evitato una serie di questioni tecniche e filosofiche lungo la strada.

Don Antonio – il vecchio prete che tentò di interrogare sulla storia greca il mio primo computer – non era interessato ai dettagli tecnici quanto al punto di vista delle persone. Non gli sarebbe importato molto sapere come Siri è adesso in grado di rispondere alla sua domanda su Alessandro Magno, una spiegazione che richiederebbe una lista enorme di eventi che sono avvenuti dopo la sua morte, da Wikipedia agli smartphone. Avrebbe tuttavia individuato un cambiamento inquietante nel nostro linguaggio, mentre raccontiamo: perché chiamiamo le persone «utenti» e le espressioni della loro arte e cultura «contenuti»? Chi mai descriverebbe i grandi vini della nostra città come «contenuto»? Forse un venditore di bottiglie.

Non penso che gli sarebbe dispiaciuto che anche le macchine possano essere intelligenti, forse nemmeno che possano essere più intelligenti di noi in certi compiti pratici. Sicuramente avrebbe obiettato all’idea che siano importanti quanto o più delle persone. Adottare il loro punto di vista e linguaggio, mentre descriviamo il nuovo mondo che stiamo creando, potrebbe essere un passo allarmante.

Il vecchio mondo analogico che lui abitava non esiste più e di conseguenza dovremo adattare la nostra cultura, ma non è ancora interamente sparito dalla nostra memoria. Un bambino di oggi può ancora vedere nello smartphone l’icona di una busta, una cornetta telefonica, una macchina fotografica con obiettivo e bottone dell’otturatore, un giornale stampato, un orologio analogico, ciascuna a rappresentare una diversa app. Alcuni bambini non hanno mai usato questi oggetti, e neppure una cabina telefonica, e un giorno potrebbe essere così anche per i soldi. Ho sentito raccontare di bambini dell’asilo che cercano di far scorrere il testo di un libro con le dita.

Il dispositivo magico che hanno in tasca funge al contempo da macchina fotografica, telefono, cassetta delle lettere, televisione, giornale, carta bancaria, e via dicendo. È un mezzo fantastico che sta trasformando intere comunità di paesi poveri e aiutando le persone in mille modi; alcuni pensano che sia responsabile per rivoluzioni e migrazioni, e certo è responsabile per nuovi tipi di arte e bellezza.

Ed è anche il luogo in cui i nostri bambini incontrano l’Intelligenza Artificiale: è l’IA che risponde alle loro domande, raccomanda la musica e le notizie, traduce da varie lingue, reperisce e filtra le informazioni.

Possiamo aspettarci ben di più: i medici lo useranno presto per diagnosticare malattie o trovare informazioni su condizioni rare. Lasciando da parte lo smartphone, troveremo tra breve forme di IA in ospedali, scuole e automobili. Non solo sarebbe impossibile tornare indietro, sarebbe irresponsabile: quello che dobbiamo fare invece è rendere sicura questa tecnologia.

È qui che don Antonio avrebbe qualcosa da dire. Abbiamo creato un mondo per i nostri figli in cui le macchine prenderanno decisioni al posto loro e su di loro. Dobbiamo alle nuove generazioni, che hanno queste macchine in tasca e non possono capire il mondo che ci siamo lasciati alle spalle, la possibilità di fidarsi del mondo che abbiamo creato per loro. Questi ragazzi caricheranno online il proprio curriculum, o domanda di ammissione o qualsiasi altra richiesta importante, e poi attenderanno che l’agente prenda una decisione. Devono essere certi che queste macchine non li sfrutteranno, né sfrutteranno i loro sogni, e non li discrimineranno, o deluderanno in alcun altro modo.

Ci sarà pressione perché si faccia finta di non capire, e dovremmo prepararci anche per questo. Quando il computer guida con più sicurezza delle persone, alcuni produttori chiederanno, è etico insistere nel voler guidare di persona? E quando il software può fare previsioni migliori riguardo a un prestito o una domanda di lavoro, è accettabile richiedere di essere invece giudicati da una persona? Potremmo anche essere chiamati presto a decidere cosa fare dei nostri valori, quando i nostri concorrenti economici li violano, o quando c’è qualche emergenza. Sentiremo tutte queste obiezioni molto presto: cominciamo a pensarci fin d’ora.

Le nostre culture evolveranno, in qualche modo, per incorporare questa nuova presenza. Quello che dovremmo comunque continuare a insegnare alla prossima generazione, è che il valore supremo è la dignità degli esseri umani, ed è così che dovremmo misurare qualsiasi decisione futura riguardo al ruolo delle macchine intelligenti. A prescindere da quanto più intelligenti di noi potranno essere diventate, «non saranno mai meglio di noi». Forse don Antonio avrebbe apprezzato l’annuncio pubblicato da quei redattori di Amazon sul «Seattle Weekly», e diretto ad Amabot: «La gloriosa confusione della carne e del sangue prevarrà». Io davvero penso che lo farà.