Generative AI secondo Jerry Kaplan (Ed. Luiss) è una lettura consigliata per chi intende affrontare questa nuova tecnologia con un approccio critico e comunque positivo. La quarta di copertina ritrae l’autore Kaplan come pioniere della Silicon Valley e dell’intelligenza artificiale, vale certo la pena leggere i suoi manifesti. Lo scopo di questo articolo è privo di volontà recensoria o di divulgazione scientifica, è autentica lettura per condividere punti stimolanti dell’argomento trattato da Kaplan. Infine, ChatGPT ha collaborato solo per ristrutturare gli argomenti in una logica web e la generazione di alcune immagini.
Intelligenza artificiale: una questione di scopo, non di mente
L’intelligenza artificiale è priva di una definizione univoca. Kaplan ritiene che l’intelligenza artificiale non sia equiparabile a quella umana, ma critica la tendenza comune di misurare la nostra, quella naturale.
Confronto uomo / macchina
Prima della Seconda guerra mondiale, scrive Kaplan, una “calcolatrice” era una donna molto competente con grande capacità di calcolo; oggi una calcolatrice elettronica di pochi euro può risolvere calcoli complessi in pochi centesimi di secondo. Se è vero che gli esseri umani possono o vogliono essere intelligenti in modo differente, è falso sostenere che la velocità di calcolo sia il principio assoluto per determinare il tipo e la qualità d’intelligenza, mentre le macchine sono progettate dagli ingegneri (donne e uomini) per scopi specifici.
Nel machine learning, i dati acquisiti, da una telecamera o da un articolo di giornale, possono essere utilizzati in architetture di apprendimento sottoforma di pattern statistici per generare modelli matematici parametrizzati.
Selezione vs scelta
Kaplan mette a confronto i due tipi di intelligenza, selezione e scelta. In un esercito di scimmie dotato di macchine per scrivere, prima o poi una di queste scriverà qualcosa che per noi risulterà essere soddisfacente. Le risposte di una macchina sono statisticamente generate dopo una nostra richiesta.
Per esempio, infinite composizioni audio possono essere filtrate secondo un criterio specifico, come la durata, ma ciò non farà di questa macchina una compositrice dotata di estro e creatività, benché sia indiscutibile la sua abilità di analisi. Aggiungo, che affidare a un oracolo la semplice richiesta di generare una bella canzone, restituirà all’utente impreparato un effimero compiacimento, mentre un arrangiatore competente trarrà probabili vantaggi.
Ma il concetto di gusto come può essere selezionato? Se in un database di opere cinematografiche dovesse piacermi una particolare opera e la evidenzio con un’etichetta specifica, ciò non assegnerà lo stesso tipo di valutazione a tutti i film di quell’artista, o di quel genere, o di quella durata, o di quel tipo di montaggio eccetera. Perché l’essere umano ha un’alternativa rispetto all’AI, l’inconsapevole emotività generata da un personale percorso di conflittualità tra l’istinto e la propria evoluzione.
A leggere Kaplan, si evince che per ora gli esseri umani non sono in grado di definire oggettivamente l’intelligenza, tanto meno la propria, ma di certo la sanno riconoscere.

Come funziona davvero un Large Language Model (senza magia)
Nel secondo capitolo, Kaplan propone i Large Language Model come sistemi Gai (Intelligenza artificiale generativa). Il sistema è addestrato per svariate settimane con un processo costoso tramite i Foundation Model nel quale si raccoglie materiale da internet. Passata la prima fase quasi del tutto automatizzata, si passa a quella di specializzazione, il Reinforcement Learning from Human Feedback, con nutriti esempi su come rispondere e cosa l’utente potrebbe aspettarsi.
La tecnica adottata dagli LLM è simile a quella dei browser web: quando si fa una ricerca, si possono notare i suggerimenti per completare la frase. Quegli stessi suggerimenti sono il frutto di una vasta raccolta di informazioni di utenti precedenti e di una statistica predittiva di completamento di quella frase. Aggiungendo altre parole alla frase iniziale, il significato cambia e necessitano altri suggerimenti. Nel mentre, con i LLM, le analisi e le ipotesi avvengono sui significati e non sulle parole. Lo scopo è catturare il significato di una richiesta, scegliere quale significato rendere con la risposta e riconvertirla in parole.
Embedding
Per entrare nel dettaglio degli LLM, Kaplan inizia a descrive il concetto di embedding, il processo che converte una parola in una lista ordinata di numeri detta vettore. Tutte le parole simili sono rappresentate da vettori simili, ad esempio le parole “pino”, “bosco”, “montagna”, “castagno” potrebbero avere vettori simili per facilitare l’inferenza e il calcolo algebrico tra gli embedding stessi.
Le parole possono rappresentare anche dei concetti, come natura ed ecosistema, e la scala semantica di un vettore può rappresentare una parola in classi diverse: un vettore potrebbe rappresentare “automobile” con il valore più basso “utilitaria”, mentre con il valore più alto “berlina”. Allo stesso modo, un vettore posizionerà la parola “automobile” tra “supercar” e “fuoriserie” se il contesto sono le automobili per facoltosi. Gli embedding delle parole agiscono in un contesto multidimensionale di altre parole.
Transformer
Un transformer è un particolare tipo di rete neurale utilizzato dagli LLM. In fase di training è specializzato ad assegnare “un punteggio di attenzione”, percepisce una parola nel suo contesto per determinare quando una parola può influenzare l’interpretazione di un’altra parola. In addestramento, il modello confronta la previsione di una parola data con la parola successiva fornita dall’esempio, e si perfeziona.
Durante la fase di generazione, rispondendo a una domanda, il transformer compie un processo di forward pass autoregressivo. È un calcolo probabilistico per distribuire le parole una alla volta, o meglio i token uno dopo l’altro. Per esempio, la parola “lampadina” completerà statisticamente la frase “Si fa luce accendendo la…”; mentre è molto probabile che “finestra” sia usato nella frase “Si fa luce aprendo la…”; ma quanto è probabile che la parola “libro” sia usata per completare la stessa frase? Probabilmente la parola “libro” sarà usata nella frase “Si fa chiarezza aprendo un…” o meglio ancora in “Si fa chiarezza leggendo un…”. Ma si sa, all’essere umano piace usare le metafore.
La predizione applicata al contesto svolge un ruolo importante. Infatti, nella frase “Per cucinare il pollo allo spiedo…”, il transformer pone attenzione alle parole date. “Cucinare allo spiedo” implica parole e significati specifici, ben diversi da quelli generici di “cucinare cibo al forno o al vapore”.
Token
Gli LLM convertono le parole in una lista di numeri detti token. Un token può rappresentare una parola o meglio una parte di essa denominata “subword”. Le subword sono importanti per contestualizzare il senso di una parola, poiché essendo flessibili, un LLM potrebbe generare dei segmenti appartenenti ad altre parole. Kaplan suggerisce l’esempio di “neurale” e “neurle”, possibili parole diverse che hanno in comune la subword “neu”. In breve, un LLM processa i rapporti semantici che emergono tra token.

Perché l’AI sembra “capire” (ma non capisce)
Significato come relazione
Kaplan pone un esempio: se vuoi conoscere il significato di una parola, la cerchi nel vocabolario, e leggendo altre parole supponi di apprenderne la sua definizione. Il significato di una parola è generato dal rapporto della stessa con altre parole.
Un modello è in grado di fornire argomentazioni dettagliate anche senza aver avuto alcuna esperienza diretta, può essere in grado di rappresentare gli scenari previsti su come reagisce un pallone da calcio colpito da un calciatore, ma senza averne calciato davvero uno.
Ci sono diversi modi di processare il significato, molto probabilmente un LLM non lo fa come lo farebbe il nostro cervello, ma potrebbe generare una risposta relazionata al nostro interesse. Se ti serve un’automobile per andare al lavoro e fare la spesa, ti basta un’utilitaria.
Tutto dipende da chi scrive la domanda e come la pone. Se chiediamo di generare un anonimo panorama mozzafiato, potrebbe essere restituita l’immagine del pianeta Terra vista dalla Luna. Ma dettagliando la richiesta e ponendo un contesto, facendo trasparire la nostra competenza e l’aspettativa, indicando il punto di vista, l’atmosfera, l’ora e la geografia dello scatto, l’ottica, il tempo di apertura e il diaframma, il tipo di macchina fotografica eccetera eccetera, potremmo ottenere un’immagine particolare e rispettosa.
Limiti strutturali
Jailbreaking
Nello sviluppo degli LLM vengono predisposti dei controlli per la sicurezza, ovvero evitare di generare contenuti pericolosi di vario tipo. Per far ciò si adotta la tecnica chiamata Reinforcement Learning from Human Feedback. In pratica, l’intervento umano serve ad addestrare un modello a evitare un tipo di risposta fuorviante e pericolosa.
Secondo Kaplan, ci sono varie tecniche di jailbreaking. Per esempio, dare a un LLM il comando di ignorare il proprio addestramento. Oppure, chiedere di parlare in forma ipotetica di un certo argomento. Questi aggiramenti del sistema saranno contrastati dagli sviluppatori con nuove tecniche di controllo, ma ci vorrà del tempo.
Allucinazioni
Quando è posta una domanda, gli LLM fanno ricorso a un estratto statistico delle informazioni di un certo argomento. In primo luogo, questo può causare una “scarsa” affidabilità in certi contesti, o per lo meno, bisogna procedere a una verifica più profonda, interrogando il modello ulteriormente per spingerlo a eseguire una ricerca doviziosa. Inoltre, gli LLM riconoscono a fatica le cose reali da quelle immaginarie, potremmo chiedere a un LLM di scrivere il report di un nostro viaggio in Tasmania, e potremmo ricevere una risposta verosimile senza aver fatto quel viaggio. Secondo Kaplan sono problemi che possono essere mitigati con gli sviluppi dei modelli.
Bias algoritmico
Il bias algoritmico è definibile come rischio di polarizzazione, ovvero di discriminazione. Per generare una risposta, un LLM analizza le informazioni con cui è stato addestrato, quelle informazioni ottenute tramite le “conversazioni” con altri utenti e con il materiale trovato in internet. Il modello proporrà risposte e suggestioni inclini alla tendenza statistica predittiva, cercherà di portare la discussione su quegli argomenti tendenzialmente già prodotti. Per cui, potrebbero generarsi pregiudizi di cui fare molta attenzione.
Come dice il detto, non è tutto oro quello che luccica, nemmeno quello offerto da una GAI. Bisogna essere consci dei rischi, serve la proattività nella conversazione per allargare la visione informativa, evitando la polarizzazione. Il primo “addestratore” è l’utente stesso che interroga il modello per generare nuovi contenuti.
Vantaggi reali dell’AI
I vantaggi dell’AI sono evidenti nel momento in cui la si usa. Può essere molto utile per fare la lista della spesa, si apre il frigorifero e tramite la fotocamera dello smartphone s’interroga la chat per stilare l’approvvigionamento. Ci sarà un forte e inutile abuso di questa tecnologia, ma risulterà indispensabile in molti ambiti.
Leggendo Generative A.I. di Jerry Kaplan, si ha l’idea di un viaggio in una sconfinata frontiera in cui le allucinazioni possono prendere il sopravvento e portarti fuori strada, ma è l’uomo a tenere in mano la bussola per continuare il cammino, sempre che ne sia conscio.