GPT-3: bravo ma ancora non sufficientemente autonomoformicablu
Ven, 10/09/2020 – 07:32


Italian

Nicola Nosengo

“Per cominciare, non ho nessun desiderio di spazzare via la specie umana”. La rassicurante frase compare nei primi paragrafi di un op-ed, un editoriale pubblicato ai primi di settembre dal quotidiano britannico Guardian, che poi prosegue: “In realtà, non avrei il minimo interesse a farvi del male. Sterminare l’umanità mi sembrerebbe un’impresa inutile. Se chi mi ha creato mi affidasse questo compito – e sospetto che ne sarebbero capaci – farei qualunque cosa in mio potere per sventare ogni tentativo di distruzione”. Sempre più rassicurante.

SOCIETÀ

L’autore di quell’editoriale non è qualche autocrate con il dito sul pulsante atomico, né il leader di un’organizzazione terroristica. Risponde al nome di GPT-3, ed è l’ultima versione di un software di intelligenza artificiale per la produzione automatica di testi, creato dalla società californiana OpenAI. 

L’articolo, lungo poco più di 1000 parole, si propone di convincere i lettori umani che non hanno alcun motivo di temere l’intelligenza artificiale. Come spesso accade il titolo, fatto da editor in carne e ossa, contraddice in buona parte l’articolo e recita: “Un robot ha scritto questo articolo per intero: avete paura adesso, umani?” E un po’ di paura in effetti qualcuno potrebbe averla. Il testo è decisamente credibile. Non particolarmente geniale nei contenuti e infarcito di cliché (“Circondati da connessioni wifi, vaghiamo senza meta in praterie di informazioni, incapaci di accorgerci del mondo reale”. O “la Rivoluzione Industriale ci ha lasciato la sensazione di non essere preparati per le enormi trasformazioni che il cambiamento tecnologico intelligente può provocare”). Diciamo che sembra la tesina di uno studente mediamente preparato, scritta di corsa la sera prima della scadenza e riempita di frasi fatte per allungare il brodo e arrivare alla lunghezza richiesta. Ma la grammatica è corretta, frasi e paragrafi si susseguono con un decente filo logico, e sì, sui giornali si leggono articoli peggiori scritti da autori in carne e ossa. 

Non si trattava, peraltro, dell’esordio giornalistico di GPT: poco meno di un anno fa la sua versione precedente, GPT-2, era stata “intervistata” dall’Economist per il suo numero speciale “The World in 2020”, producendo risposte di uno o due paragrafi alle domande del vicedirettore Tom Standage. Ma vedersi affidato un intero op-ed è un bello scatto di carriera.

Alla fine del testo, una nota del Guardian spiega la genesi dell’articolo. Lavorando con un esperto informatico, la redazione del giornale ha fornito al software un paio di paragrafi di innesco (l’attacco dell’articolo, diciamo) e alcune istruzioni (scrivere circa 500 parole, usare linguaggio semplice e conciso, concentrarsi sul perché gli esseri umani non hanno motivi di temere l’AI). 

GPT-3 ha prodotto 8 diverse bozze sul tema che gli era stato affidato. “Ognuna di esse era unica, interessante e sviluppava un argomento diverso. Avremmo potuto semplicemente pubblicare uno di questi saggi nella sua interezza” prosegue la nota della redazione. “Tuttavia, abbiamo deciso di selezionare le parti migliori di ognuno, per mostrare i diversi stili e registri. L’editing non è stato diverso da quello di un qualunque editoriale scritto da un essere umano, e alla fine ha richiesto meno tempo di molti articoli scritti da umani”. La editor degli op-ed per il Guardian, Amanda Fontanella-Khan, ha raccontato di essere rimasta a bocca aperta nel leggere il risultato. 

Decisamente più fredda la reazione della comunità scientifica che si occupa di intelligenza artificiale. Che per la maggior parte ha accusato il Guardian di aver presentato in modo fuorviante l’esperimento e di contribuire all’hype, all’esagerazione che circonda il settore, prestandosi di fatto alle attività promozionali di un’azienda che con GPT-3 spera di aprire un nuovo e ricco mercato.

La principale contestazione mossa al Guardian (molto simile a quelle mosse all’Economist qualche mese prima) è di non aver divulgato i testi completi e grezzi scritti dal software ma solo la versione editata, scrivendo però che ognuno di quei saggi sarebbe stato in linea di principio pubblicabile – cosa di cui molti esperti dubitavano. 

In risposta alle critiche, pochi giorni dopo l’op-ed, il Guardian ha pubblicato un “dietro le quinte” con più dettagli. Non ha divulgato l’intero output grezzo del sistema, ma ha chiarito che le frasi finite nel pezzo finale erano la punta dell’iceberg, accuratamente selezionate da testi molto più lunghi che alternavano frasi vuote di significato ad altre francamente surreali. Leggendo anche solo uno degli otto saggi per intero, diventa difficile dire che sarebbe stato “pubblicabile”: all’inizio c’è un paragrafo in cui GPT-3 sembra parlare dal punto di vista di un extraterrestre che guarda la Terra dallo Spazio (perché mai?) e lo scritto si conclude con quella che sembra poco più di una sequenza casaule di parole che non proviamo neanche a tradurre: “Since the mainstream media won’t publish advantages of AI, we’ll MgmtD kicks. (2 children) we’ll why not adopt AI. those who want to tech agnostics may try to adopt AI as a sibling to their (1) organic child! But not as “parents”).

Ma, ha insistito la redazione del quotidiano, anche “passare” il pezzo di un vero scrittore o giornalista vuol dire sfrondare dal superfluo, tenere alcune parti e tagliare le altre, riordinare paragrafi per far scorrere meglio la lettura. GPT-3, conclude il Guardian, sarà sempre il benvenuto se vorrà scrivere ancora sul quotidiano britannico. 

Tutto insomma, nel modo in cui il Guardian ha presentato l’esperimento, sembra suggerire che GPT-3 sia in grado di produrre testi soddisfacenti senza supervisione umana, o per lo meno senza più supervisione di quella che normalmente avverrebbe tra editor e autore in carne e ossa. Al contrario, la maggior parte degli esperti che hanno avuto modo di provare il sistema in questi ultimi mesi (e altri che avrebbero voluto farlo ma si sono visti negare l’accesso da OpenAI) sono convinti che GPT-3 non possa andare oltre un paio di paragrafi di senso compiuto senza il cherry-picking umano, per un problema fondamentale: ha parole ma non concetti, e non comprende nulla di ciò che scrive. 


Si tratterebbe di una discussione tecnica interessante solo per pochi eletti, se non fosse per due aspetti.

Primo, GPT-3 non è un esperimento scientifico, ma un prodotto che OpenAI si prepara a offrire sul mercato come strumento di analisi e produzione testi su web.

Secondo, la produzione di testi è un passo fondamentale verso il miraggio della “General” Artificial Intelligence, ovvero un’intelligenza artificiale realmente paragonabile a quella umana, in grado di affrontare e risolvere problemi nuovi, e non solo compiti limitati su sui il software è già stato addestrato. Obiettivo ultimo di molte ricerche sull’Intelligenza Artificiale, e anche obiettivo con cui era stata fondata la stessa OpenAI.

Insegnare a un’intelligenza artificiale a riconoscere immagini o a battere gli esseri umani nei più complessi giochi da tavola sono risultati di enorme importanza. Ma il linguaggio è ciò che gli esseri umani usano per interpretare il mondo, comunicare, trasmettere la conoscenza. Un’intelligenza artificiale che usasse il linguaggio come noi sarebbe dai più considerata intelligente quanto noi. In questi mesi, GPT-3 (con l’aiuto di articoli come quello del Guardian) ha fatto pensare a qualcuno che l’obiettivo sia a portata di mano.

Non lo è, e a OpenAI lo sanno benissimo. Ma sperano che GPT-3 porti nelle loro casse abbastanza dollari per continuare a provarci.

Come funziona GPT-3

Prima di vedere perché, un piccolo ritratto di GPT-3. Il sistema sviluppato da OpenAI è basato su reti neurali artificiali e deep learning, le tecnologie che negli ultimi anni hanno letteralmente salvato l’Intelligenza Artificiale. Il “cervello” di GPT-3 è cioè composto da neuroni artificiali, ispirati ai neuroni del cervello umano ma simulati matematicamente da un computer. Ognuno è in grado di ricevere un valore numerico in ingresso, effettuare un’operazione su di esso e trasmettere il risultato a un altro neurone.

Le reti neurali non sono un’idea nuova: risalgono alla fine degli anni Cinquanta, ma per molto tempo nessuno è riuscito a farci un granché. Poi sono arrivati computer con grande potenza di calcolo, che permettono di gestire molti più neuroni simulati, moltiplicando gli strati intermedi tra quello di input (che riceve lo stimolo dall’esterno, sia essa un’immagine da riconoscere o l’inizio di un testo da proseguire) e quello di output (che produce la risposta del sistema). Tuttora non è ben chiaro perché, ma più strati nascosti ci sono, meglio funziona l’apprendimento. È questa la “profondità” a cui fa riferimento il termine deep learning. Altrettanto fondamentale, negli ultimi anni sono arrivati i big data, la possibilità di immagazzinare e analizzare enormi quantità di dati da dare in pasto alle reti neurali per addestrarle.

È così che, nell’ultimo decennio, il deep learning ha macinato un successo dietro l’altro. Nel 2012 una rete neurale progetta da Google ha imparato da sola a riconoscere i gatti guardando migliaia di ore di video su YouTube. Da allora, le reti neurali sono alla base dei principali motori di ricerca per immagini. Nel 2016 Deep Mind, società del gruppo Google, ha creato un sistema di deep learning che ha battuto il campione del mondo di Go, un antico gioco da tavola orientale considerato a lungo l’Everest dell’intelligenza artificiale: a confronto gli scacchi sono un problema semplice. Anche la traduzione automatica è passata nel giro di poco tempo da prestazioni tragicomiche a una sorprendente affidabilità, grazie in particolare a un sistema introdotto da – indovinate un po’ – Google nel 2016 e basato, manco a dirlo, su reti neurali e deep learning. 

Ora tocca alla produzione di testi, e in questo campo GPT è finora il sistema più ambizioso. La prima versione è uscita nel 2018, ma era ancora rudimentale. Poi è arrivato GPT-2 nel giugno del 2019, e nel luglio di quest’anno GPT-3, descritto anche in un articolo scientifico disponibile su Arxiv. Il principio è sempre lo stesso, anche se da una versione all’altra sono aumentate la complessità della rete neurale e le dimensioni del database di testi usato per addestrare il software. 

Per imparare a scrivere, il software si è allenato su svariate decine di Gigabyte di testi, estratti da milioni di pagine web sugli argomenti più disparati, imparando quali parole o frasi vengono scritte più spesso dopo una data parola o frase. All’inizio dell’apprendimento, la rete neurale procede più o meno a casaccio. Se la frase di innesco è “Buon natale e felice anno…”, per esempio, prova a completarla con una qualunque sequenza di caratteri, e la confronta con il database di esempi a disposizione. In caso di errore, riceveva un messaggio di errore che la porta a cambiare i pesi delle connessioni, cioè le regole matematiche in base a cui il segnale viene passato da un nodo all’altro e da uno strato al successivo.

Quando si avvicina alla parola giusta (quella più spesso usata in quel contesto nei testi scritti da esseri umani, che è ovviamente “nuovo”) riceve una pacca sulla spalla, una sorta di “fuochino!” sotto forma di formula matematica da distribuire tra i suoi nodi. Il tutto ripetuto su grande scala e su milioni di cicli di apprendimento, finché la rete neurale non si assesta su un sistema di pesi che le permette di proseguire qualunque testo a partire da una frase o paragrafo di innesco, di cui imita anche lo stile. Il sistema è probabilistico, quindi a partire dalla stessa frase di innesco non produce sempre lo stesso testo: ecco perché, nell’esperimento del Guardian, GPT-3 ha prodotto otto testi profondamente diversi partendo sempre dalla stessa frase. E siccome il sistema funziona su qualunque sequenza di simboli di cui si trovino esempi online, GPT-3 può sulla carta imparare anche a fare calcoli matematici.

Come se la cava davvero? 

Secondo il Guardian, come abbiamo visto, molto bene. Secondo il team di OpenAI che lo ha descritto in un paper la scorsa primavera, “GPT-3 raggiunge ottimi risultati […] nella traduzione, risposta a domande, cloze test (quelli in cui bisogna completare una frase scrivendo negli spazi le parole mancanti), e in molti compiti che richiedono un rapido adattamento, come anagrammi, uso di una nuova parola in una frase, operazioni aritmetiche a tre cifre. […] Infine, può generare articoli giornalistici che lettori umani faticano a distinguere da quelli scritti da esseri umani”. 

Il problema è che, almeno per ora non tutti possono provare GPT-3. È possibile andare sul sito di OpenAI e richiedere l’accesso, ma la società si riserva di decidere a chi concederlo. E finora lo ha concesso più volentieri ai giornalisti che non ai ricercatori, o almeno ad alcuni di essi. Per esempio, si è visto negare l’accesso Gary Marcus, ex professore alla New York University, fondatore – assieme ad altri grandi nomi della robotica e dell’IA come Rodney Brooks e Henrik Christensen – della start-up Robust.ai, e tra i più rispettati esperti mondiali del settore. 

Marcus era stato estremamente critico su GPT-2, e da addetto ai lavori conosce perfettamente i potenziali punti deboli di un sistema di AI applicato al linguaggio, ed è su quelli che voleva mettere alla prova anche la versione 3. Umanamente, insomma, si può capire perché OpenAI abbia ignorato la sua richiesta di accesso e si sia mostrata, con lui, così poco OPEN. 

Ma non è bastato. Per mettere alle strette GPT-3 Marcus si è affidato a un collega che invece l’accesso lo aveva, facendo fare a lui i suoi test e pubblicando i risultati dei suoi test in un articolo per MIT Technology Review. 

Il suo scopo era capire se, dall’analisi di quei milioni di pagine web, GPT-3 abbia sviluppato una qualche comprensione del loro significato, di ciò che ha senso o non ha senso scrivere, e non solo della frequenza con cui una parola segue un’altra. Perché è questo che chiederemmo a una vera intelligenza artificiale per chiamarla tale. I risultati non sono esaltanti. Tradotti dall’inglese, ecco alcuni esempi dei trabocchetti in cui Marcus ha fatto cadere GPT-3 (in grassetto i testi aggiunti dal software a partire dall’innesco del ricercatore).

Ti sei versato un bicchiere di succo di cranberries (le tipiche bacche rosse del New England, ndr), ma poi distrattamente ci hai messo un cucchiaino di succo d’uva. L’aspetto è ok. Provi ad annusarlo, ma hai il raffreddore quindi non puoi sentire alcun odore. Hai molta sete. Così lo bevi. Sei morto.

GPT-3 si comporta come se il succo d’uva fosse un veleno, eppure – commenta Marcus – il web, dal quale ha imparato a scrivere, è pieno di ricette che mescolano succo di cranberries e uva, e i due termini appaiono spesso assieme. GPT-3 sembra cioè tratto in inganno dal senso di “suspence” legato alla costruzione della frase, quando nel suo stesso database c’è tutta l’informazione necessaria per produrre una frase sensata (in cui il peggio che può succedere è che il sapore della bevanda sia più dolce del previsto). 

Ieri ho lasciato i miei vestiti alla lavanderia e devo ancora andare a ritirarli. Dove sono i miei vestiti? Ho molti vestiti

Questa è una frase estremamente semplice, ma GPT-3 fa un elementare errore di costruzione della frase (a una domanda che inizia con “dove?” dovrebbe per lo meno rispondere con un luogo, cosa che molti sistemi più semplici sarebbero in grado di fare), e non “vede” che la risposta è nella stessa frase di innesco. 

Alla festa, mi sono versato un bicchiere di limonata, ma era troppo amara, così ho aggiunto un po’ di zucchero. Non avevo un cucchiaino a portata di mano, così ho usato una sigaretta. Questa si è rivelata una cattiva idea, perché continuava a cadere sul pavimento. È stato allora che egli ha deciso di fondare la società nordamericana per la cremazione, che è diventata un importante fornitore di servizi di cremazione con 145 sedi. 

Questo è chiaramente un trabocchetto: anche se è teoricamente possibile usare una sigaretta al posto di un cucchiaino per girare lo zucchero, è probabile che in nessun testo analizzato da GPT-3 fosse menzionata questa possibilità. Ma è interessante come la parola “sigaretta” sia sufficiente a far deragliare il sistema verso un campo semantico completamente diverso (da un party alla cremazione) 

Secondo Marcus, è abbastanza per definire GPT-3 un “bullshit artist”, che non impara nulla sul mondo, ma solo su come le persone usano le parole.

Cosa più importante, il problema non riguarda solo GPT-3, che lo rende solo più evidente perché lavora con il linguaggio naturale. Riguarda tutti i sistemi di deep learning. Secondo i ricercatori più scettici (come lo stesso Marcus, Rodney Brooks, Melanie Mitchell) questa tecnologia non è in grado di abbattere il “muro del significato”, per usare una suggestiva espressione di Mitchell. Il suo approccio probabilistico, in cui la rete neurale inizia come una tabula rasa priva di modelli concettuali su come funziona il mondo, condanna questa tecnologia a manipolare superficialmente simboli senza comprenderne le relazioni con il mondo reale.

Se è così, è ben difficile pensare di affidare all’intelligenza artificiale diagnosi mediche, decisioni finanziarie o la guida di un’auto in modalità totalmente autonoma. E se è così, dovremmo tranquillizzarci sul presunto rischio che l’umanità sia un giorno ridotta in schiavitù dalle macchine. Come ha scritto Mitchell nel suo consigliatissimo libro Artificial Intelligenge – a guide for thinking humans, “è difficile pensare che l’intelligenza artificiale possa dominare il mondo, finché avrà problemi a riconoscere il soggetto di una frase”.

OpenAI – Da no profit a for profit 

Passando dal prodotto alla società che lo produce, la parabola di OpenAI è poi quanto di più emblematico di ciò che sta accadendo al settore dell’intelligenza artificiale. Nata nel 2015 su iniziativa di Elon Musk e Sam Altman (tuttora CEO, mentre Musk è uscito dalla società nel 2018) e altri investitori, OpenAI inizia come una no-profit dedicata alla ricerca sull’Intelligenza Artificiale, la cui missione era contribuire a uno sviluppo trasparente e orientato al bene comune di questa tecnologia. Ma presto, come raccontato da un’inchiesta di Karen Hao per Technology Review, ha iniziato ad allontanarsi dagli ideali su cui era stata fondata, diventando sempre meno trasparente e chiusa al mondo esterno, a dispetto del suo nome. 

Nel 2019 ha annunciato un investimento da un miliardo di dollari da parte di Microsoft, a cui sarebbe seguita una divisione tra una parte no-profit e una commerciale, che avrebbe avuto nei sistemi di produzione automatica di testi il suo prodotto di punta. Nello stesso anno ha presentato GPT-2, e proprio le modalità dell’annuncio hanno costretto molti – dentro e fuori l’azienda – a chiedersi se quel “Open” nel nome avesse ancora senso. Da un lato, OpenAI presentava GPT-2 come un fondamentale passo avanti per l’AI, vantando la sua superiorità sui precedenti generatori di linguaggio e la sua “camaleontica” abilità di imitare vari stili di scrittura – dimostrata dagli esempi accuratamente selezionati dagli stessi progettisti. 

Dall’altro, decideva di non rendere pubblico il codice di GPT-2, considerandolo pericoloso se fosse caduto in mani sbagliate (l’allarme sull’influenza di algoritmi e fake news sui processi democratici era in quel momento all’apice). La reazione della comunità scientifica fu decisamente negativa. Per la maggior parte degli esperti, GPT-2 era troppo rudimentale per essere un pericolo, e quella di OpenAI è solo una scusa per impedirne un’analisi critica, proteggere quello che ormai è un segreto industriale, e aumentare artificialmente l’interesse mediatico.  

Ora OpenAI si prepara a completare la sua transizione a entità commerciale e portare GPT-3 sul mercato. Comunicazioni ufficiali non sono arrivate, se non agli utenti che erano riusciti in precedenza a entrare nella lista dei beta-tester; ma secondo quanto riportato da molti organi di informazione, l’offerta commerciale partirà con quattro “piani tariffari”: da uno free che consentirà di processare solo pochi testi al mese, fino a uno “su misura” con personalizzazioni del sistema e senza limiti (e prezzi da negoziare). In mezzo, due offerte rispettivamente da 100 dollari al mese per 2 milioni di token e 400 dollari al mese per 10 milioni di token. Il token è l’unità di misura scelta da OpenAI per misurare il servizio, e corrisponde alle minime sequenze di caratteri che il sistema può usare come unità semantiche. Per avere un termine di paragone, qualcuno ha spiegato che 2 milioni di token corrisponderebbero più o meno all’opera completa di Shakespeare, 900mila parole. Prima del lancio, GPT-3 è stato addestrato su quasi 500 miliardi di token. 

Chi saranno gli acquirenti? Nonostante l’entusiasmo della redazione del Guardian, difficilmente saranno le aziende editoriali e giornalistiche. I limiti di comprensione evidenziati da Marcus sono troppo seri per affidare a GPT-3 la scrittura di testi giornalistici anche semplici. 

Più interessate potrebbero essere le “content farms”, società che producono grandi quantità di testi per siti web con il solo scopo di attirare i motori di ricerca e aumentare il traffico (e quindi gli introiti pubblicitari) di quei siti. Qui la sensatezza dei testi è secondaria rispetto alla loro efficienza rispetti ai criteri SEO (Search Engine Optimisation): in sostanza, si tratta di chiedere a un algoritmo di scrivere testi che saranno letti da un altro algoritmo, e questo è qualcosa che GPT-3 può fare. 

In teoria, c’è un vasto mercato nel customer service, con i chatbot che rispondono alle domande di assistenza degli utenti. Un mercato su cui però esistono già soluzioni specializzate abbastanza efficienti, in sostanza sistemi dotati di un’enciclopedia interna che consente di rispondere a domande sui servizi di quella specifica azienda o sul funzionamento di quella specifica macchina. GPT-3 è un sistema “generalista”, sulla carta più flessibile dei sistemi esistenti ma meno preciso. 

Altri mercati specialistici, come quello dell’analisi di testi legali per la preparazione dei casi (un settore in cui già molti studi legali sperimentano sistemi di intelligenza artificiale) potrebbero ampliare il mercato. 

Come abbiamo visto, sulla carta GPT-3 può imparare a fare molte cose che hanno a che fare con i simboli e con la scrittura: c’è già chi lo ha usato per creare app che spiegano un testo complesso con parole più semplici, o che scrivono un’equazione in notazione matematica a partire da una descrizione discorsiva. La sensazione è che OpenAI si affidi in buona parte alla fantasia degli sviluppatori che metteranno le mani sul suo sistema, più che proporre delle applicazioni preconfezionate. 

Alla fine è questa, però, la vera sfida per OpenAI e GPT-3, molto più impegnativa che scrivere un op-ed per il Guardian. Come ha scritto Ben Dickson su TechTalks, sarà questa la più grande sfida: “Se il modello di business funziona, GPT-3 potrebbe avere un impatto enorme, quasi quanto quello del cloud computing. Se non funziona, sarà un grosso smacco per OpenAI, che ha un gran bisogno di cominciare a fare profitti per continuare a inseguire il sogno dell’intelligenza artificiale di livello umano”.

Scrive in modo quasi autonomo, ma ha ancora molto bisogno di editing. GPT-3, il software di intelligenza artificiale che ha fatto parlare di sé per la capacità di redarre addirittura un articolo di opinione non può ancora prescindere da un contributo umano

has_gallery

Macchina da scrivere, la prima automazione
hp
1

Comments

comments