I sistemi di intelligenza artificiale come ChatGPT potrebbero presto esaurire l’ingrediente che li rende sempre più intelligenti: i miliardi di parole che le persone hanno scritto e condiviso online.
Un nuovo studio pubblicato giovedì dal gruppo di ricerca Epoch AI prevede che le aziende tecnologiche esauriranno la fornitura di dati di formazione disponibili al pubblico per i modelli linguistici dell’intelligenza artificiale tra il 2026 e il 2032.
Tamai Beciroğlu, uno degli autori dello studio, paragona il fenomeno a una “corsa all’oro” che esaurisce le limitate risorse naturali e afferma che il campo dell’intelligenza artificiale potrebbe avere difficoltà a mantenere il ritmo attuale di progresso una volta esaurite le riserve di scrittura prodotta dall’uomo. .
Nel breve termine, aziende tecnologiche come OpenAI, lo sviluppatore di ChatGPT, e Google si stanno affannando per reperire, e talvolta pagare, fonti di dati di alta qualità per addestrare i loro grandi modelli linguistici di intelligenza artificiale. Per fare questo, ad esempio, hanno firmato accordi per sfruttare il flusso costante di dichiarazioni provenienti dai forum e dai media di Reddit.
Nel lungo termine, non ci saranno abbastanza nuovi blog, articoli di notizie e commenti sui social media per sostenere l’attuale percorso di sviluppo dell’intelligenza artificiale, costringendo le aziende a rivolgersi a dati sensibili che ora sono considerati privati, come e-mail o messaggi di testo, o fare affidamento sui “dati sintetici” generati dagli stessi chatbot, considerati meno affidabili.
“C’è un serio collo di bottiglia qui”, dice Beseroğlu. “Se inizi ad avere queste limitazioni sulla quantità di dati di cui disponi, non puoi più scalare i tuoi modelli in modo efficiente. L’espansione dei modelli è probabilmente il modo più importante per aumentare le loro capacità e migliorare la qualità dei loro risultati.”
I ricercatori hanno fatto le loro prime previsioni due anni fa, poco prima del debutto di ChatGPT, in un documento di lavoro in cui prevedevano che i dati di testo di alta qualità si sarebbero esauriti entro il 2026. Molte cose sono cambiate da allora, come le nuove tecnologie che consentono ai ricercatori di intelligenza artificiale di trarre vantaggio dai dati che già possiedono, a volte “allenandosi eccessivamente” più volte utilizzando le stesse fonti.
Ma ci sono dei limiti e, dopo una nuova ricerca, Epoch prevede ora che i dati sui testi pubblici si esauriranno nei prossimi due-otto anni.
L’ultimo studio del team è stato sottoposto a revisione paritaria e sarà presentato alla prossima conferenza internazionale sull’apprendimento automatico a Vienna, in Austria. Epoch è un istituto senza scopo di lucro sponsorizzato da Rethink Priorities con sede a San Francisco e finanziato da sostenitori dell’altruismo efficace, un movimento filantropico che ha investito denaro per mitigare i rischi più gravi dell’intelligenza artificiale.
I ricercatori sull’intelligenza artificiale hanno riconosciuto più di dieci anni fa che il ridimensionamento aggressivo di due componenti chiave – la potenza di calcolo e le enormi banche dati online – potrebbe migliorare notevolmente le prestazioni dei sistemi di intelligenza artificiale, afferma Beciroğlu.
Secondo uno studio di Epoch, la quantità di dati testuali immessi nei modelli linguistici dell’intelligenza artificiale è aumentata di 2,5 volte all’anno, mentre la potenza di calcolo è quadruplicata ogni anno. Meta Platforms, la società madre di Facebook, ha recentemente affermato che una versione più grande del modello Llama 3, che deve ancora arrivare sul mercato, è stata addestrata con un massimo di 15 trilioni di token, ognuno dei quali potrebbe rappresentare parte di una parola.
Ma è discutibile di quale collo di bottiglia dei dati valga la pena preoccuparsi.
“Penso che sia importante tenere presente che non abbiamo necessariamente bisogno di addestrare modelli sempre più grandi”, afferma Nicolas Papernot, professore associato di ingegneria informatica presso l’Università di Toronto e ricercatore presso il Vector AI Institute senza scopo di lucro. . .
Si possono creare sistemi di intelligenza artificiale più qualificati anche addestrando modelli più specializzati su compiti specifici, afferma Papernot, che non è stato coinvolto nello studio di Epoch. Tuttavia, teme che i sistemi di intelligenza artificiale generativa vengano addestrati sugli stessi risultati che producono, portando a un degrado delle prestazioni noto come “crash del modello”.
L’addestramento con i dati generati dall’intelligenza artificiale “è simile a ciò che accade quando si fotografa un pezzo di carta e poi si fotografa la copia. Alcune informazioni vengono perse”, afferma Papernot. Non solo, la ricerca di Papernot ha anche scoperto che può aumentare l’integrazione degli errori e pregiudizi e ingiustizie già incorporati nell’ecosistema dell’informazione.
Se le frasi scritte da esseri umani rimangono una fonte cruciale di dati per l’intelligenza artificiale, i gestori dei tesori più ambiti – siti come Reddit e Wikipedia, nonché editori di notizie e libri – saranno costretti a prendere in considerazione l’idea di utilizzarle.
“È un problema interessante il fatto che stiamo discutendo di risorse naturali piuttosto che di dati generati dall’uomo. Non dovrei riderne, ma penso che sia sorprendente”, ha affermato Selena Dickelmann, direttrice del prodotto e della tecnologia presso la Wikimedia Foundation, che. gestisce Wikipedia.
Sebbene alcune entità abbiano cercato di impedire che i loro dati venissero utilizzati per addestrare l’intelligenza artificiale – spesso dopo che erano già stati utilizzati senza compenso – Wikipedia ha posto poche restrizioni su come le società di intelligenza artificiale possono utilizzare articoli scritti da volontari. Tuttavia, Dickelman dice che spera di fornire ancora incentivi affinché le persone continuino a contribuire, soprattutto quando un torrente di “spam” economico e generato automaticamente inizierà a inquinare Internet.
Le società di intelligenza artificiale “dovrebbero essere interessate a garantire che i contenuti generati dall’uomo continuino a esistere e siano accessibili”, afferma.
Dal punto di vista degli sviluppatori di intelligenza artificiale, lo studio Epoch suggerisce che pagare milioni di esseri umani per generare il testo di cui avranno bisogno i modelli di intelligenza artificiale è “improbabile” che sia un modo economicamente vantaggioso per ottenere migliori prestazioni tecniche.
Mentre OpenAI inizia a lavorare sulla formazione della prossima generazione di grandi modelli linguistici GPT, il CEO Sam Altman ha detto ai partecipanti a un evento delle Nazioni Unite il mese scorso che la società ha già sperimentato la “generazione di molti dati sintetici” per la formazione.
“Penso che ciò di cui abbiamo bisogno siano dati di alta qualità. Ci sono dati sintetici di bassa qualità”, ha detto Altman, ma ha anche espresso riserve sull’affidarsi troppo ai dati sintetici rispetto ad altri metodi tecnici miglioramento dei modelli di intelligenza artificiale.
“Sarebbe molto strano se il modo migliore per addestrare un modello fosse generare, diciamo, un trilione di token da dati sintetici e restituirli”, afferma Altman. “In qualche modo, questo sembra inefficace.”
___
Associated Press e OpenAI hanno un accordo di licenza e tecnologia che consente a OpenAI di accedere a determinati file di testo AP.
“Evangelista di zombie dilettante. Creatore incurabile. Orgoglioso pioniere di Twitter. Appassionato di cibo. Internetaholic. Hardcore introverso.”