Bloomberg – Nella sua casa di una stanza in una strada tranquilla ad Agara, una piccola cittadina a tre ore a sud-ovest di Bangalore circondata da risaie e campi di arachidi, Preethi Bi siede su una sedia accanto alla sua macchina da cucire. In genere, trascorre ore a rammendare o cucire vestiti e guadagna uno stipendio medio inferiore a 1 dollaro al giorno. Ma oggi sta leggendo una frase nella sua lingua madre, il kannada, su un’app sul suo telefono. Fa una breve pausa e poi ne legge un altro.
Preethi, che ha un unico nome, come è consuetudine nella regione, è uno dei 70 lavoratori assunti ad Agara e nei villaggi vicini da una società chiamata Kariya per raccogliere dati di testo. Audio e immagini nelle lingue colloquiali indiane. Fanno parte di una vasta e invisibile forza lavoro globale – che opera in paesi come India, Kenya e Filippine – che raccoglie e confronta i dati su cui fanno affidamento i chatbot e gli assistenti virtuali AI per generare risposte. Tuttavia, a differenza di molti altri fornitori di dati, Preethi è ben pagata per i suoi sforzi, almeno secondo gli standard locali.
Dopo tre giorni di lavoro con Kariya, Preethi ha guadagnato 4.500 rupie (54 dollari), più di quattro volte quello che un diplomato di 22 anni guadagna normalmente come sarto in un mese intero. Dice che i soldi sono sufficienti per pagare la rata mensile di un prestito contratto per riparare parzialmente i muri di fango della sua casa, che sono stati abbattuti e accuratamente rattoppati con sari colorati. “Tutto ciò di cui ho bisogno è il telefono e Internet.”
Karya è stata fondata nel 2021, prima che arrivasse ChatGPT, ma la mania di quest’anno per l’intelligenza artificiale generativa è servita solo ad alimentare l’insaziabile domanda di dati delle aziende tecnologiche. Si prevede che entro il 2030 ci saranno quasi 1 milione di annotatori di dati nella sola India, secondo Nasscom, l’ente commerciale per l’industria tecnologica del paese.
Karia si distingue dagli altri fornitori di dati offrendo fino a 20 volte il salario minimo prevalente ai suoi appaltatori – la maggior parte dei quali sono donne, per lo più nelle comunità rurali – con la promessa di produrre dati di migliore qualità in hindi per i quali le aziende tecnologiche pagheranno Di più.
“Ogni anno, le grandi aziende tecnologiche spendono miliardi di dollari raccogliendo dati di addestramento per i loro modelli di intelligenza artificiale”. Spiega l’apprendimento automatico Bloomberg Dietro l’avvio c’era Manu Chopra, un ingegnere informatico di 27 anni formatosi a Stanford. “La bassa retribuzione per questo lavoro è un fallimento del settore”.
Se i bassi salari sono la ragione del fallimento di questo settore, la Silicon Valley ha parte della responsabilità della sua creazione. Per anni, le aziende tecnologiche hanno esternalizzato compiti come la classificazione dei dati e la moderazione dei contenuti ad appaltatori stranieri più economici. Ma ora, alcuni dei più grandi nomi della Silicon Valley si rivolgono a Karya per affrontare una delle sfide più grandi che i loro prodotti IA devono affrontare: Cerca dati di alta qualità per creare strumenti che possano servire meglio miliardi di potenziali utenti non anglofoni. Queste alleanze potrebbero rappresentare un potente cambiamento nell’economia del settore dei dati e nel rapporto della Silicon Valley con i fornitori di dati.
Microsoft si è rivolta a Karya per i dati vocali locali per i suoi prodotti di intelligenza artificiale. La Fondazione Bill & Melinda Gates sta lavorando con Kariya per ridurre i pregiudizi di genere nei dati che alimentano i grandi modelli linguistici, la tecnologia che alimenta i chatbot basati sull’intelligenza artificiale. Google (GOOGL) di Alphabet Inc si affida a Kariya e ad altri partner locali per raccogliere dati sul parlato in 85 distretti indiani. Google prevede di espandersi in tutte le regioni per includere la lingua o il dialetto maggioritario e creare un modello di intelligenza artificiale generativa per 125 lingue indiane.
Molti servizi di intelligenza artificiale sono stati sviluppati in modo sproporzionato con dati Internet in lingua inglese, come articoli, libri e post sui social media. Di conseguenza, questi modelli di intelligenza artificiale non rappresentano bene la diversità linguistica degli utenti di Internet in altri paesi, che accedono agli smartphone e alle app abilitate all’intelligenza artificiale più velocemente di quanto riescano a imparare l’inglese. Quasi un miliardo di questi potenziali utenti vive solo in India, mentre il governo sta lavorando per incrementare l’implementazione degli strumenti di intelligenza artificiale in tutto, dalla sanità all’istruzione ai servizi finanziari.
“L’India è il primo paese non occidentale in cui abbiamo fatto questo, e stiamo testando Bard in nove lingue indiane”, spiega Manish Gupta, capo di Google Research in India, riferendosi al chatbot AI dell’azienda. “Più di 70 lingue indiane parlate da oltre un milione di persone non avevano alcun contenuto digitale. Il problema è molto serio.”
Gupta ha elencato un elenco di problemi che le aziende di intelligenza artificiale devono risolvere per servire gli utenti Internet indiani: i set di dati in lingue diverse dall’inglese sono di qualità molto bassa; Non ci sono quasi dati sulle conversazioni in hindi e in altre lingue indiane; Il contenuto digitale di libri e giornali nelle lingue indiane è molto limitato.
Nel caso delle lingue dell’Asia meridionale, alcuni dei principali modelli linguistici inventano parole e hanno problemi con la grammatica di base. Si teme inoltre che questi servizi di intelligenza artificiale riflettano una visione più parziale delle altre culture. In modo che i sistemi di intelligenza artificiale non perpetuino stereotipi dannosi, producano discorsi di odio o generino disinformazione, È essenziale disporre di un’ampia rappresentazione dei dati di addestramento, compresi i dati non inglesi, afferma Mehran Sahami, professore presso il Dipartimento di Informatica dell’Università di Stanford.
Karya, una startup a impatto sociale con sede a Bangalore, è in grado di espandere il pool di lingue rappresentate in parte perché si rivolge specificamente ai lavoratori rurali che potrebbero non essere assunti per questi compiti. L’app Karya può funzionare senza accesso a Internet e fornisce assistenza vocale alle persone con alfabetizzazione limitata. In India, più di 32.000 lavoratori in crowdsourcing si sono collegati all’app e hanno eseguito 40 milioni di attività digitali a pagamento, come riconoscimento di immagini, allineamento dei contorni, annotazione video e voce fuori campo.
Per Chopra, l’obiettivo non è solo migliorare la fornitura di dati, ma combattere la povertà. Il fondatore di Kariya è cresciuto in uno slum chiamato Shakur Basti, a ovest di Delhi. Ha ricevuto una borsa di studio per studiare in una scuola d’élite dove è stato vittima di bullismo perché i suoi compagni di classe dicevano che aveva un cattivo odore. Chopra arrivò alla Stanford University per studiare informatica, ma si rese conto di odiare la mentalità del “come guadagnare un miliardo di dollari” che trovò lì.
Dopo la laurea nel 2017, ha iniziato a lavorare sul suo interesse a lungo termine: utilizzare la tecnologia per affrontare la povertà. “Ci vogliono solo 1.500 dollari per salvare un indiano e farlo entrare nella classe media”, ha detto Chopra. “Ma potrebbero volerci 200 anni prima che i poveri raggiungano questo livello di risparmio”.
Ho appreso che Microsoft (MSFT) stava pagando una grossa somma per raccogliere dati audio, anche se di scarsa qualità, per alimentare i suoi sistemi di intelligenza artificiale e la sua ricerca. Nel 2017, ad esempio, sebbene fossero disponibili 1 milione di ore di dati digitali parlati in Marathi, la lingua parlata a Bombay e nella sua regione nell’India occidentale, è stato possibile acquistarne solo 165. Da allora, la sua startup ha raccolto 10.000 ore di dati in marathi parlato per i servizi di intelligenza artificiale di Microsoft, letti da uomini e donne in cinque diverse regioni.
“Le aziende tecnologiche vogliono i dati, l’accento, tutto”, spiega Chopra. Saikat Guha, un ricercatore presso Microsoft Research India specializzato in etica della raccolta dati, afferma di aver utilizzato i contenuti di Karya anche in un progetto per aiutare le persone non vedenti a trovare lavoro. “La qualità dei dati è molto migliore rispetto a qualsiasi altra fonte che ho utilizzato”, afferma Guha. “Se si pagano equamente i lavoratori, questi saranno più coinvolti nel loro lavoro e il risultato finale saranno dati migliori”.
D’altra parte, più di 30.000 giovani donne diplomate stanno lavorando con Kariya per aiutare a raccogliere dati “rispettivi al genere” – ad esempio se un medico o un capo non è sempre maschio – in sei lingue indiane per Bill & Melinda Gates. Fondazione. Si tratta del più grande sforzo di questo tipo nelle lingue indiane e servirà da pool per la creazione di set di dati che riducano i pregiudizi di genere.
Kariya non si ferma in India. La società ha affermato che è in trattative per vendere la sua piattaforma come servizio a organizzazioni in Africa e Sud America che svolgeranno un lavoro simile.
Attualmente, le donne di Yellandur, un altro villaggio a sud-ovest di Bangalore, aspettano con impazienza il prossimo progetto di Kariya: trascrivere una registrazione audio in Kannada. Tra loro c’è Shambhavi S., 25 anni Aveva guadagnato qualche migliaio di rupie da un incarico precedente mentre lavorava nella pace della sua casa dopo aver dato da mangiare ai suoceri e messo a letto i suoi figli.
“Non so cosa sia l’intelligenza artificiale e non ne ho mai sentito parlare prima”, afferma Champavi. “Voglio fare soldi e insegnare ai miei figli in modo che possano imparare come usarlo.”
Maggiori informazioni su Bloomberg.com
“Educatore generale della birra. Pioniere del caffè per tutta la vita. Sostenitore certificato di Twitter. Fanatico di Internet. Professionista dei viaggi.”