Lo ha stabilito un’indagine della rivista The Atlantic. Sono stati utilizzati testi di Stephen King, Zadie Smith, Haruki Murakami e altri.
Secondo un articolo della rivista statunitense, opere di scrittori tra cui Stephen King, Rachel Cusk, Zadie Smith, Margaret Atwood, Haruki Murakami ed Elena Ferrante sono tra le migliaia di titoli piratati utilizzati per addestrare i sistemi di intelligenza artificiale. oceano Atlanticocitando l’agenzia Telam.
Il post spiega che più di 170.000 indirizzi sono stati integrati in modelli gestiti da aziende come Meta e Bloomberg, che hanno inavvertitamente contribuito a un enorme set di dati utilizzato dalle aziende per costruire i loro strumenti di intelligenza artificiale.
Secondo il testo, la libreria Books3 è stata utilizzata per addestrare LLaMA, che è uno dei numerosi linguaggi modello di grandi dimensioni (anche se il più noto è ChatGPT di OpenAI) progettato per generare contenuti basati su modelli definiti in script di esempio.
Il set di dati è stato utilizzato anche per addestrare il BloombergGPT di Bloomberg e il GPT-J di EleutherAI, ed è “potenzialmente” utilizzato in altri modelli di intelligenza artificiale, secondo una ricerca di EleutherAI. oceano Atlantico.
I titoli raccolti in Books3 sono circa un terzo di narrativa e due terzi di saggistica, la maggior parte dei quali pubblicati negli ultimi vent’anni. Insieme agli scritti di Smith, King, Kosk e Ferrante, le opere protette da copyright nel set di dati includono 33 libri di Margaret Atwood, almeno nove libri di Haruki Murakami, nove libri di Bell Hooks, sette libri di Jonathan Franzen, cinque libri di Jennifer Egan e cinque libri degli autori. Da David Gran. Ci sono anche libri sciolti di George Saunders, Junot Diaz, Michael Pollan, Rebecca Solnit e Jon Krakauer, oltre a 102 romanzi del fondatore della Chiesa di Scientology L. Ron Hubbard e 90 libri del Rev. John MacArthur.
I volumi provengono da editori grandi e piccoli, tra cui più di 30.000 di Penguin Random House, 14.000 di HarperCollins, 7.000 di Macmillan, 1.800 di Oxford University Press e 600 di Verso.
La scoperta fa seguito a una causa intentata a luglio da tre scrittori – Sarah Silverman, Richard Cadrey e Christopher Golden – sostenendo che il loro lavoro protetto da copyright è stato “copiato e assorbito come parte della formazione” per LLaMA di Meta. Dall’analisi è emerso che le memorie dei tre ricorrenti fanno effettivamente parte di Books3.
“Drogato televisivo certificato. Ninja zombi esasperatamente umile. Sostenitore del caffè. Esperto del Web. Risolutore di problemi.”