lunedì, Settembre 16, 2024

Deve leggere

Articoli correlati

Le aziende di intelligenza artificiale raccolgono pagine web per la formazione

Diversi media hanno iniziato a riferirlo Aziende di intelligenza artificiale (Amnesty International) Lo fanno
raschiare (informazioni ottenute) alle pagine web nonostante la loro esistenza Protocolli volti a prevenirli. Per esempio, Come riportato da Reuters Quale
Confusioneun’azienda che descrive il suo prodotto come “Un motore di ricerca gratuito alimentato dall’intelligenza artificiale“, ruba il contenuto di varie pagine web e poi lo usa per addestrare le sue tecniche.

Senza andare oltre, la settimana scorsa Forbes è stato accusato di confusione Rubando un suo articolo, ha finito per pubblicarlo automaticamente su più piattaforme. D’altra parte, ci sono altri metodi correlati come CablatoHa sottolineato che c’era confusione Bypassare il protocollo di esclusione del robotOppure il file robots.txt. Esistono più siti Web di questo tipo che hanno accusato l’azienda di rubare contenuti. Rubando diciamo un’azienda rispettabile Per un importo di 1 miliardo di dollari Rubano letteralmente il contenuto del sito Web e lo inseriscono nei principali siti di ricerca. Non solo questo non viene citato, ma si traduce in una perdita di reddito e in un profilo utente inferiore.

Reuters ha scoperto che Perplexity non è l’unica società di intelligenza artificiale che si occupa di mining

L'intelligenza artificiale (AI) raccoglie pagine web per la formazione

Perplexity non è l’unica azienda di intelligenza artificiale che elude i file robots.txt, ha riferito Reuters. Ciò significa che scansionano le pagine Web alla ricerca di contenuti Che viene poi utilizzato per addestrare le tue tecniche di intelligenza artificiale. Ovviamente tutto questo è gratuito.

Reuters afferma di aver visto una lettera indirizzata agli editori da TollBit. “All’insaputa del mondo, stiamo parlando di una startup che li unisce alle aziende di intelligenza artificiale in modo che possano raggiungere accordi di licenza, poiché sono avvisati di questo.”Gli agenti AI provenienti da più fonti scelgono di ignorare il protocollo robots.txt per recuperare contenuti dai sitiIl file robots.txt contiene istruzioni per i web crawler su quali pagine possono e non possono accedere. Gli sviluppatori web utilizzano questo protocollo dal 1994, ma è conforme È completamente volontario..

READ  Skin X-23 (X-Men / Marvel) ora disponibile in Fortnite: prezzo e contenuto

Sebbene nella lettera di TollBit non sia menzionata alcuna azienda, Business Insider è venuta a conoscenza di alcuni nomi.
OpenAI e antropologia Anche i flag Robots.txt vengono ignorati. Le due società hanno annunciato in precedenza di rispettare le istruzioni di…non seguire” che i siti Web inseriscono nei propri file robots.txt.

Un Internet che i contenuti dell’intelligenza artificiale cercano di controllare per monopolizzare le ricerche sul web (visite e entrate)

L'intelligenza artificiale (AI) raccoglie pagine web per la formazioneL'intelligenza artificiale (AI) raccoglie pagine web per la formazione

“Durante l’indagine, Wired ha scoperto che una macchina server Amazon”Indubbiamente, funziona attraverso la confusione“Le istruzioni del file Robots.txt sono state ignorate sul tuo sito web.” Ha sottolineato Da Engadget.

“Per confermare se Perplexity stesse eseguendo la scansione dei loro contenuti, Wired ha fornito allo strumento dell’azienda i titoli dei suoi articoli o brevi suggerimenti che descrivono le loro storie. Secondo quanto riferito, lo strumento ha restituito risultati che parafrasavano fedelmente i loro articoli.”Con attribuzione minima“…A volte, questo produceva riassunti imprecisi delle loro storie.”

Successivamente, Aravind Srinivas, CEO di Perplexity, ha affermato che la sua azienda “Non puoi ignorare il protocollo di esclusione dei bot e poi mentire al riguardoOra, a sua volta, riconosce che l’azienda utilizza web tracker di terze parti oltre ai propri tracker. Il tracker identificato da Wired era ovviamente uno di questi tracker di terze parti Non saltare il protocollo Il file robots.txt è un’altra storia. Quando a Perplexity è stato chiesto se poteva ordinare da questi fornitori
Per interrompere il tracciamento Wired, ha appena risposto che era una cosa.complicato“.

“L’amministratore delegato di Perplexity ha difeso le pratiche della sua azienda, dicendo alla pubblicazione che il protocollo di esclusione dei bot “non è un quadro legale” e suggerendo che gli editori e le aziende come la sua potrebbero dover creare un nuovo tipo di relazione. “Potrebbe anche significare che Wired ha utilizzato deliberatamente le affermazioni per realizzare il chatbot Perplexity “Si comporta in quel modo, quindi gli utenti normali non otterranno gli stessi risultati.”