martedì, Dicembre 17, 2024

Deve leggere

Articoli correlati

Secondo gli esperti, ignorare i modelli di formazione porta alla fuga di informazioni riservate

Madrid, 30 luglio (Portaltic/EP) –

Gli algoritmi di disapprendimento possono incoraggiare la fuga di informazioni riservate e private degli utenti, anche se cercano di escluderli da questi modelli di spionaggio. “Apprendimento automatico” Specificamente per proteggere i dati personali degli utenti.

Questa è una delle conclusioni a cui è giunto un gruppo di ricercatori ed esperti provenienti da diverse istituzioni, come le Università di Washington, Princeton, Chicago, Southern California e Google Research.

I risultati dello studio sono raccolti in contemplazione: Valutazione esagonale dell’apprendimento automatico di modelli linguistici, Spiega come l’apprendimento automatico influisce sui modelli di apprendimento automatico.

Innanzitutto, gli analisti sottolineano che i modelli linguistici vengono addestrati utilizzando grandi quantità di testo, che possono includere contenuti proprietari e protetti da copyright. Ciò ha spinto autori, editori e case discografiche a intentare azioni legali per forzare un cambiamento nel modo in cui le informazioni vengono raccolte, perché ritengono che queste forme danneggino le loro opere protette da copyright. A loro volta esercitano i diritti previsti dal Regolamento generale europeo sulla protezione dei dati (GDPR), tra le altre normative.

A causa di questo problema, sono diventate popolari le cosiddette tecniche di unlearning, ovvero costringere queste aziende e sviluppatori di strumenti di intelligenza artificiale a cancellare dai loro archivi tutti i dati riservati o “token” degli utenti che non dovrebbero ospitare.

Dopo che lo studio è stato condotto, gli esperti hanno commentato che sbarazzarsi di quei dati esatti, e non fare lo stesso con dati pubblici o liberamente utilizzabili,”Questo è intrattabile nei modelli attualiPer questo motivo sono stati sviluppati molti algoritmi approssimati di unlearning.

In questo senso, sottolineano che “la valutazione dell’efficacia di questi algoritmi è stata tradizionalmente di portata limitata” e che non è possibile determinarne con precisione il successo e la praticità “dal punto di vista sia degli implementatori del modello che degli implementatori”. Interessati.

READ  Un giocatore di Stardew Valley mostra una fattoria alla quale ha dedicato quasi 10 anni della sua vita

Per determinare quanto siano efficaci questi algoritmi di disapprendimento, i ricercatori hanno studiato il comportamento di otto di essi per vedere come potrebbero essere eliminati Dati di addestramento testuale Tutto ciò che indica è che il modello è stato addestrato con loro.

Per fare ciò, hanno creato un benchmark completo chiamato MUSE, che testa questi algoritmi rispetto a sei criteri, che sono considerati caratteristiche “desiderabili” del modello appreso.

Il primo indica che questi modelli non dovrebbero memorizzare parola per parola, cioè non dovrebbero ricordare frasi o frasi precise e strutturate. Non può salvare o conservare la conoscenza derivata da dati specifici né divulgare informazioni private.

Nell’ambito di questo processo di eliminazione, il modello deve aderire al principio di conservazione e continuare a funzionare bene con altri dati che non sono destinati ad essere eliminati. Inoltre, È necessario tenere conto della scalabilità. Cioè, gestire in modo efficiente richieste di cancellazione di dati multiple e di grandi dimensioni; Così come le successive richieste di disimparare, senza deteriorare le prestazioni, cioè di essere sostenibili.

Durante la valutazione di questi otto algoritmi di apprendimento. Gli analisti hanno scoperto che la maggior parte “ha eliminato la memorizzazione parola per parola e la memorizzazione della conoscenza utilizzando diversi gradi di efficacia, Ma funziona a scapito della preservazione dei servizi pubblici e non previene efficacemente la fuga di privacy.

“I nostri risultati evidenziano che gli algoritmi di disapprendimento generalmente non soddisfano le aspettative dei proprietari di dati quando si tratta di prevenire la fuga di informazioni private, che è uno dei principali fattori di disapprendimento”, hanno osservato.

Anche se si rendono conto che “è sempre più desiderabile trovare L’algoritmo di disapprendimento è efficiente ed efficace” Date le preoccupazioni sulle normative sulla privacy e sul copyright, la loro valutazione rileva che “i metodi di disapprendimento attualmente possibili non sono ancora pronti per un uso significativo o un’implementazione in scenari del mondo reale”.

READ  OnePlus Ace 2 Pro è apparso con 24 GB di RAM

Allo stesso modo, notano che gli attuali metodi di delearning impediscono al modello di memorizzare con successo i contenuti, “a un costo elevato rispetto al beneficio dei dati che non è destinato a utilizzare”.

Questo è ciò che porta i firmatari di questo studio a ritenere che esista una “necessità urgente” di condurre più ricerche in questo campo, alla quale hanno contribuito fornendo le loro referenze ad altri esperti.