L'uscita del pioniere dell'etica dell'IA da Google ha comportato la ricerca sui rischi e la disuguaglianza in modelli linguistici di grandi dimensioni

458

A seguito di una disputa su diverse e-mail e un documento di ricerca mercoledì, il pioniere dell'etica dell'IA e ricercatore Timnit Gebru non lavora più per Google. Secondo una bozza di copia ottenuta da VentureBeat, il documento di ricerca che circonda la sua uscita mette in discussione la saggezza di costruire modelli linguistici di grandi dimensioni ed esamina chi ne trae vantaggio, chi è influenzato dalle conseguenze negative della loro implementazione e se esiste qualcosa come una lingua modello troppo grande.

La ricerca di Gebru è stata estremamente influente sui temi dell'equità algoritmica, dei pregiudizi e del riconoscimento facciale. In un'e-mail ai ricercatori di Google giovedì, Jeff Dean, capo dell'intelligenza artificiale di Google, ha dichiarato di aver accettato le dimissioni di Gebru a seguito di un disaccordo sul documento, ma Gebru ha detto di non essersi mai offerta di dimettersi.

"La maggior parte della tecnologia linguistica è infatti costruita prima di tutto per soddisfare le esigenze di coloro che hanno già i maggiori privilegi nella società", si legge nel documento. “Una metodologia che si basa su set di dati troppo grandi per essere documentati è quindi intrinsecamente rischiosa. Mentre la documentazione consente una potenziale responsabilità, analogamente a come possiamo ritenere gli autori responsabili per il loro testo prodotto, i dati di formazione non documentati perpetuano danni senza ricorso. Se i dati di addestramento sono considerati troppo grandi per essere documentati, non si può tentare di comprenderne le caratteristiche al fine di mitigare alcuni di questi problemi documentati o addirittura sconosciuti ".

Nel documento intitolato "On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?", Gli autori affermano che i rischi associati all'implementazione di grandi modelli linguistici vanno dal razzismo ambientale poiché l'impronta di carbonio dell'IA ha un impatto sulle comunità emarginate più di altri al modo in cui i modelli assorbono un "Visione egemonica del mondo dai dati di addestramento." C'è anche il rischio che l'IA possa perpetuare un linguaggio offensivo, incitamento all'odio, microaggressioni, stereotipi e altre forme di linguaggio disumanizzanti rivolte a gruppi specifici di persone.

Un'altra conseguenza è che i costi associati alla formazione di grandi modelli linguistici possono creare una barriera all'ingresso per la ricerca sul deep learning. La scala aumenta anche la possibilità che le persone si fidino delle previsioni fatte dai modelli linguistici senza mettere in discussione i risultati.

Gli autori includono Meg Mitchell, co-leader di Google AI e i ricercatori di Google Ben Hutchinson, Mark Diaz e Vinodkumar Prabhakaran, oltre al dottorato dell'Università di Washington. studentessa Angelina McMillan-Major.

Gebru è elencato al primo posto tra gli autori dell'articolo, insieme alla linguista dell'Università di Washington Emily Bender. Insegnante di un corso di etica della PNL, Bender è coautore di un articolo che ha vinto un premio dall'Association for Computational Linguistics. Quel documento ha esortato i ricercatori della PNL a mettere in discussione l'hype attorno all'idea che i modelli di linguaggio di grandi dimensioni siano in grado di comprendere. In un'intervista con VentureBeat, ha sottolineato la necessità di metodi di test migliori e si è lamentata di una cultura nella ricerca sui modelli linguistici che supera i modelli per le attività di benchmark, un esercizio che, secondo lei, può ostacolare la "buona scienza".

Giovedì, più di 230 googler e oltre 200 sostenitori del mondo accademico, dell'industria e della società civile hanno firmato una lettera con una serie di richieste. Questi includono una valutazione trasparente di chi è stato coinvolto nel determinare che Bender e Gebru debbano ritirare le loro ricerche per il pubblico in generale e gli utenti di Google.

"Questo è diventato una questione di interesse pubblico e ci deve essere responsabilità pubblica per garantire la fiducia nella ricerca di Google in futuro", si legge nella lettera.

Venerdì mattina, circa 800 googler e più di 1.100 sostenitori del mondo accademico, dell'industria e della società civile hanno firmato la lettera.

Dean è stato critico nei confronti dell'articolo in un'e-mail ai ricercatori di Google giovedì e ha detto che un processo di revisione ha rilevato che il documento "ignorava troppe ricerche rilevanti" sui modelli linguistici di grandi dimensioni e non ha preso in considerazione le recenti ricerche sulla mitigazione del bias nei modelli linguistici.

Una tendenza verso la creazione di modelli linguistici con più parametri e dati di addestramento è stata innescata da un passaggio verso l'uso dell'architettura Transformer e da enormi quantità di dati di addestramento estratti dal web o da siti come Reddit o Wikipedia.

Il BERT di Google e varianti come ALBERT e XLNet hanno aperto la strada a questa tendenza, insieme a modelli come Megatron di Nvidia e GPT-2 e GPT-3 di OpenAI. Mentre il BERT di Google aveva 340 milioni di parametri, Megatron ha 8,3 miliardi di parametri; Il T-NLG di Microsoft ha 17 miliardi di parametri; e GPT-3, che è stato introdotto a maggio da Open AI ed è il più grande modello di linguaggio fino ad oggi, ha 175 miliardi di parametri. Con l'aumento delle dimensioni, i modelli di grandi dimensioni hanno ottenuto punteggi più alti in attività come rispondere alle domande o comprendere la lettura.

Ma numerosi studi hanno trovato forme di pregiudizio in grandi modelli linguistici pre-addestrati. Questa primavera, ad esempio, i ricercatori della PNL hanno presentato il set di dati, il benchmark e la classifica StereoSet e hanno scoperto che praticamente tutti i modelli linguistici pre-addestrati più diffusi oggi mostrano pregiudizi basati su etnia, razza e genere.

I coautori suggeriscono che i modelli linguistici vengano valutati sulla base di altre metriche, tra cui l'efficienza energetica e le emissioni di CO2 stimate coinvolte nella formazione di un modello, piuttosto che valutare le prestazioni su una serie di attività utilizzando benchmark come GLUE.

I ricercatori sostengono che i grandi modelli linguistici pre-addestrati hanno anche il potenziale per fuorviare i ricercatori di intelligenza artificiale e spingere il pubblico in generale a confondere il testo generato da modelli linguistici come GPT-3 di OpenAI come significativo.

"Se un modello linguistico di grandi dimensioni, dotato di centinaia di miliardi di parametri e addestrato su un set di dati molto ampio, può manipolare la forma linguistica abbastanza bene da imbrogliare attraverso test intesi a richiedere la comprensione della lingua, abbiamo imparato qualcosa di valore su come costruire comprensione del linguaggio macchina o siamo stati condotti lungo il sentiero del giardino? " il giornale si legge. "Riassumendo, sosteniamo un approccio alla ricerca che concentri le persone che rischiano di essere influenzate dalla tecnologia risultante, con una visione ampia sui possibili modi in cui la tecnologia può influenzare le persone".

Il documento consiglia soluzioni come lavorare con le comunità interessate, progettazione sensibile al valore, documentazione dei dati migliorata e adozione di framework come le dichiarazioni sui dati di Bender per la PNL o i fogli di dati per i set di dati che Gebru ha scritto in collaborazione con Microsoft Research.

Un sondaggio McKinsey sui leader aziendali condotto all'inizio di quest'anno ha rilevato che sono stati compiuti pochi progressi nella mitigazione dei 10 principali rischi associati all'implementazione di modelli di intelligenza artificiale.

La critica dei modelli di grandi dimensioni addestrati utilizzando enormi set di dati raschiati dal web è stata una marcata tendenza di ricerca sull'IA nel 2020.

Nella visione artificiale, un audit pubblicato quest'estate di 80 Million Tiny Images, un ampio set di dati di immagini, ha rivelato l'inclusione di contenuti razzisti, sessisti e pornografici. Invece di adottare le misure consigliate per modificare il set di dati, i creatori del MIT e della NYU hanno deciso di smettere di usarlo ed eliminare le copie esistenti.

Il mese scorso, i ricercatori hanno analizzato i documenti pubblicati alle conferenze e hanno scoperto che le università d'élite e le aziende Big Tech godono di un vantaggio competitivo nell'era del deep learning che ha creato un divario di calcolo concentrando il potere nelle mani di pochi e accelerando la disuguaglianza.

Circa un anno fa, il professore emerito di informatica di Stanford Yoav Shoham ha messo in dubbio la natura fragile dei modelli linguistici che dimostrano rapidi progressi nei test di benchmark.

"Il fatto è che si tratta di attività e domini altamente specializzati e non appena esci dal dominio, le prestazioni diminuiscono drasticamente e il comitato lo sa", ha detto Shoham a VentureBeat nel dicembre 2019. "C'è molto di cui essere veramente entusiasti, compresi tutti questi sistemi che ho citato, ma al momento siamo abbastanza lontani dalla comprensione del linguaggio a livello umano ".

Aggiornamento 4 dicembre alle 8:23

Correzione: questa storia inizialmente affermava che Emily Denton era una coautrice di questo articolo. Tuttavia, Emily Bender era una coautrice. Ci scusiamo per qualsiasi confusione che questo errore possa aver causato.