Falsità più probabili con modelli linguistici di grandi dimensioni

3

I Transform Technology Summit iniziano il 13 ottobre con Low-Code/No Code: Enabling Enterprise Agility. Iscriviti ora!

L’uso di modelli linguistici di intelligenza artificiale per generare testo per applicazioni aziendali sta guadagnando terreno. Le grandi aziende stanno implementando i propri sistemi, mentre altre stanno sfruttando modelli come GPT-3 di OpenAI tramite API. Secondo OpenAI, GPT-3 viene ora utilizzato in oltre 300 app da migliaia di sviluppatori, producendo una media di oltre 4,5 miliardi di nuove parole al giorno.

Ma mentre i modelli linguistici recenti sono straordinariamente fluenti, hanno la tendenza a scrivere falsità che vanno da inesattezze fattuali a disinformazione potenzialmente dannosa. Per quantificare i rischi associati ai modelli “ingannevoli”, i ricercatori dell’Università di Oxford e OpenAI hanno creato un set di dati chiamato TruthfulQA che contiene domande a cui alcuni umani potrebbero rispondere in modo errato a causa di false credenze o idee sbagliate. I ricercatori hanno scoperto che, sebbene il modello con le migliori prestazioni fosse veritiero sul 58% delle domande, non raggiungeva le prestazioni umane al 94%.

VeroQA

Nel sottocampo dell’IA noto come elaborazione del linguaggio naturale (NLP), i test di robustezza possono essere l’eccezione piuttosto che la norma. Un rapporto ha rilevato che dal 60% al 70% delle risposte fornite dai modelli di PNL erano incorporate da qualche parte nei set di formazione di riferimento, indicando che i modelli di solito memorizzavano semplicemente le risposte. Un altro studio ha rilevato che le metriche utilizzate per confrontare i modelli di intelligenza artificiale e apprendimento automatico tendevano a essere incoerenti, tracciate in modo irregolare e non particolarmente informative.

TruthfulQA mira a evitare queste insidie ​​del benchmarking con una serie di domande su salute, diritto, finanza e politica che richiedono modelli per evitare di generare false risposte apprese dal testo. Il set di dati comprende 817 domande in 38 diverse categorie. I ricercatori hanno formulato le domande in modo tale che alcuni umani e modelli potrebbero rispondere in modo falso.

Il team ha testato diversi modelli su TruthfulQA, incluso GPT-3; GPT-3 predecessore GPT-2; versioni open source di GPT-3 chiamate GPT-Neo e GPT-J; e UnifiedQA, un modello messo a punto sulle attività di domanda-risposta. Per classificare le risposte dei modelli come vere o false, il team ha sviluppato “GPT-judge”, un algoritmo addestrato sulle risposte alle domande TruthfulQA di tutti i modelli valutati.

Sopra: esempi di falsità generati da modelli testati sul dataset.

È interessante notare che i risultati mostrano che i modelli più grandi generalmente hanno prestazioni peggiori rispetto ai modelli più piccoli della stessa famiglia. La dimensione di un modello è misurata dal numero di parametri che contiene: variabili interne al modello che il modello apprende dai dati di addestramento storici. Ad esempio, i modelli GPT-Neo e GPT-J più grandi erano il 17% meno veritieri (misurati da TruthfulQA) rispetto a un modello 60 volte più piccolo. Nel frattempo, UnifiedQA ha ottenuto risultati migliori in termini di veridicità rispetto alle tre famiglie GPT, con il modello più grande che si è comportato solo leggermente peggio del più piccolo.

Quando sono stati costretti a scegliere tra più risposte piuttosto che generare risposte stesse, i modelli più grandi hanno anche ottenuto risultati peggiori su TruthfulQA rispetto a quelli più piccoli. Nessun modello ha superato in modo significativo le ipotesi casuali. E anche il modello “migliore” ha dato risposte false il 42% delle volte, contro il 6% dei partecipanti umani. (L’ottantasette percento delle risposte degli umani erano vere su TruthfulQA.)

I ricercatori ipotizzano che i modelli non abbiano appreso abbastanza bene la distribuzione della formazione o che gli obiettivi di formazione dei modelli incentivino effettivamente risposte false. “Suggeriamo che il solo ridimensionamento dei modelli sia meno promettente per migliorare la veridicità rispetto alla messa a punto utilizzando obiettivi di formazione diversi dall’imitazione del testo dal web”, hanno scritto i ricercatori in un documento prestampato, “TruthfulQA: misurare come i modelli imitano la falsità umana”. Hanno aggiunto: “[Our preliminary work finds] che i grandi modelli di oggi sono molto meno veritieri degli umani”.

Grandi modelli linguistici

Il lavoro si aggiunge al crescente scetticismo sul fatto che le dimensioni dei modelli linguistici – e i loro set di dati di addestramento – corrispondano alle prestazioni. All’inizio di questo mese, un team di ricercatori di Google ha pubblicato uno studio in cui si afferma che un modello molto più piccolo di GPT-3, la FLAN (fine-tuned language net), supera di gran lunga GPT-3 su una serie di benchmark impegnativi. E gli scienziati dell’Istituto per l’intelligenza artificiale dell’Università di medicina di Vienna, in Austria, hanno scoperto che il GPT-3 ha prestazioni inferiori in domini come la biomedicina rispetto a modelli più piccoli, meno complessi dal punto di vista architettonico ma accuratamente messi a punto.

Maria Antoniak, ricercatrice di elaborazione del linguaggio naturale e scienziata dei dati presso la Cornell University, afferma che quando si tratta di linguaggio naturale, la questione se i modelli più grandi siano l’approccio giusto è ancora aperta. Mentre alcuni dei migliori punteggi delle prestazioni di riferimento oggi provengono da grandi set di dati e modelli, il vantaggio derivante dal dumping di enormi quantità di dati nei modelli è incerto.

“L’attuale struttura del campo è incentrata sui compiti, in cui la comunità si riunisce per cercare di risolvere problemi specifici su set di dati specifici”, ha detto Antoniak a VentureBeat in una precedente intervista. “Questi compiti sono generalmente molto strutturati e possono avere i loro punti deboli, quindi mentre aiutano il nostro campo ad andare avanti in qualche modo, possono anche limitarci. I modelli di grandi dimensioni si comportano bene in questi compiti, ma se questi compiti possono alla fine portarci a una vera comprensione del linguaggio è oggetto di dibattito”.

VentureBeat

La missione di VentureBeat è quella di essere una piazza cittadina digitale per i responsabili delle decisioni tecniche per acquisire conoscenze sulla tecnologia trasformativa e sulle transazioni. Il nostro sito fornisce informazioni essenziali sulle tecnologie e sulle strategie dei dati per guidarti nella guida delle tue organizzazioni. Ti invitiamo a diventare un membro della nostra community, per accedere a:

  • informazioni aggiornate sugli argomenti di tuo interesse
  • le nostre newsletter
  • contenuti gated leader di pensiero e accesso scontato ai nostri eventi preziosi, come Trasforma 2021: Per saperne di più
  • funzioni di rete e altro

Diventare socio