L'immenso potenziale e le sfide dell'IA multimodale

0
54

A differenza della maggior parte dei sistemi di intelligenza artificiale, gli esseri umani comprendono il significato di testo, video, audio e immagini insieme nel contesto. Ad esempio, dato un testo e un'immagine che sembrano innocui se considerati separati (ad esempio, "Guarda quante persone ti amano" e un'immagine di un deserto arido), le persone riconoscono che questi elementi assumono connotazioni potenzialmente dannose quando sono accoppiati o giustapposti.

Sebbene i sistemi in grado di fare queste inferenze multimodali restino fuori portata, ci sono stati progressi. Una nuova ricerca nell'ultimo anno ha fatto avanzare lo stato dell'arte nell'apprendimento multimodale, in particolare nel sottocampo della risposta visiva alle domande (VQA), un'attività di visione artificiale in cui a un sistema viene data una domanda basata su testo su un'immagine e deve dedurre la risposta. A quanto pare, l'apprendimento multimodale può trasportare informazioni o tendenze complementari, che spesso diventano evidenti solo quando sono tutte incluse nel processo di apprendimento. E questo è promettente per le applicazioni dai sottotitoli alla traduzione di fumetti in diverse lingue.

Sfide multimodali

Nei sistemi multimodali, la visione artificiale ei modelli di elaborazione del linguaggio naturale vengono addestrati insieme su set di dati per apprendere uno spazio di incorporamento combinato o uno spazio occupato da variabili che rappresentano caratteristiche specifiche di immagini, testo e altri media. Se parole diverse sono abbinate a immagini simili, queste parole sono probabilmente utilizzate per descrivere le stesse cose o oggetti, mentre se alcune parole appaiono accanto a immagini diverse, ciò implica che queste immagini rappresentano lo stesso oggetto. Dovrebbe essere possibile, quindi, per un sistema multimodale prevedere cose come oggetti immagine da descrizioni testuali, e un corpo di letteratura accademica ha dimostrato che è così.

C'è solo un problema: i sistemi multimodali notoriamente rilevano pregiudizi nei set di dati. La diversità di domande e concetti coinvolti in attività come la VQA, così come la mancanza di dati di alta qualità, spesso impedisce ai modelli di apprendere alla "ragione", portandoli a fare ipotesi plausibili basandosi sulle statistiche dei set di dati.

Le informazioni chiave potrebbero risiedere in un test di benchmark sviluppato dagli scienziati dell'Orange Labs e dell'Institut National des Sciences Appliquées de Lyon. Affermando che la metrica standard per misurare l'accuratezza del modello VQA è fuorviante, offrono come alternativa GQA-OOD, che valuta le prestazioni su domande le cui risposte non possono essere dedotte senza ragionamento. In uno studio che ha coinvolto 7 modelli VQA e 3 tecniche di riduzione del bias, i ricercatori hanno scoperto che i modelli non sono riusciti a rispondere a domande che coinvolgono concetti poco frequenti, suggerendo che c'è del lavoro da fare in quest'area.

La soluzione probabilmente coinvolgerà set di dati di formazione più ampi e completi. Un documento pubblicato dagli ingegneri dell'École Normale Supérieure di Parigi, Inria Paris e dell'Istituto ceco di informatica, robotica e cibernetica propone un set di dati VQA creato da milioni di video narrati. Composto da coppie di domande e risposte generate automaticamente da video trascritti, il set di dati elimina la necessità di annotazioni manuali consentendo al contempo prestazioni elevate sui benchmark più diffusi, secondo i ricercatori. (La maggior parte dei modelli di machine learning impara a fare previsioni da dati etichettati automaticamente o manualmente.)

Insieme a set di dati migliori, nuove tecniche di formazione potrebbero anche aiutare a migliorare le prestazioni del sistema multimodale. All'inizio di quest'anno, i ricercatori di Microsoft e dell'Università di Rochester hanno coautore di un documento che descrive una pipeline volta a migliorare la lettura e la comprensione del testo nelle immagini per la risposta alle domande e la generazione di didascalie di immagini. In contrasto con il pretraining convenzionale del linguaggio di visione, che spesso non riesce a catturare il testo e il suo rapporto con le immagini, il loro approccio incorpora il testo generato dai motori di riconoscimento ottico dei caratteri durante il processo di pre-formazione.

Secondo i ricercatori, tre attività di pre-addestramento e un set di dati di 1,4 milioni di coppie di immagini-testo aiutano i modelli VQA ad apprendere una rappresentazione meglio allineata tra parole e oggetti. "Troviamo particolarmente importante includere le parole di testo della scena rilevate come input linguistici extra", hanno scritto. "La modalità extra del testo della scena, insieme ai passaggi di pre-formazione appositamente progettati, aiuta efficacemente il modello ad apprendere una rappresentazione meglio allineata tra le tre modalità: parola di testo, oggetto visivo e testo della scena."

Oltre ai puri sistemi VQA, stanno emergendo approcci promettenti nel dominio multimodale basato sul dialogo. I ricercatori di Facebook, l'Allen Institute for AI, SRI International, Oregon State University e il Georgia Institute of Technology propongono il "dialogo senza dialogo", una sfida che richiede modelli di dialogo visivamente radicati per adattarsi a nuovi compiti senza dimenticare come parlare con persone. Da parte sua, Facebook ha recentemente introdotto Situato Interactive MultiModal Conversations, una direzione di ricerca volta a formare chatbot AI che intraprendono azioni come mostrare un oggetto e spiegare di cosa è fatto in risposta a immagini, ricordi di interazioni precedenti e richieste individuali.

Applicazioni del mondo reale

Supponendo che le barriere sulla via dei sistemi multimodali performanti vengano alla fine superate, quali sono le applicazioni del mondo reale?

Con il suo sistema di dialogo visivo, Facebook sembrerebbe cercare un assistente digitale che emula i partner umani rispondendo a immagini, messaggi e messaggi sulle immagini nel modo più naturale possibile. Ad esempio, alla richiesta "Voglio comprare delle sedie – mostrami quelle marroni e parlami dei materiali", l'assistente potrebbe rispondere con un'immagine di sedie marroni e il testo "Come ti piacciono queste? Hanno un colore marrone pieno con un raccordo in schiuma. "

Separatamente, Facebook sta lavorando a un sistema in grado di rilevare automaticamente meme odiosi sulla sua piattaforma. A maggio, ha lanciato la Hateful Memes Challenge, una competizione volta a spronare i ricercatori a sviluppare sistemi in grado di identificare i meme destinati a ferire le persone. La prima fase del concorso di un anno ha recentemente superato il traguardo a metà con oltre 3.000 voci da centinaia di squadre in tutto il mondo.

In Microsoft, una manciata di ricercatori si concentra sul compito di applicare sistemi multimodali ai sottotitoli video. Un team proveniente da Microsoft Research Asia e Harbin Institute of Technology ha creato un sistema che impara a catturare rappresentazioni tra commenti, video e audio, consentendo di fornire didascalie o commenti pertinenti alle scene nei video. In un lavoro separato, i coautori di Microsoft hanno dettagliato un modello – Multitask Multilingual Multimodal Pretrained model – che apprende rappresentazioni universali di oggetti espresse in diverse lingue, consentendo di ottenere risultati all'avanguardia in attività tra cui didascalie di immagini multilingue.

Nel frattempo, i ricercatori di Google hanno recentemente affrontato il problema di prevedere le prossime linee di dialogo in un video. Affermano che con un set di dati di video didattici estratti dal web, sono stati in grado di addestrare un sistema multimodale per anticipare ciò che un narratore avrebbe detto dopo. Ad esempio, dati i fotogrammi di una scena e la trascrizione "Vado avanti e lo metto in posizione e prenderò nota … in che direzione sta andando la freccia rispetto alla freccia di guardia. Entrambi devono andare nella stessa direzione dopo ", il modello potrebbe prevedere correttamente" Ora rimetti quel dado e avvitalo "come frase successiva.

"Immagina di cucinare un pasto elaborato, ma dimentica il passaggio successivo della ricetta o di aggiustare la macchina e non sai quale strumento prendere dopo", hanno scritto i coautori dello studio di Google. “Sviluppare un sistema di dialogo intelligente che non solo emuli la conversazione umana, ma predice e suggerisce anche azioni future – per non parlare del fatto che è in grado di rispondere a domande su compiti e argomenti complessi – è stato a lungo un obiettivo lunare per la comunità AI. L'intelligenza artificiale conversazionale consente agli esseri umani di interagire con i sistemi in un linguaggio naturale in forma libera ".

Un altro affascinante studio propone di utilizzare sistemi multimodali per tradurre manga, una forma di fumetto giapponese, in altre lingue. Scienziati di Yahoo! Il Giappone, l'Università di Tokyo e la startup di traduzione automatica Mantra hanno prototipato un sistema che traduce i testi in fumetti che non possono essere tradotti senza informazioni di contesto (ad esempio, testi in altri fumetti, il genere di chi parla). Data una pagina manga, il sistema traduce automaticamente i testi della pagina in inglese e sostituisce i testi originali con quelli tradotti.

Lavoro futuro

Alla conferenza Transform 2020 di VentureBeat, come parte di una conversazione sulle tendenze per gli assistenti AI, Prem Natarajan, responsabile del prodotto Amazon e VP di Alexa AI e NLP, e Barak Turovsky, direttore del prodotto Google AI per il team NLU, hanno concordato che la ricerca in la multimodalità sarà di fondamentale importanza in futuro. Turovsky ha parlato dei progressi nel far emergere il numero limitato di risposte che solo la voce può offrire. Senza uno schermo, ha sottolineato, non c'è scorrimento infinito o prima pagina dei risultati di ricerca di Google, quindi le risposte dovrebbero essere limitate a tre potenziali risultati, i migliori. Sia per Amazon che per Google, questo significa costruire display intelligenti e dare risalto agli assistenti AI che possono condividere contenuti visivi e rispondere con la voce.

Turovsky e Natarajan non sono gli unici che vedono un futuro nella multimodalità, nonostante le sue sfide. Secondo quanto riferito, OpenAI sta sviluppando un sistema multimodale addestrato su immagini, testo e altri dati utilizzando enormi risorse computazionali che la leadership dell'azienda ritiene sia il percorso più promettente verso AGI, o AI in grado di apprendere qualsiasi compito un essere umano può. E in una conversazione con VentureBeat a gennaio, Jeff Dean, capo dell'IA di Google, ha previsto i progressi nei sistemi multimodali negli anni a venire. Il progresso dei sistemi multimodali potrebbe portare a una serie di vantaggi per il riconoscimento delle immagini e dei modelli linguistici, ha affermato, tra cui inferenze più robuste da modelli che ricevono input da più di un singolo supporto.

"L'intero filone di ricerca, credo, è stato piuttosto fruttuoso in termini di realizzazione di modelli di machine learning [let us now] svolgere compiti di PNL più sofisticati di quelli che eravamo in grado di fare ", ha detto Dean a VentureBeat. "[But] vorremmo ancora essere in grado di realizzare tipi di modelli molto più contestuali ".

VentureBeat

La missione di VentureBeat è quella di essere una piazza cittadina digitale per i responsabili delle decisioni tecniche per acquisire conoscenze sulla tecnologia trasformativa e sulle transazioni.

Il nostro sito fornisce informazioni essenziali sulle tecnologie e strategie dei dati per guidarti mentre guidi le tue organizzazioni. Ti invitiamo a diventare un membro della nostra community, per accedere a:

  • informazioni aggiornate sugli argomenti di tuo interesse,
  • le nostre newsletter
  • contenuti gated leader di pensiero e accesso scontato ai nostri eventi preziosi, come Transform
  • funzionalità di rete e altro ancora.

Diventare socio

LASCIA UN COMMENTO

Per favore inserisci il tuo commento!
Per favore inserisci il tuo nome qui