Allen Institute lancia un nuovo benchmark per i modelli di visione artificiale per uso generale

327

Non c’è niente come un buon punto di riferimento per aiutare a motivare il campo della visione artificiale.

Ecco perché uno dei team di ricerca dell’Allen Institute for AI, noto anche come AI2, ha recentemente collaborato con l’Università dell’Illinois a Urbana-Champaign per sviluppare un nuovo benchmark unificante chiamato GRIT (General Robust Image Task) per scopi generici modelli di visione artificiale. Il loro obiettivo è aiutare gli sviluppatori di intelligenza artificiale a costruire la prossima generazione di programmi di visione artificiale che possono essere applicati a una serie di attività generalizzate, una sfida particolarmente complessa.

“Discutiamo, come ogni settimana, della necessità di creare sistemi di visione artificiale più generali che siano in grado di risolvere una serie di compiti e possano generalizzare in modi che i sistemi attuali non possono”, ha affermato Derek Hoiem, professore di informatica presso l’Università dell’Illinois presso Urbana-Champaign. “Ci siamo resi conto che una delle sfide è che non esiste un buon modo per valutare le capacità di visione generale di un sistema. Tutti gli attuali benchmark sono impostati per valutare i sistemi che sono stati addestrati specificamente per quel benchmark”.

Cosa devono essere in grado di fare i modelli generali di visione artificiale

Secondo Tanmay Gupta, che è entrato in AI2 come ricercatore dopo aver conseguito il dottorato di ricerca. dell’Università dell’Illinois a Urbana-Champaign, ci sono stati altri sforzi per provare a costruire modelli multitasking che possono fare più di una cosa, ma un modello generico richiede più che essere in grado di svolgere tre o quattro compiti diversi.

“Spesso non sapresti in anticipo quali sono tutte le attività che il sistema dovrebbe svolgere in futuro”, ha affermato. “Volevamo creare l’architettura del modello in modo tale che chiunque provenisse da un background diverso potesse inviare istruzioni in linguaggio naturale al sistema”.

Ad esempio, ha spiegato, qualcuno potrebbe dire “descrivi l’immagine” o dire “trova il cane marrone” e il sistema potrebbe eseguire quell’istruzione. Potrebbe restituire un riquadro di delimitazione, un rettangolo attorno al cane a cui ti riferisci, o restituire una didascalia che dice “c’è un cane marrone che gioca su un campo verde”.

“Quindi, questa era la sfida, costruire un sistema in grado di eseguire istruzioni, comprese istruzioni che non aveva mai visto prima e farlo per un’ampia gamma di attività che comprendono la segmentazione o delimitare riquadri o didascalie o rispondere a domande”, ha affermato disse.

Il benchmark GRIT, ha proseguito Gupta, è solo un modo per valutare queste capacità in modo che il sistema possa essere valutato quanto sia robusto alle distorsioni dell’immagine e quanto sia generale su diverse fonti di dati.

“Risolve il problema non solo per uno o due o dieci o venti concetti diversi, ma attraverso migliaia di concetti?” Egli ha detto.

I benchmark sono serviti come driver per la ricerca sulla visione artificiale

I benchmark sono stati un grande motore della ricerca sulla visione artificiale sin dai primi anni, ha affermato Hoiem.

“Quando viene creato un nuovo benchmark, se è ben orientato a valutare i tipi di ricerca a cui le persone sono interessate”, ha affermato. “Quindi facilita davvero quella ricerca, rendendo molto più facile confrontare i progressi e valutare le innovazioni senza dover reimplementare algoritmi, il che richiede molto tempo”.

La visione artificiale e l’intelligenza artificiale hanno fatto molti veri progressi negli ultimi dieci anni, ha aggiunto. “Puoi vederlo negli smartphone, nell’assistenza domiciliare e nei sistemi di sicurezza dei veicoli, con l’intelligenza artificiale in giro in modi che non erano il caso dieci anni fa”, ha affermato. “Avevamo l’abitudine di partecipare a conferenze sulla visione artificiale e la gente chiedeva ‘Cosa c’è di nuovo?’ e dicevamo: “Non funziona ancora”, ma ora le cose stanno iniziando a funzionare”.

Lo svantaggio, tuttavia, è che i sistemi di visione artificiale esistenti sono in genere progettati e addestrati per svolgere solo compiti specifici. “Ad esempio, potresti realizzare un sistema in grado di mettere scatole intorno a veicoli, persone e biciclette per un’applicazione di guida, ma poi se volevi che mettesse scatole anche intorno alle motociclette, dovresti cambiare il codice e l’architettura e riqualificarlo ,” Egli ha detto.

I ricercatori del GRIT volevano capire come costruire sistemi che fossero più simili alle persone, nel senso che possono imparare a fare tutta una serie di diversi tipi di test. “Non abbiamo bisogno di cambiare i nostri corpi per imparare a fare cose nuove”, ha detto. “Vogliamo quel tipo di generalità nell’IA, in cui non è necessario modificare l’architettura, ma il sistema può fare molte cose diverse”.

Il benchmark farà avanzare il campo della visione artificiale

La vasta comunità di ricerca sulla visione artificiale, in cui vengono pubblicate decine di migliaia di articoli ogni anno, ha visto una quantità crescente di lavoro per rendere i sistemi di visione più generali, ha aggiunto Hoiem, comprese diverse persone che riportano numeri sullo stesso benchmark.

I ricercatori hanno affermato che il benchmark GRIT farà parte di un seminario Open World Vision alla Conferenza 2022 su Computer Vision e Pattern Recognition il 19 giugno. punto di riferimento”, ha affermato Gupta. “Ci auguriamo che entro il prossimo anno vedremo una quantità significativa di lavoro in questa direzione e un bel miglioramento delle prestazioni rispetto a dove siamo oggi”.

A causa della crescita della comunità della visione artificiale, ci sono molti ricercatori e industrie che vogliono far avanzare il campo, ha affermato Hoiem.

“Sono sempre alla ricerca di nuovi benchmark e nuovi problemi su cui lavorare”, ha affermato. “Un buon benchmark può spostare un ampio focus del campo, quindi questo è un ottimo luogo per noi per lanciare quella sfida e aiutare a motivare il campo, per costruire in questa nuova entusiasmante direzione”.