Il motore da testo a immagine di OpenAI, DALL-E, è un potente generatore di idee visive

0
31

C'era una volta nella Silicon Valley, gli ingegneri delle varie aziende di elettronica armeggiavano ai loro banchi e creavano nuove invenzioni. Questo aggiustamento è stato fatto, almeno in parte, per mostrarlo all'ingegnere al banco successivo in modo che entrambi potessero apprezzare l'ingegnosità e ispirare gli altri. Alcuni di questi lavori alla fine si trasformarono in prodotti, ma in gran parte no. Questa inefficienza che esisteva fino alla fine degli anni '80 è stata in gran parte soppiantata (prima dai contatori di fagioli e poi dallo staff del marketing) e lo sviluppo del prodotto si è spostato per concentrarsi invece sui desideri percepiti dei clienti.

Le notizie di OpenAI della scorsa settimana su DALL-E, una rete neurale di intelligenza artificiale avanzata che genera immagini da prompt di testo, ricordano quei tempi precedenti. Il team di OpenAI ha riconosciuto nel suo post sul blog che non esiste un'applicazione definita che avevano in mente e che esiste il potenziale per impatti sociali sconosciuti e sfide etiche derivanti dalla tecnologia. Ma ciò che si sa è che, come quelle precedenti invenzioni, DALL-E è una specie di meraviglia inventata dal team di ingegneri.

OpenAI ha scelto il nome DALL-E come punta di cappello all'artista Salvador Dalí e a WALL-E della Pixar. Produce immagini pastiche che riflettono sia il surrealismo di Dalí che fonde sogno e fantasia con il mondo razionale quotidiano, sia l'ispirazione dai dipinti della NASA degli anni '50 e '60 e quelli per Disneyland Tomorrowland di Disney Imagineers.

Sopra: i rispettivi stili di Salvador Dalí e WALL-E di Pixar Animation Studio.

Che DALL-E sia una sintesi di surrealismo e animazione non dovrebbe sorprendere, come è stato fatto prima. Dalí e Walt Disney hanno collaborato a una breve animazione a partire dal 1946, anche se ci sono voluti più di 50 anni prima che fosse rilasciato. Chiamato "Destino", il film fondeva gli stili di due leggendarie menti fantasiose.

Sopra: Destino, la collaborazione tra Dalí e Walt Disney.

DALL-E è una versione con 12 miliardi di parametri della rete neurale di elaborazione del linguaggio naturale GPT-3 da 175 miliardi di parametri. GPT-3 "impara" in base a modelli che scopre nei dati raccolti da Internet, dai post di Reddit a Wikipedia, alla fan fiction e ad altre fonti. Sulla base di questo apprendimento, GPT-3 è in grado di svolgere molte attività diverse senza formazione aggiuntiva, in grado di produrre narrazioni avvincenti, generare codice di computer, tradurre tra lingue ed eseguire calcoli matematici, tra le altre imprese, comprese le immagini di completamento automatico.

Con DALL-E, OpenAI ha perfezionato GPT-3 per concentrarsi ed estendere la manipolazione dei concetti visivi attraverso il linguaggio. È addestrato per generare immagini da descrizioni di testo utilizzando un set di dati di coppie testo-immagine. Sia GPT-3 che DALL-E sono "trasformatori", un tipo di rete neurale facile da parallelizzare che può essere scalata e addestrata su enormi set di dati. DALL-E non è la prima rete text-to-image, poiché questa sintesi è un'area di ricerca attiva dal 2016.

Il blog OpenAI che annuncia DALL-E afferma di fornire l'accesso a un sottoinsieme delle capacità di un motore di rendering 3D – software che utilizza le caratteristiche delle schede grafiche per generare immagini visualizzate su schermi o stampate su una pagina – tramite linguaggio naturale. Gli architetti li usano per visualizzare gli edifici. Gli archeologi possono ricreare strutture antiche. Inserzionisti e grafici li utilizzano per creare risultati più sorprendenti. Sono anche utilizzati nei videogiochi, nell'arte digitale, nell'istruzione e nella medicina per offrire esperienze più coinvolgenti. L'azienda afferma inoltre che a differenza di un motore di rendering 3D, i cui input devono essere specificati in modo univoco e completo, DALL-E è spesso in grado di "riempire gli spazi vuoti" quando il prompt di testo implica che l'immagine deve contenere un certo dettaglio che è non esplicitamente dichiarato.

Ad esempio, DALL-E può combinare idee disparate per sintetizzare oggetti, alcuni dei quali è improbabile che esistano nel mondo reale, come questo esempio incongruo che unisce una lumaca e un'arpa.

Sopra: DALL-E interpreta il messaggio di testo “A snail made of harp. Una lumaca con la consistenza di un'arpa. "

È quel "riempire gli spazi vuoti" che è particolarmente interessante, in quanto suggerisce capacità emergenti – fenomeni inaspettati che derivano da sistemi complessi. La coscienza umana è il classico esempio emergente, una proprietà del cervello che nasce dalla comunicazione di informazioni attraverso tutte le sue regioni. In questo modo, DALL-E è il passo successivo nella missione di OpenAI di sviluppare un'intelligenza artificiale generale a vantaggio dell'umanità.

In che modo DALL-E potrebbe giovare all'umanità?

Il blog dell'azienda menziona specificamente il design come possibile caso d'uso. Ad esempio, un messaggio di testo di "Una poltrona a forma di avocado. Una poltrona che imita un avocado ", fornisce le seguenti immagini:

Il suggerimento di testo "Un manichino femminile vestito con una giacca di pelle nera e una gonna plissettata dorata" produce quanto segue.

E il testo suggerisce “Una camera da letto a soppalco con un letto bianco accanto a un comodino. C'è un acquario in piedi accanto al letto "produce quanto segue:

In ciascuno degli esempi sopra, DALL-E mostra creatività, producendo immagini concettuali utili per il prodotto, la moda e l'interior design. Ho mostrato solo un sottoinsieme delle immagini prodotte per ciascuno dei prompt, ma sono quelle che corrispondono maggiormente alla richiesta. E mostrano chiaramente che DALL-E potrebbe supportare il brainstorming creativo o potenziare i progettisti umani, con spunti di riflessione o, un giorno, producendo immagini concettuali finali. Il tempo ci dirà se questo sostituirà le persone che svolgono queste attività o sarà semplicemente un altro strumento per aumentare l'efficienza e la creatività.

Un aiuto per la salute mentale

In risposta a un'altra demo di DALL-E, mostrata di seguito, in cui il prompt di testo richiede "un'illustrazione di un ravanello daikon in tutù che porta a spasso un cane", inizia una voce recente nella newsletter "The Good Stuff": "A baby daikon ravanello in un tutù che porta a spasso un cane. La frase mi fa sorridere. Il pensiero mi fa sorridere. E le illustrazioni evocate da un nuovo modello di intelligenza artificiale potrebbero essere le uniche cose che sostengono da solo la mia salute mentale ".

L'autore della newsletter potrebbe essere su qualcosa di significativo. La relazione tra creare arte e salute mentale positiva è ben nota. Ha generato il campo della terapia artistica e la visualizzazione è stata a lungo un pilastro della psicoterapia. La professoressa di arteterapia Girija Kaimal osserva: "Tutto ciò che coinvolge la tua mente creativa – la capacità di creare connessioni tra cose non correlate e immaginare nuovi modi di comunicare – è buono per te". Questo è vero per qualsiasi espressione creativa visiva: disegno, pittura, fotografia, collage, scrittura di poesie, ecc. Ciò potrebbe estendersi all'interazione con DALL-E, sia per creare qualcosa di nuovo o semplicemente per un sorriso, o forse più significativamente da un terapeutico prospettiva per dare una rappresentazione visiva immediata a un sentimento espresso in parole.

Video sintetico su richiesta

Poiché DALL-E fornisce già alcune funzionalità del motore di rendering 3D tramite input in linguaggio naturale, potrebbe essere possibile per il sistema produrre rapidamente storyboard. In teoria, potrebbe produrre video interamente sintetici basati su una sequenza di dichiarazioni di testo. Nella migliore delle ipotesi, questo potrebbe portare a una maggiore efficienza nella produzione di animazioni.

La creazione di DALL-E risale al tempo in cui gli ingegneri creavano un prodotto senza un chiaro segnale dal marketing. Discutendo di una fusione di linguaggio e visione, Ilya Sutskever, Chief Scientist di OpenAI, ritiene che la capacità di elaborare insieme testo e immagini dovrebbe rendere i modelli di intelligenza artificiale più intelligenti. Se è possibile esporre i modelli ai dati nello stesso modo in cui vengono assorbiti dagli esseri umani, i modelli dovrebbero apprendere i concetti in un modo più simile agli umani e più utile per un maggior numero di persone. DALL-E è un notevole passo avanti in quella direzione.

Gary Grossman è Senior VP of Technology Practice presso Edelman e Global Lead dell'Edelman AI Center of Excellence.

VentureBeat

La missione di VentureBeat è quella di essere una piazza della città digitale per i responsabili delle decisioni tecniche per acquisire conoscenze sulla tecnologia trasformativa e sulle transazioni.

Il nostro sito fornisce informazioni essenziali sulle tecnologie e strategie dei dati per guidarti mentre guidi le tue organizzazioni. Ti invitiamo a diventare un membro della nostra community, per accedere a:

  • informazioni aggiornate sugli argomenti di tuo interesse
  • le nostre newsletter
  • contenuti gated leader di pensiero e accesso scontato ai nostri eventi preziosi, come Transform
  • funzionalità di rete e altro ancora

Diventare socio

LASCIA UN COMMENTO

Per favore inserisci il tuo commento!
Per favore inserisci il tuo nome qui