API DALL-E rilasciata da OpenAI in versione beta pubblica, potenziale vantaggio per i costruttori di app

60

Unisciti a noi il 9 novembre per imparare come innovare con successo e raggiungere l’efficienza migliorando le competenze e scalando gli sviluppatori cittadini al Summit Low-Code/No-Code. Registrati qui.

Preparatevi, sviluppatori: oggi OpenAI ha rilasciato l’attesissima API DALL-E in versione beta pubblica, il che significa che gli sviluppatori possono ora integrare DALL-E direttamente nelle loro app e prodotti.

Con l’annuncio, DALL-E, un modello di linguaggio trasformatore che consente agli utenti di utilizzare i prompt in linguaggio naturale per creare e modificare immagini originali, si unisce a GPT-3, Embeddings e Codex nella piattaforma API di Open AI.

Aziende come Cala, una piattaforma di design di moda, e Mixtiles, che stampa foto online su piastrelle decorative leggere, hanno già implementato e testato l’API per i loro casi d’uso specifici.

Nel frattempo, Microsoft sta portando DALL-E nella sua nuova app di progettazione grafica, Designer, e sta anche integrando DALL-E in Bing e Microsoft Edge con Image Creator, consentendo agli utenti di creare immagini se i risultati Web non restituiscono ciò che stanno cercando per. Il fornitore di immagini stock Shutterstock ha anche annunciato la scorsa settimana che utilizzerà l’API per offrire ai clienti immagini generate da DALL-E.

Evento

Summit Low-Code/No-Code

Scopri come creare, ridimensionare e gestire programmi low-code in un modo semplice che crei successo per tutto questo 9 novembre. Registrati per il tuo pass gratuito oggi.

Register Here

DALL-E API

OpenAI continuerà a eseguire l’iterazione dell’API DALL-E

L’API sarà disponibile per chiunque la utilizzi sulla piattaforma OpenAI, ha dichiarato a VentureBeat Luke Miller, product manager di OpenAI.

Con l’API in versione beta, “continueremo a ripetere e migliorare fino alla fine dell’anno”, ha affermato. “Siamo davvero entusiasti di tutti i modi in cui gli sviluppatori possono utilizzare questa tecnologia e personalizzarla per esigenze specifiche, applicazioni specifiche e comunità specifiche, per scalare ulteriormente di quanto potremmo mai”.

Miller ha aggiunto che l’azienda ha preso molte delle lezioni apprese negli ultimi mesi dall’implementazione della versione beta di DALL-E a milioni di utenti e l’ha integrata nell’API, “così possiamo sentirci a nostro agio nel condividerlo con il mondo, ma anche lasciare che gli sviluppatori si concentrano sulle cose divertenti della costruzione”.

Il frenetico viaggio di DALL-E verso la pietra miliare della cultura

L’API DALL-E è l’ennesima grande mossa per il generatore di text-to-image, che da quando DALL-E 2 è stato rilasciato solo sei mesi fa è diventato parte dello zeitgeist della cultura pop mainstream, inclusi milioni di visualizzazioni di arte generate da DALL -E sui social media, un segmento su DALL-E su The Today Show e una recente apparizione del CTO Mira Murati su The Daily Show.

Allo stesso tempo, ci sono state molte proteste e accesi dibattiti su questioni tra cui la prospettiva di controversie legali sulla proprietà del copyright delle immagini DALL-E; come DALL-E può riflettere errori nei suoi dati di addestramento; e domande sull’accuratezza e l’abilità di DALL-E.

Ma Open AI afferma che 3 milioni di persone stanno già utilizzando DALL-E per stimolare la creatività e accelerare i flussi di lavoro, generando oltre 4 milioni di immagini al giorno. Gli sviluppatori, dicono, ora possono iniziare a costruire con DALL-E in pochi minuti.

Dai progetti collaterali alle startup

Ciò include rendere il più semplice possibile iniziare a funzionare registrandosi, ottenendo una chiave API e iniziando a creare, ha spiegato Miller.

“Che si tratti di qualcuno che sta solo hackerando un divertente progetto collaterale durante il fine settimana, che si tratti di una startup in fase iniziale, di un artista che lavora a un progetto creativo o di una grande impresa, tutte quelle persone sono in grado di entrare e utilizzare questa tecnologia integrata nel loro prodotto”, ha affermato, facendo eco a ciò che molti prevedono: che il debutto dell’API DALL-E aprirà le porte delle startup di IA generativa.

“Il divertente progetto collaterale dell’hacking alla fine diventerà una startup in alcuni casi”, ha affermato. “In definitiva, se sei entusiasta di costruire con questa tecnologia, vogliamo che tu sia in grado di farlo e integrarlo nel tuo prodotto”.

Rowan Curran, analista di AI e ML presso Forrester Research, ritiene che se l’API DALL-E consente la modifica e il perfezionamento delle immagini, sarà “estremamente utile” per gli sviluppatori.

“Quindi puoi effettivamente incorporarlo come un’applicazione completa in qualsiasi caso d’uso aziendale che desideri”, ha detto a VentureBeat.

Il prezzo dell’API sarà per immagine

L’API DALL-E ha un prezzo per output dell’immagine, in base alle dimensioni. 1024 x 1024 costa $ 0,02/immagine, mentre ci sono sconti molto lievi per 512 x 512 a $ 0,018/immagine e 256 x 256 a $ 0,016/immagine.

L’API ha tre capacità, ha spiegato Miller. Gli utenti possono generare un’immagine, modificare una parte dell’immagine e anche generare più variazioni dell’immagine.

“Puoi pensare che non sia diverso dal processo creativo, inventare idee, scegliere qualcosa e restringere e poi continuare a ripetere e trovare qualcosa che si adatta alle tue esigenze e al contesto dato”, ha detto.

Storicamente, Curran ha sottolineato che uno dei fattori limitanti intorno ai modelli linguistici di grandi dimensioni in generale è il costo necessario per eseguirli. Quindi, se il prezzo è giusto per l’API DALL-E, ha detto che “aprirebbe tutta una serie di casi d’uso, specialmente per le startup e le persone che stanno ottenendo finanziamenti iniziali”.

Detto questo, ha aggiunto che le grandi imprese, in particolare i team di innovazione, probabilmente vorranno utilizzare anche l’API DALL-E.

“Oltre a ciò, mi aspetto che ciò porti a una maggiore ricerca e utilizzo a livello aziendale e in termini di adozione e messa a punto dei propri modelli linguistici di grandi dimensioni per vari casi d’uso”, ha affermato. “Perché penso che la capacità di prendere i modelli linguistici di grandi dimensioni, aggiungere questo livello di messa a punto in cima per alcuni di questi settori davvero specifici sia il punto in cui inizierà davvero a cambiare il gioco.”

Domande su fiducia e sicurezza

I critici continuano a mettere in discussione questioni relative alla fiducia e alla sicurezza dell’IA generativa in generale, e DALL-E in particolare, che le foto false potrebbero essere utilizzate per intimidire e molestare, ad esempio, o diffondere disinformazione e stimolare la violenza. A maggio, i ricercatori hanno affermato che lo strumento potrebbe anche rafforzare gli stereotipi contro le donne e le persone di colore.

Coloro che hanno domande etiche e legali su DALL-E potrebbero non essere entusiasti della notizia che le immagini generate con l’API non richiederanno una filigrana, che è stata implementata durante la beta di DALL-E 2 ma è facoltativa con l’API.

Ma in un comunicato stampa, OpenAI ha affermato che l’API DALL-E “incorpora le lezioni di fiducia e sicurezza che abbiamo imparato distribuendo DALL-E a 3 milioni di artisti e utenti in tutto il mondo”.

Con l’API, “gli sviluppatori possono spedire con sicurezza sapendo che le mitigazioni integrate, come i filtri per i simboli di odio e il sangue, gestiranno gli aspetti difficili della moderazione”, ha continuato il comunicato stampa. “Come parte dell’impegno di OpenAI per un’implementazione responsabile, continueremo a fare della fiducia e della sicurezza una priorità assoluta in modo che gli sviluppatori possano concentrarsi sulla costruzione”.

Mixtiles utilizza l’API DALL-E per creare ricordi

Eytan Levit, co-fondatore di Mixtiles con sede a Tel Aviv, afferma che l’azienda ha immediatamente visto il potenziale di DALL-E 2 e si è iscritta all’accesso anticipato.

“Abbiamo iniziato a giocare con DALL-E 2 per creare immagini incorniciate di ricordi d’infanzia, ‘animali spirituali’ e sogni che i nostri familiari e amici ci hanno descritto”, ha detto a VentureBeat. “Volevamo vedere se avrebbero appeso queste immagini alle pareti, e l’hanno fatto”.

Mixtiles: utilizzo dell’API DALL-E

Levit ha sottolineato che esiste una curva di apprendimento per il primo utente DALL-E. “Ad esempio, devi sapere quali stili puoi utilizzare, come un dipinto a olio, un’arte digitale, uno schizzo a matita o un acquerello”, ha affermato. “Abbiamo appreso che il riferimento all’ora del giorno influisce materialmente sui risultati, mentre le tavolozze dei colori aiutano anche a ottenere immagini straordinarie”.

Utilizzando l’API, l’approccio di Mixtiles è stato quello di guidare l’utente attraverso una serie di passaggi, ogni passaggio avvicinandolo alla creazione di opere d’arte con cui risuonano emotivamente.

“Pensiamo che la semplicità sia la chiave per sbloccare questa straordinaria tecnologia a centinaia di milioni di persone che potrebbero usarla per decorare le loro case”, ha affermato Levit.

In definitiva, ha aggiunto, Mixtiles scommette che l’IA generativa e DALL-E rappresentino un nuovo salto tecnologico, “equivalente all’invenzione della carta, della cornice, della stampa su tela o dell’invenzione della computer grafica: pensiamo che alimenterà un’esplosione di nuovi casi d’uso, della creatività umana e della connessione emotiva”.

Per Mixtiles, ciò significa consentire ai clienti di caricare foto e ritratti di famiglia e quindi personalizzare queste immagini.

“Immagina di trasformare una foto di tuo figlio nel suo supereroe preferito, o di trasformare il tuo ritratto di famiglia in un ritratto di personaggi in stile Simpson o in un dipinto in stile Van Gogh”, ha detto Levit. “siamo ottimisti, l’IA generativa diventerà parte integrante della nostra proposta di valore nel prossimo futuro.”

La missione di VentureBeat deve essere una piazza cittadina digitale per i decisori tecnici per acquisire conoscenze sulla tecnologia aziendale trasformativa e le transazioni. Scopri i nostri Briefing.