Il valore aziendale degli strumenti multimediali sintetici

303

Un nuovo evento GamesBeat è dietro l'angolo! Scopri di più su cosa verrà dopo.

Roadrunner, il film documentario su Anthony Bourdain, contiene una scena in cui l'epicureo pronuncia parole tratte da lettere che ha scritto all'artista David Choe. Questo non sarebbe insolito di per sé, se non fosse per il fatto che Bourdain non ha mai letto le lettere. Piuttosto, le clip sono state generate da una società che il regista Morgan Neville ha assunto per modellare la voce di Bourdain.

I media sintetici, o le somiglianze e le voci generate dall'intelligenza artificiale, hanno quasi attraversato la valle misteriosa. All'inizio di questo mese, Sonantic, un'azienda con sede nel Regno Unito che clona voci per attori e studi, ha pubblicato una registrazione di una voce generata dall'intelligenza artificiale modellata sull'attore Val Kilmer. Un'imitazione della voce naturale di Kilmer, che ha perso dopo un intervento chirurgico per un cancro alla gola nel 2015, rispecchia da vicino l'intonazione dell'attore.

L'ascesa dei media sintetici ha suscitato preoccupazioni sui deepfake o sui media generati dall'intelligenza artificiale utilizzati per frodi e altre attività criminali. Le domande etiche abbondano: la voce in Roadrunner è stata creata senza il permesso di Bourdain. Ma se usati in modo responsabile, i media sintetici hanno il potenziale per ridurre i costi consentendo agli attori di concentrarsi su lavori più interessanti.

Contents

Supporti sintetici

Per creare voci e video sintetici, le aziende utilizzano una combinazione di tecniche di intelligenza artificiale e apprendimento automatico, comprese le reti generative avversarie (GAN). I GAN sono modelli di apprendimento automatico in due parti costituiti da un generatore che crea campioni e un discriminatore che tenta di distinguere tra questi campioni e i campioni del mondo reale. I GAN più performanti possono creare ritratti realistici di persone che non esistono, o anche istantanee di condomini fittizi.

Ci vogliono solo pochi secondi o minuti perché l'intelligenza artificiale imiti la prosodia di una persona. L'ultimo servizio Deep Voice di Baidu può clonare una voce con soli 3,7 secondi di campioni audio e WellSaid Labs, lanciato come progetto di ricerca presso l'Allen Institute for Artificial Intelligence, può creare un file audio di 10 secondi da circa 4 secondi di discorso.

Man mano che la ricerca e lo sviluppo perfezionano la tecnologia e diventa più scalabile, la sintesi dei media si sta trasformando da novità in un mercato in espansione. Aziende come Amazon, Microsoft, Papercup, Deepdub e Synthesia hanno creato progetti come campagne pubblicitarie con uno Snoop Dogg generato dall'intelligenza artificiale e la voce di David Beckham tradotta in quasi una dozzina di lingue. Hanno anche collaborato con agenzie di stampa tra cui Sky News, Discovery e Reuters per sviluppare prototipi per notizie automatizzate e reportage sportivi.

Le piattaforme multimediali sintetiche forniscono funzionalità diverse a seconda del loro obiettivo. Ad esempio, Synthesia consente ai clienti di scegliere tra una gamma di "avatar vocali" e creare voci fuori campo direttamente da una sceneggiatura, con una o più voci in base allo stile, al genere e al tipo di produzione. D'altra parte, Amazon abbina i clienti ai suoi ingegneri per creare voci generate dall'intelligenza artificiale che rappresentano determinate persone.

Startup come Alethea AI, Genies e Possible Reality rientrano in una categoria separata di generazione di media sintetici. Da poche immagini, i loro strumenti possono generare avatar ad alta fedeltà, espressivi e fotorealistici. Possible Reality sta sfruttando la sua tecnologia per trasformare le immagini di persone in avatar 3D all'interno di videogiochi e mondi virtuali. E Genies sta generando avatar 2D simili a cartoni animati di celebrità per i social media.

Sfide e opportunità

Poiché le restrizioni sulla pandemia rendono le riprese convenzionali complicate e rischiose, i vantaggi dei video generati dall'intelligenza artificiale sono stati amplificati. Secondo Dogtown Media, una campagna di formazione aziendale in circostanze normali potrebbe richiedere fino a 20 diversi script per rivolgersi a una forza lavoro mondiale, con ogni video che costa decine di migliaia di dollari. I media sintetici possono ridurre le spese a una somma forfettaria di circa $ 100.000.

Voci di marchi come Flo di Progressive, interpretata dalla comica Stephanie Courtney, hanno spesso il compito di registrare alberi telefonici per sistemi di risposta vocale interattivi o script di elearning per video di formazione aziendale. La sintesi potrebbe aumentare la produttività degli attori riducendo le registrazioni ausiliarie e i pick-up – sessioni di registrazione per affrontare errori, modifiche o aggiunte negli script di voiceover – mentre li libera per perseguire il lavoro creativo e consente loro di raccogliere i residui.

Inoltre, le piattaforme multimediali sintetiche offrono a creatori, sviluppatori di prodotti e marchi la capacità di potenziare le esperienze con un'ampia gamma di stili vocali, accenti e lingue. Il CEO di Resemble Zohaib Ahmed immagina che gli sviluppatori di giochi creino voci dagli attori durante la pre-produzione per lo scratching e l'iterazione, nonché voci su misura per adattarsi alla personalità di un personaggio e suoni simili per assistenti vocali e app.

C'è anche l'aspetto della traduzione. Poiché il doppiaggio di qualità è proibitivo – le stime per un programma di 90 minuti vanno da $ 30.000 a $ 100.000 – la maggior parte dei video del mondo sono stati registrati in un'unica lingua. (Nella prima settimana del 2019, il 33% dei video popolari di YouTube era in inglese.) Statista ha rilevato che il 59% degli adulti statunitensi ha affermato che preferirebbe guardare film in lingua straniera doppiati in inglese piuttosto che vedere il film originale con i sottotitoli, evidenziando la domanda per le tecnologie di traduzione dei media sintetici.

Lati negativi

Gli esperti hanno espresso preoccupazione per il fatto che gli strumenti dei media sintetici potrebbero essere cooptati per creare deepfake: il timore è che questi falsi possano essere usati per fare cose come influenzare l'opinione pubblica durante un'elezione o coinvolgere una persona in un crimine. Già, i deepfake sono stati abusati per generare materiale pornografico di attori e per frodare un importante produttore di energia.

È probabile che la lotta contro i deepfake rimanga impegnativa, soprattutto perché le tecniche di generazione dei media continuano a migliorare. All'inizio di quest'anno, i filmati deepfake di Tom Cruise pubblicati su un account TikTok non verificato hanno collezionato 11 milioni di visualizzazioni sull'app e altri milioni su altre piattaforme. E se scansionati attraverso alcuni dei migliori strumenti di rilevamento dei deepfake disponibili pubblicamente, hanno evitato la scoperta, secondo Vice.

Alcune aziende hanno adottato misure per prevenire l'uso improprio delle loro piattaforme. Ad esempio, Synthesia afferma di controllare i suoi clienti e i loro script e richiede il consenso formale di una persona prima di sintetizzare il loro aspetto, e l'azienda si rifiuta di toccare il contenuto politico. WellSaid inoltre non crea avatar vocali senza il permesso degli attori e sottoscrive il "Giuramento di Ippocrate per l'intelligenza artificiale" proposto dai dirigenti di Microsoft Brad Smith e Harry Shum. Per quanto riguarda Resemble, ha rilasciato uno strumento open source che rileva i deepfake derivando rappresentazioni di alto livello di campioni vocali e prevedendo se sono reali o generati.

Fondatori come Ahmed pensano che i pro superino i potenziali contro. Come ha detto a VentureBeat in una recente intervista, "Abbiamo deciso di creare un prodotto che aiuti i creativi a superare l'ostacolo della creazione di contenuti audio. Con più contenuti audio prodotti anno dopo anno – altoparlanti intelligenti … AirPods, podcast, audiolibri e personaggi digitali in realtà virtuale e aumentata – c'è una grande e crescente necessità di clonazione vocale rapida e accurata.

VentureBeat

La missione di VentureBeat è quella di essere una piazza cittadina digitale per i responsabili delle decisioni tecniche per acquisire conoscenze sulla tecnologia trasformativa e sulle transazioni.

Il nostro sito fornisce informazioni essenziali sulle tecnologie e sulle strategie dei dati per guidarti nella guida delle tue organizzazioni. Ti invitiamo a diventare un membro della nostra community, per accedere a:

  • informazioni aggiornate sugli argomenti di tuo interesse
  • le nostre newsletter
  • contenuti gated leader di pensiero e accesso scontato ai nostri eventi preziosi, come Trasforma 2021: Per saperne di più
  • funzioni di rete e altro

Diventare socio