Nvidia presenta Maxine, un servizio di videoconferenza AI cloud gestito

513

Nvidia ha lanciato oggi Nvidia Maxine, una piattaforma che fornisce agli sviluppatori una suite di software di conferenza AI accelerata dalla GPU per migliorare la qualità video. L'azienda descrive Maxine come una soluzione "cloud-native" che consente ai fornitori di servizi di portare effetti AI – tra cui correzione dello sguardo, super risoluzione, cancellazione del rumore, riaccensione del viso e altro – agli utenti finali.

Sviluppatori, partner software e fornitori di servizi possono richiedere l'accesso anticipato a Maxine a partire da questa settimana.

La videoconferenza è esplosa durante la pandemia, in quanto offre un modo per comunicare riducendo al minimo il rischio di infezione. Alla fine di aprile, Zoom ha superato i 300 milioni di partecipanti alle riunioni giornaliere, rispetto ai 200 milioni di inizio mese e ai 10 milioni di dicembre. Secondo un rapporto di App Annie, le app per conferenze aziendali hanno superato i 62 milioni di download durante la settimana dal 14 al 21 marzo.

Nvidia afferma che Maxine riduce "drasticamente" la quantità di larghezza di banda richiesta per le chiamate in videoconferenza. Invece di trasmettere in streaming un intero schermo di pixel, la piattaforma analizza i punti facciali di ogni persona durante una chiamata e quindi rianima algoritmicamente il volto nel video sull'altro lato. Questo apparentemente rende possibile lo streaming con molti meno dati che scorrono avanti e indietro su Internet. Nvidia afferma che gli sviluppatori che utilizzano Maxine possono ridurre la larghezza di banda a un decimo dei requisiti dello standard H.264.

Per ottenere questa compressione migliorata, Nvidia afferma di utilizzare modelli di intelligenza artificiale chiamati reti generative adversarial (GAN). I GAN – modelli in due parti costituiti da un generatore che crea campioni e un discriminatore che tenta di distinguere tra questi campioni e campioni del mondo reale – hanno dimostrato imprese impressionanti di sintesi multimediale. I GAN con le migliori prestazioni possono creare ritratti realistici di persone che non esistono, ad esempio, o istantanee di condomini fittizi.

L'altra caratteristica di Maxine è l'allineamento del volto, che consente di regolare automaticamente i volti in modo che i partecipanti sembrino essere uno di fronte all'altro durante una chiamata. La correzione dello sguardo aiuta a simulare il contatto visivo, anche se la fotocamera non è allineata con lo schermo dell'utente. Il frame automatico consente al feed video di seguire un oratore mentre si allontana dallo schermo. E gli sviluppatori possono consentire ai partecipanti alla chiamata di scegliere i propri avatar, con animazioni guidate automaticamente dalla voce e dal tono.

Maxine sfrutta anche l'SDK Jarvis di Nvidia per le funzionalità di conversazione, inclusi i modelli di linguaggio AI per il riconoscimento vocale, la comprensione del linguaggio e la generazione del parlato. Gli sviluppatori possono utilizzarli per creare assistenti di videoconferenza che prendono appunti e rispondono alle domande con voci umane. Inoltre, i set di strumenti possono potenziare traduzioni e trascrizioni per aiutare i partecipanti a capire ciò che viene discusso.

Avaya è tra i primi ad adottare la piattaforma Maxine. Attraverso l'app di videoconferenza Avaya Spaces dell'azienda, i clienti trarranno vantaggio dalla rimozione del rumore di fondo, dagli sfondi virtuali dello schermo verde e dalle funzionalità che consentono ai relatori di essere sovrapposti al contenuto della presentazione, nonché alle trascrizioni in tempo reale in grado di riconoscere e differenziare le voci.

Secondo Nvidia, i modelli AI che alimentano l'infrastruttura, i componenti audio e visivi di Maxine sono stati sviluppati attraverso centinaia di migliaia di ore di formazione sui sistemi Nvidia DGX. Questa robustezza e il backend di Maxine, che sfrutta il microservizio in esecuzione nei cluster di contenitori Kubernetes su GPU, consentono alla piattaforma di supportare fino a centinaia di migliaia di utenti anche durante l'esecuzione simultanea di funzionalità AI.