Perché l’umanità è necessaria per promuovere l’IA conversazionale

45

Non sei riuscito a partecipare a Transform 2022? Dai un’occhiata a tutte le sessioni del vertice nella nostra libreria on-demand ora! Guarda qui.

L’IA conversazionale è un sottoinsieme dell’intelligenza artificiale (AI) che consente ai consumatori di interagire con le applicazioni del computer come se stessero interagendo con un altro essere umano. Secondo Deloitte, il mercato globale dell’IA conversazionale è destinato a crescere del 22% tra il 2022 e il 2025 e si stima che raggiungerà i 14 miliardi di dollari entro il 2025.

Fornendo personalizzazioni linguistiche avanzate per soddisfare un gruppo molto diversificato e vasto di pubblico iper-locale, molte applicazioni pratiche di questo includono servizi finanziari, reparti ospedalieri e conferenze e possono assumere la forma di un’app di traduzione o di un chatbot. Secondo Gartner, il 70% dei colletti bianchi interagisce regolarmente con le piattaforme di conversazione, ma questa è solo una goccia nell’oceano di ciò che può accadere in questo decennio.

Nonostante l’entusiasmante potenziale all’interno dello spazio AI, c’è un ostacolo significativo; i dati utilizzati per addestrare modelli di IA conversazionale non tengono adeguatamente conto delle sottigliezze del dialetto, della lingua, dei modelli di discorso e dell’inflessione.

Quando si utilizza un’app di traduzione, ad esempio, un individuo parlerà nella propria lingua di origine e l’IA calcolerà questa lingua di origine e la convertirà nella lingua di destinazione. Quando l’oratore di origine devia da un accento appreso standardizzato, ad esempio se parla con un accento regionale o usa lo slang regionale, il tasso di efficacia della traduzione dal vivo diminuisce. Non solo questo fornisce un’esperienza scadente, ma inibisce anche la capacità degli utenti di interagire in tempo reale, con amici e familiari o in un ambiente aziendale.

Evento

MetaBeat 2022

MetaBeat riunirà leader di pensiero per fornire indicazioni su come la tecnologia metaverse trasformerà il modo in cui tutti i settori comunicano e fanno affari il 4 ottobre a San Francisco, in California.

Registrati qui

Il bisogno di umanità nell’IA

Per evitare un calo dei tassi di efficacia, l’IA deve utilizzare un set di dati diversificato. Ad esempio, ciò potrebbe includere una rappresentazione accurata dei parlanti in tutto il Regno Unito, sia a livello regionale che nazionale, al fine di fornire una traduzione attiva migliore e accelerare l’interazione tra parlanti di lingue e dialetti diversi.

L’idea di utilizzare i dati di addestramento nei programmi ML è un concetto semplice, ma è anche fondamentale per il funzionamento di queste tecnologie. I dati di allenamento funzionano in una struttura singolare di apprendimento per rinforzo e vengono utilizzati per aiutare un programma a capire come applicare tecnologie come le reti neurali per apprendere e produrre risultati sofisticati. Più ampio è il pool di persone che interagiscono con questa tecnologia sul back-end, ad esempio oratori con difficoltà di pronuncia o balbuzie, migliore sarà l’esperienza di traduzione risultante.

In particolare all’interno dello spazio di traduzione, concentrarsi su come parla un utente piuttosto che su ciò di cui parla è la chiave per aumentare l’esperienza dell’utente finale. Il lato oscuro dell’apprendimento per rinforzo è stato illustrato nelle notizie recenti con Meta, che di recente è stata criticata per avere un chatbot che ha vomitato commenti insensibili, che ha appreso dall’interazione pubblica. I dati di addestramento dovrebbero quindi sempre avere un human-in-the-loop (HITL), in cui un essere umano può garantire che l’algoritmo generale sia accurato e adatto allo scopo.

Contabilità della natura attiva della conversazione umana

Naturalmente, l’interazione umana è incredibilmente ricca di sfumature e la costruzione di un design conversazionale di bot in grado di navigare nella sua complessità è una sfida perenne. Tuttavia, una volta raggiunto, un design conversazionale ben strutturato e completamente realizzato può alleggerire il carico sui team del servizio clienti, sulle app di traduzione e migliorare le esperienze dei clienti. Oltre ai dialetti regionali e allo slang, i dati di formazione devono anche tenere conto della conversazione attiva tra due o più parlanti che interagiscono tra loro. Il bot deve imparare dai loro schemi di discorso, il tempo impiegato per realizzare un’interiezione, la pausa tra gli oratori e quindi la risposta.

Dare priorità all’equilibrio è anche un ottimo modo per garantire che le conversazioni rimangano un’esperienza attiva per l’utente e un modo per farlo è eliminare le risposte senza uscita. Pensa a questo come essere in un ambiente di improvvisazione, in cui le frasi “sì e” sono fondamentali. In altre parole, dovresti accettare la costruzione del mondo del tuo partner mentre porti un nuovo elemento sul tavolo. I bot più efficaci funzionano in modo simile formulando apertamente le risposte che incoraggiano ulteriori richieste. L’offerta di opzioni e ulteriori scelte pertinenti può aiutare a garantire che tutte le esigenze degli utenti finali siano soddisfatte.

Molte persone hanno difficoltà a ricordare lunghe serie di pensieri o impiegano un po’ più di tempo per elaborare i propri pensieri. Per questo motivo, le app di traduzione farebbero bene a concedere agli utenti abbastanza tempo per calcolare i propri pensieri prima di fare una pausa alla fine di un’interiezione. Addestrare un bot per imparare le parole di riempimento, incluso così, erm, bene, um, o come, in inglese per esempio, e convincerlo ad associare un lead time più lungo a queste parole è un buon modo per consentire agli utenti di impegnarsi in un modo più realistico conversazione in tempo reale. Offrire una programmazione mirata di “barge-in” (possibilità per gli utenti di interrompere il bot) è anche un altro modo per simulare in modo più accurato la natura attiva della conversazione.

Innovazioni future nell’IA conversazionale

L’IA conversazionale ha ancora molta strada da fare prima che tutti gli utenti si sentano rappresentati con precisione. Tenendo conto delle sottigliezze del dialetto, il tempo impiegato dai parlanti per pensare, così come la natura attiva di una conversazione, saranno fondamentali per far avanzare questa tecnologia. In particolare nel regno delle app di traduzione, tenere conto delle pause e delle parole associate al pensiero migliorerà l’esperienza per tutte le persone coinvolte e simulerà una conversazione più naturale e attiva.

Ottenere i dati da trarre da un set di dati più ampio nel processo di back-end, ad esempio imparare dall’inglese RP e dalle inflessioni di Geordie, eviterà l’efficacia di una traduzione che cada a causa di problemi di elaborazione dovuti all’accento. Queste innovazioni offrono un potenziale entusiasmante ed è ora che app e bot di traduzione tengano conto delle sottigliezze linguistiche e dei modelli vocali.

Martin Curtis è CEO di Palaver

DataDecisionMakers

Benvenuto nella comunità VentureBeat!

DataDecisionMakers è il luogo in cui gli esperti, compresi i tecnici che lavorano sui dati, possono condividere approfondimenti e innovazioni relative ai dati.

Se vuoi leggere idee all’avanguardia e informazioni aggiornate, best practice e il futuro dei dati e della tecnologia dei dati, unisciti a noi su DataDecisionMakers.

Potresti anche considerare di contribuire con un tuo articolo!

Leggi di più da DataDecisionMakers