Perché i dati rimangono la sfida più grande per i progetti di machine learning

41

Per rafforzare ulteriormente il nostro impegno nel fornire una copertura leader del settore della tecnologia dei dati, VentureBeat è entusiasta di accogliere Andrew Brust e Tony Baer come collaboratori regolari. Guarda i loro articoli nella pipeline di dati.

La qualità dei dati è al centro del successo dell’intelligenza artificiale (AI) aziendale. E di conseguenza, rimane la principale fonte di sfide per le aziende che desiderano applicare l’apprendimento automatico (ML) nelle loro applicazioni e operazioni.

Secondo l’ultimo rapporto sullo stato dell’intelligenza artificiale di Appen, il settore ha compiuto progressi impressionanti nell’aiutare le aziende a superare gli ostacoli all’approvvigionamento e alla preparazione dei propri dati. Ma c’è ancora molto da fare a diversi livelli, tra cui la struttura organizzativa e le politiche aziendali.

I costi dei dati

Il ciclo di vita dell’IA aziendale può essere suddiviso in quattro fasi: approvvigionamento dei dati, preparazione dei dati, test e distribuzione del modello e valutazione del modello.

I progressi negli strumenti informatici e di machine learning hanno aiutato ad automatizzare e accelerare attività come la formazione e il test di diversi modelli di machine learning. Le piattaforme di cloud computing consentono di addestrare e testare contemporaneamente decine di modelli diversi di dimensioni e strutture diverse. Ma man mano che i modelli di apprendimento automatico crescono in numero e dimensioni, richiederanno più dati di addestramento.

Evento

Summit Low-Code/No-Code

Scopri come creare, ridimensionare e gestire programmi low-code in un modo semplice che crei successo per tutto questo 9 novembre. Registrati per il tuo pass gratuito oggi.

Registrati qui

Sfortunatamente, l’ottenimento dei dati di addestramento e l’annotazione richiedono ancora un notevole sforzo manuale ed è in gran parte specifico dell’applicazione. Secondo il rapporto di Appen, “mancanza di dati sufficienti per un caso d’uso specifico, nuove tecniche di apprendimento automatico che richiedono maggiori volumi di dati o i team non dispongono dei processi giusti per ottenere in modo semplice ed efficiente i dati di cui hanno bisogno”.

“Sono necessari dati di addestramento di alta qualità per prestazioni accurate del modello; e set di dati di grandi dimensioni e inclusivi sono costosi”, ha detto a VentureBeat Sujatha Sagiraju, chief product officer di Appen. “Tuttavia, è importante notare che i preziosi dati dell’IA possono aumentare le possibilità che il tuo progetto passi dalla fase pilota alla produzione; quindi, la spesa è necessaria”.

I team ML possono iniziare con set di dati preetichettati, ma alla fine dovranno raccogliere ed etichettare i propri dati personalizzati per scalare i propri sforzi. A seconda dell’applicazione, l’etichettatura può diventare estremamente costosa e laboriosa.

In molti casi, le aziende dispongono di dati sufficienti, ma non possono affrontare problemi di qualità. Dati distorti, etichettati in modo errato, incoerenti o incompleti riducono la qualità dei modelli di ML, che a sua volta danneggia il ROI delle iniziative di intelligenza artificiale.

“Se si addestrano modelli ML con dati errati, le previsioni del modello saranno imprecise”, ha affermato Sagiraju. “Per garantire che la loro intelligenza artificiale funzioni bene negli scenari del mondo reale, i team devono disporre di un mix di set di dati di alta qualità, dati sintetici e valutazione human-in-the-loop nel loro kit di allenamento”.

Il divario tra data scientist e leader aziendali

Secondo Appen, è molto meno probabile che i leader aziendali del personale tecnico considerino l’approvvigionamento e la preparazione dei dati come le principali sfide delle loro iniziative di intelligenza artificiale. “Ci sono ancora dei divari tra tecnici e leader aziendali nella comprensione dei maggiori colli di bottiglia nell’implementazione dei dati per il ciclo di vita dell’IA. Ciò si traduce in un disallineamento delle priorità e del budget all’interno dell’organizzazione”, secondo il rapporto Appen.

“Quello che sappiamo è che alcuni dei maggiori colli di bottiglia per le iniziative di intelligenza artificiale risiedono nella mancanza di risorse tecniche e nel coinvolgimento dei dirigenti”, ha affermato Sagiraju. “Se dai un’occhiata a queste categorie, vedi che data scientist, ingegneri di apprendimento automatico, sviluppatori di software e dirigenti sono dispersi in diverse aree, quindi non è difficile immaginare una mancanza di strategia allineata a causa di priorità contrastanti tra i vari team all’interno dell’organizzazione”.

La varietà di persone e ruoli coinvolti nelle iniziative di IA rende difficile raggiungere questo allineamento. Dagli sviluppatori che gestiscono i dati, ai data scientist che si occupano di problemi sul campo e ai dirigenti che prendono decisioni aziendali strategiche, tutti hanno in mente obiettivi diversi e quindi priorità e budget diversi.

Tuttavia, Sagiraju vede che il divario si sta lentamente riducendo anno dopo anno quando si tratta di comprendere le sfide dell’IA. E questo perché le organizzazioni stanno comprendendo meglio l’importanza di dati di alta qualità per il successo delle iniziative di IA.

“L’enfasi sull’importanza dei dati, in particolare dei dati di alta qualità che corrispondono agli scenari applicativi, è per il successo di un modello di intelligenza artificiale che ha riunito i team per risolvere queste sfide”, ha affermato Sagiraju.

Le sfide relative ai dati non sono nuove nel campo del riciclaggio applicato. Ma man mano che i modelli ML crescono e i dati diventano più abbondanti, è necessario trovare soluzioni scalabili per assemblare dati di addestramento di qualità.

Fortunatamente, alcune tendenze stanno aiutando le aziende a superare alcune di queste sfide e il rapporto AI di Appen mostra che il tempo medio dedicato alla gestione e alla preparazione dei dati è in calo.

Un esempio è l’etichettatura automatizzata. Ad esempio, i modelli di rilevamento degli oggetti richiedono che i riquadri di delimitazione di ciascun oggetto negli esempi di addestramento siano specificati, il che richiede un notevole sforzo manuale. Gli strumenti di etichettatura automatizzati e semiautomatici utilizzano un modello di apprendimento profondo per elaborare gli esempi di formazione e prevedere i riquadri di delimitazione. Le etichette automatizzate non sono perfette e un etichettatore umano deve esaminarle e regolarle, ma accelerano notevolmente il processo. Inoltre, il sistema di etichettatura automatizzato può essere ulteriormente addestrato e migliorato poiché riceve feedback da etichettatori umani.

“Mentre molti team iniziano con l’etichettare manualmente i loro set di dati, altri si stanno rivolgendo a metodi che consentono di risparmiare tempo per automatizzare parzialmente il processo”, ha affermato Sagiraju.

Allo stesso tempo, c’è un mercato in crescita per i dati sintetici. Le aziende utilizzano i dati generati artificialmente per integrare i dati che raccolgono dal mondo reale. I dati sintetici sono particolarmente utili nelle applicazioni in cui l’ottenimento di dati reali è costoso o pericoloso. Un esempio sono le case automobilistiche a guida autonoma, che devono affrontare sfide normative, di sicurezza e legali per ottenere dati da strade reali.

“Le auto a guida autonoma richiedono un’incredibile quantità di dati per essere al sicuro e preparate a qualsiasi cosa una volta messe in strada, ma alcuni dei dati più complessi non sono prontamente disponibili”, ha affermato Sagiraju. “I dati sintetici consentono ai professionisti di tenere conto di casi limite o scenari pericolosi come incidenti, attraversamento di pedoni e veicoli di emergenza per addestrare efficacemente i loro modelli di intelligenza artificiale. I dati sintetici possono creare istanze per addestrare i dati quando non ci sono abbastanza dati di origine umana. È fondamentale per colmare le lacune”.

Allo stesso tempo, l’evoluzione del mercato MLops sta aiutando le aziende ad affrontare molte sfide della pipeline di apprendimento automatico, tra cui l’etichettatura e il controllo delle versioni dei set di dati; formazione, test e confronto di diversi modelli di machine learning; distribuire modelli su larga scala e tenere traccia delle loro prestazioni; e raccogliere nuovi dati e aggiornare i modelli nel tempo.

Ma poiché il ML svolge un ruolo più importante nelle imprese, una cosa che diventerà più importante è il controllo umano.

“Le valutazioni Human-in-the-loop (HITL) sono fondamentali per fornire informazioni accurate e pertinenti ed evitare pregiudizi”, ha affermato Sagiraju. “Nonostante ciò che molti credono sul fatto che gli esseri umani siano effettivamente in secondo piano nella formazione sull’IA, penso che vedremo una tendenza verso più valutazioni HITL nel tentativo di potenziare l’IA responsabile e avere più trasparenza su ciò che le organizzazioni stanno mettendo nei loro modelli per garantire modelli comportarsi bene nel mondo reale”.

La missione di VentureBeat deve essere una piazza cittadina digitale per i decisori tecnici per acquisire conoscenze sulla tecnologia aziendale trasformativa e le transazioni. Scopri i nostri Briefing.