Galileo cerca di migliorare i dati non strutturati per l’apprendimento automatico (ML), raccoglie 18 milioni di dollari

145

Unisciti a noi il 9 novembre per imparare come innovare con successo e raggiungere l’efficienza migliorando le competenze e scalando gli sviluppatori cittadini al Summit Low-Code/No-Code. Registrati qui.

Machine Learning (ML) richiede dati su cui eseguire il training e l’iterazione. L’utilizzo dei dati per ML richiede anche una comprensione di base di ciò che è contenuto nei dati di addestramento, che non è sempre un problema facile da risolvere.

In particolare, c’è una vera sfida con i dati non strutturati, che per definizione non hanno una struttura per aiutare a organizzare i dati in modo che possano essere utili per ML e operazioni aziendali. È un dilemma che Vikram Chatterji ha visto, più e più volte, durante il suo incarico di responsabile della gestione dei progetti per l’intelligenza artificiale (AI) cloud presso Google.

Nelle grandi aziende di più settori, inclusi i servizi finanziari e la vendita al dettaglio, Chatterji e i suoi colleghi continuavano a vedere enormi volumi di dati non strutturati, inclusi testo, immagini e audio che erano semplicemente in giro. Le aziende continuavano a chiedergli come sfruttare quei dati non strutturati per ottenere informazioni dettagliate. La risposta che Chatterji ha dato è stata che potevano semplicemente usare ML, ma la risposta semplice non è mai stata così semplice.

“Ci siamo resi conto molto rapidamente che il modello ML stesso era qualcosa che abbiamo appena raccolto dallo scaffale ed è stato molto semplice”, ha detto Chatterji a VentureBeat. “Ma la parte più difficile, che comprende dall’80 al 90% del mio lavoro di data scientist, è stata fondamentalmente quella di entrare e guardare i dati e cercare di capire quali sono i punti dati errati, come pulirli, come assicurarsi che è meglio la prossima volta.

Contents

Evento

Summit Low-Code/No-Code

Scopri come creare, scalare e governare programmi low-code in un modo semplice che crea successo per tutto questo 9 novembre. Registrati per il tuo pass gratuito oggi.

Registrati qui

Questa consapevolezza ha portato Chatterji e i suoi cofondatori, Yash Sheth e Atindriyo Sanyal, a formare una nuova startup alla fine del 2021 che hanno chiamato Galileo per portare l’intelligence dei dati ai dati non strutturati per il ML.

Oggi, Galileo ha annunciato di aver raccolto 18 milioni di dollari in una serie A di finanziamenti mentre l’azienda continua a potenziare la sua tecnologia.

Intelligenza dei dati vs. etichettatura dei dati

Tutti i dati, strutturati o non strutturati, tendono a passare attraverso un processo di etichettatura dei dati prima di essere utilizzati per addestrare un modello ML. Chatterji non vede la tecnologia della sua azienda come un sostituto dell’etichettatura dei dati, piuttosto, vede Galileo come fornire un livello di intelligenza in aggiunta agli strumenti ML esistenti.

Chatterji ha affermato che in Google e in Uber l’etichettatura dei dati è ampiamente utilizzata, ma non è ancora sufficiente per risolvere la sfida di dare un senso efficace ai dati non strutturati. Ci sono problemi prima che i dati vengano etichettati, inclusa la comprensione della qualità dei dati, l’accuratezza e la duplicazione. Dopo che i dati sono stati etichettati e in produzione, sono anche aree di preoccupazione.

“Dopo aver etichettato i dati e aver addestrato un modello, come si fa a capire quali sono i campioni etichettati in modo errato?” disse Chatterji. “È un ago nel problema del pagliaio.”

Ciò che Galileo ha fatto è stato sviluppare una serie di sofisticati algoritmi, per essere in grado di identificare rapidamente campioni potenzialmente etichettati in modo errato. La piattaforma Galileo fornisce una serie di diverse metriche che possono anche aiutare i data scientist a identificare i problemi relativi ai dati per i modelli ML. Una di queste metriche è il punteggio potenziale di errore dei dati, che fornisce un numero che può aiutare un’organizzazione a comprendere i potenziali incidenti di errori nei dati e l’impatto su un modello.

Nel complesso, l’approccio adottato da Galileo è un tentativo di “debug” dei dati, individuando potenziali errori e correggendoli.

“I diversi tipi di errori di dati che le persone cercano sono così vari e il problema è che a volte non sai nemmeno cosa stai cercando di trovare, ma sai che un modello non sta funzionando bene, ” Egli ha detto.

L’intelligenza dei dati ML aiuta a risolvere la sfida di pregiudizi e spiegabilità

Aiutare a ridurre le potenziali distorsioni nei modelli di IA è un’altra area in cui Galileo può svolgere un ruolo.

Chatterji ha affermato che Galileo ha creato una varietà di strumenti all’interno della sua piattaforma per aiutare le organizzazioni a suddividere i dati in modi diversi per aiutare le entità del gruppo a comprendere meglio la diversità in diverse categorie, come il genere o la geografia.

“Abbiamo sicuramente visto persone adottare queste sezioni di dati per cercare di incorporare il rilevamento dei pregiudizi nelle loro organizzazioni”, ha affermato.

Quando si tenta di mitigare i pregiudizi nei modelli di intelligenza artificiale, è anche fondamentale essere in grado di spiegare in che modo un determinato modello è stato in grado di raggiungere un risultato specifico, che è l’essenza della spiegabilità dell’intelligenza artificiale. A tal fine, Galileo può spiegare ai suoi utenti quali parole sono state indicizzate più spesso che hanno portato a una previsione specifica.

Ad oggi, Galileo si è concentrato sui dati di testo non strutturati e sull’elaborazione del linguaggio naturale (PNL). Ora con il suo nuovo finanziamento, l’azienda cercherà di espandere la sua piattaforma ad altri casi d’uso, inclusa la visione artificiale per il riconoscimento delle immagini.

“Siamo ottimisti sull’idea dell’intelligenza dei dati ML e nei prossimi anni vedremo che questo diventerà più comune come una parte fondamentale dello stack per i professionisti dei dati ML”, ha affermato Chatterji.

La missione di VentureBeat deve essere una piazza cittadina digitale per i decisori tecnici per acquisire conoscenze sulla tecnologia aziendale trasformativa e le transazioni. Scopri i nostri Briefing.