Perché i dati non strutturati sono il futuro della gestione dei dati

453

Tutte le sessioni di Transform 2021 sono ora disponibili on-demand. Guarda ora.

Le aziende fanno sempre più affidamento su dati non strutturati per scopi normativi, analitici e decisionali. I dati non strutturati alimenteranno l'analisi, l'apprendimento automatico e la business intelligence.

Secondo gli ultimi dati della società di ricerca ITC, il volume di dati non strutturati è destinato a crescere da 33 zettabyte nel 2018 a 175 zettabyte, o 175 miliardi di terabyte, entro il 2025. Ci deve essere un qualche tipo di gestione dei dati in modo che le organizzazioni abbiano il diritto tipo di dati disponibili al momento giusto. Krishna Subramanian, presidente e COO di Komprise, un fornitore di software per la gestione dei dati, ha incontrato VentureBeat per discutere dei vantaggi e delle sfide aziendali associati ai dati non strutturati.

Venturebeat: l'organizzazione IT aziendale media sa quanti dati non strutturati dispone e quanto velocemente sta crescendo?

Krishna Subramaniano: Intuitivamente sanno che molto non è strutturato e sta crescendo a doppia cifra, ma non sanno esattamente quanto hanno e quanto velocemente sta crescendo. Sappiamo che l'80-90% dei dati mondiali non è strutturato.

Venturebeat: Qual è il problema con questa crescita dei dati: ora c'è un cloud storage infinito, giusto?

Subramaniano: Il grosso problema è il costo: oltre i due terzi del costo dei dati non è nello storage, ma nella sua gestione attiva. Per ogni dato, le aziende in genere conservano alcune copie di backup e una copia di replica per il ripristino di emergenza. Se pensi che i tuoi dati stiano crescendo al 30%, è più simile al 90-100% quando prendi in considerazione tutte le copie dei dati. È anche saggio considerare che il cloud storage non è necessariamente più economico. Ad esempio, la stessa AWS oggi offre oltre 16 livelli di storage di file e oggetti non strutturati. Se non metti i tuoi dati nel posto giusto e non controlli i costi di uscita, potresti finire per pagare di più che se li stessi archiviando in sede perché ogni volta che leggi i dati ti verrà addebitato un costo. La chiave qui è che oltre l'80% dei dati non è effettivamente accessibile ed è freddo. Questi dati freddi possono essere archiviati in uno storage più economico e non richiedono lo stesso livello di backup e replica. Pertanto, è necessario gestire in modo diverso i dati caldi che vengono utilizzati attivamente e i dati freddi che vengono utilizzati raramente. Tanto per fare un esempio, i ricercatori Pfizer generano tra 8 e 10 TB al giorno e stavano esaurendo lo spazio del data center. Sono stati in grado di utilizzare un prodotto di gestione dei dati per identificare i dati freddi ed eliminarli dal loro costoso storage, backup e replica spostandoli in uno storage a costi inferiori nel cloud e rimuovendoli dalla gestione attiva. La società ha finito per tagliare il 75% dei costi di archiviazione e backup dei dati, il tutto senza che gli utenti dovessero notare alcun cambiamento. Il problema della crescita dei dati è che a molte organizzazioni non piace eliminare i dati. Non sai mai quando potresti averne bisogno. E quando lo fai, vuoi essere in grado di trovarlo facilmente. E gli utenti e le applicazioni non dovrebbero dover modificare il proprio comportamento quando si spostano i dati. In passato, con l'archiviazione su nastro, ciò non era possibile, ma ora lo è con il cloud storage e con il software di gestione dei dati.

Venturebeat: Perché è importante essere strategici su come gestirlo, archiviarlo, non si tratta solo di assicurarsi di poterlo trovare per il team di BI?

Subramaniano: Oggi i dati sono un prezioso asset aziendale. Devi essere strategico con esso perché non è solo per i tuoi team di BI, ma per i team di ricerca e sviluppo e di successo dei clienti. Hanno bisogno di dati storici per costruire nuovi prodotti o per migliorare quelli che già possiedono. Questo è estremamente importante nella produzione, come nell'industria dei chip semiconduttori, ma anche in altri settori così importanti per la nostra economia, come i prodotti farmaceutici. I ricercatori COVID dipendevano dall'accesso ai dati sulla SARS durante lo sviluppo di vaccini e trattamenti. I dati spesso diventano di nuovo preziosi in seguito, e cosa succede se non sai cosa hai o non riesci a trovarlo? Abbiamo avuto clienti nel settore dei media e dell'intrattenimento e in passato, quando volevano trovare un vecchio spettacolo, avevano bisogno di accedere a un archivio di nastri. Quindi, avevano bisogno di un'etichetta di risorsa per individuare il nastro. Può essere molto difficile ed è per questo che l'archiviazione non è popolare. Le soluzioni di archiviazione live disponibili oggi rendono i dati archiviati immediatamente accessibili e suddividono i dati in modo trasparente in modo che gli utenti possano individuare facilmente i file e accedervi in ​​qualsiasi momento.

Venturebeat: come si evolveranno gli strumenti e le pratiche per aiutare i reparti IT a sfruttare meglio questi dati non strutturati per l'organizzazione/gli utenti aziendali? Cosa serve, dove sono le lacune?

Subramaniano: Hai bisogno di un modo indipendente dallo storage per esaminare i dati in tutte le tue tecnologie di storage, sia nel tuo data center che nel cloud, non solo per spostare i dati nel posto giusto, ma anche per aiutare le aziende a estrarre valore dai dati. Gartner chiama questa categoria "software di gestione dei dati" e include aziende come Cirrus Data per i dati di blocco e Komprise per i dati di file e oggetti. L'obiettivo finale è aiutare gli utenti aziendali a sfruttare i dati storici e ciò richiede la ricerca dei dati, l'analisi dei dati e l'intelligence dei dati. Queste sono aree calde in cui sta avvenendo molta innovazione. I provider cloud offrono diverse soluzioni di data warehousing e analisi dei dati che possono essere sfruttate insieme a software di gestione dei dati, come AWS Redshift e QuickSight. Ad esempio, utilizziamo la ricerca elastica distribuita nel nostro software per cercare rapidamente miliardi di file e trovare solo i dati rilevanti per un utente, come tutti i dati per un particolare progetto, ed esportare questi dati in RedShift per ulteriori analisi. Perché avere tutti questi dati se non riesci a rilevare tendenze significative, come anomalie o ransomware? Credo che abbiamo bisogno di più analisi predittiva sui dati.

Venturebeat: La sfida della gestione dei dati stimolerà un intero nuovo settore di startup nel prossimo anno o due?

Subramaniano: Decisamente. Gli analisti stanno iniziando a riconoscere il software di gestione dei dati come una nuova categoria. Oltre ai casi d'uso di cui sopra, considera tutti i nuovi tipi di società di analisi dei dati che vengono finanziate, come SnowFlake, Databricks e Apache Spark. Così tante aziende stanno venendo alla luce proprio ora per risolvere i problemi di gestione e analisi dei dati su larga scala.

Venturebeat: come stanno rispondendo i grandi fornitori di cloud a problemi e opportunità con la crescita dei dati non strutturati?

Subramaniano: Offrono tutti più servizi per archiviare i dati a prestazioni e prezzi diversi. Amazon Elastic File System (Amazon EFS) e Azure Files sono nati per soddisfare l'esigenza di archiviazione di file nel cloud. I principali CSP stanno investendo in partner in molte aree della gestione dei dati non strutturati, tra cui migrazione e analisi.

VentureBeat

La missione di VentureBeat è quella di essere una piazza cittadina digitale per i responsabili delle decisioni tecniche per acquisire conoscenze sulla tecnologia trasformativa e sulle transazioni.

Il nostro sito fornisce informazioni essenziali sulle tecnologie e sulle strategie dei dati per guidarti nella guida delle tue organizzazioni. Ti invitiamo a diventare un membro della nostra community, per accedere a:

  • informazioni aggiornate sugli argomenti di tuo interesse
  • le nostre newsletter
  • contenuti gated leader di pensiero e accesso scontato ai nostri eventi preziosi, come Trasforma 2021: Per saperne di più
  • funzioni di rete e altro

Diventare socio