Capire quando utilizzare un database, un data lake o un data warehouse

0
6

Unisciti a Transform 2021 dal 12 al 16 luglio. Registrati per l'evento AI dell'anno.

La parte "dati" dei termini "data lake", "data warehouse" e "database" è abbastanza facile da capire. I dati sono ovunque e i bit devono essere conservati da qualche parte. Ma dovrebbero essere archiviati in un data warehouse, un data lake o un database vecchio stile? Tutto dipende da come verranno utilizzati i dati.

È difficile definire i nomi precisamente perché vengono scambiati in modo colloquiale dagli sviluppatori mentre scoprono il modo migliore per archiviare i dati e rispondere alle domande al riguardo. Tutte e tre le forme condividono l'obiettivo di essere in grado di eliminare i pezzi in modo che le domande giuste ricevano rapidamente una risposta.

Tuttavia, i termini si sono evoluti e hanno assunto significati relativamente standard.

Cos'è un database?

Il database ora indica sia il software che memorizza e gestisce le informazioni, sia le informazioni memorizzate all'interno del database. Gli sviluppatori usano la parola database con una certa precisione per indicare una raccolta di dati, perché il software deve sapere che gli ordini vengono conservati su una macchina e gli indirizzi su un'altra.

Gli utenti sanno raramente dove vengono conservati i valori e possono semplicemente chiamare l'intero sistema il database. E va bene: la maggior parte dello sviluppo del software consiste nel nascondere quel livello di dettaglio. Tra i database, il database relazionale è diventato un cavallo di battaglia per gran parte dei computer aziendali. Il formato classico dispone i dati in colonne e righe che formano tabelle e le tabelle vengono semplificate suddividendo i dati in tutte le tabelle e sotto-tabelle necessarie. Buoni database relazionali aggiungono indici per velocizzare la ricerca nelle tabelle. Possono utilizzare SQL e utilizzare una pianificazione sofisticata per semplificare gli elementi ripetuti e produrre report concisi il più rapidamente possibile.

Ultimamente, i tipi di database non relazionali hanno guadagnato terreno. Questi cosiddetti database NoSQL non memorizzano i dati in tabelle relazionali. Sono spesso scelti quando gli sviluppatori desiderano la flessibilità di aggiungere nuovi campi o elementi per alcune voci ma non per altre.

Ma ci sono casi d'uso in cui il database non è sufficiente.

Cos'è un data warehouse?

Il data warehouse è una raccolta di database, sebbene alcuni possano utilizzare formati meno strutturati per i file di registro non elaborati. L'idea di un data warehouse si è evoluta come conseguenza delle aziende che stabiliscono l'archiviazione a lungo termine delle informazioni che si accumulano ogni giorno e per soddisfare la necessità di creare report e analizzare tali dati.

La creazione di un data warehouse non è solo la scelta di un database e una struttura per le tabelle, poiché richiede la creazione di criteri di conservazione. I data warehouse spesso includono analisi sofisticate per generare statistiche per studiare i cambiamenti nel tempo. I data warehouse sono spesso strettamente integrati con routine grafiche che producono dashboard e infografiche per mostrare rapidamente le modifiche nei dati.

In generale, il termine data warehouse è arrivato a descrivere un sistema relativamente sofisticato e unificato che spesso impone un certo ordine alle informazioni prima di memorizzarle.

Cos'è un data lake?

Un data lake adotta un approccio diverso per creare storage a lungo termine da un data warehouse. Nella moderna elaborazione dei dati, un data lake archivia più dati grezzi per la modellazione e l'analisi future, mentre un data warehouse in genere applica uno schema relazionale alle informazioni prima che vengano archiviate. Il data lake potrebbe non utilizzare nemmeno i database per archiviare le informazioni perché l'elaborazione aggiuntiva richiesta non ne vale la pena. I dati vengono archiviati in file flat o log.

I laghi sono scelte migliori per archiviare grandi quantità di record nel caso in cui qualcuno desideri accedervi alcuni o molti di essi in futuro. La conformità alle normative è un caso d'uso comune.

Alcuni usano entrambe le metafore per lo stesso sistema. I dati grezzi in entrata vengono archiviati nel data lake e, dopo alcune analisi e aggregazioni, le informazioni spesso trovano casa nel data warehouse.

Quali sono alcuni esempi?

Database, magazzini e laghi assumono molte forme perché le aziende hanno molte esigenze diverse per la conservazione dei registri storici. Le scelte che un'azienda fa per conservare questi record influiscono sull'architettura e sulla struttura. Di seguito sono riportati alcuni esempi ipotetici:

  • Una compagnia di drop shipping. Vendono gadget online e affidano l'adempimento ad altri. Usano un database di base per tenere traccia degli ordini e spesso scartano i record non molto tempo dopo che gli ordini sono stati consegnati. I loro prodotti cambiano frequentemente e quindi sentono di non aver bisogno di dati storici.
  • Uno studio medico. L'industria medica ha regolamenti elaborati per proteggere la privacy dei pazienti. Usano un servizio speciale per archiviare i record dei pazienti che possono offrire il recupero a lungo termine per le domande che potrebbero arrivare anni dopo. Il servizio si comporta come un lago perché il medico ei pazienti non sono coinvolti in alcuna ricerca che potrebbe comportare il confronto e il contrasto dei risultati del trattamento. Il servizio può semplicemente archiviare e recuperare, non analizzare.
  • Una società di produzione. L'azienda ha una posizione dominante in un settore stabile che richiede loro di prendere decisioni intelligenti sulle tendenze a lungo termine delle vendite e dei prezzi. Devono confrontare le vendite per regione nel tempo per prendere impegni per l'apertura e la ristrutturazione di impianti e magazzini fisici. La gestione di questa supply chain è molto più semplice con un sofisticato data warehouse in grado di eseguire query complesse.
  • Un gruppo di sicurezza di rete. I router e gli switch raccolgono molti dati grezzi sui pacchetti che viaggiano attraverso la rete nel caso in cui qualcuno volesse analizzare eventuali anomalie. Questi valori non elaborati vengono archiviati in un big data lake per diverse settimane fino a quando non sono più necessari. Se non si verificano eventi insoliti, i dati vengono eliminati senza essere analizzati.
  • Una società di ricerca sul farmaco. L'azienda raccoglie dati grezzi sulle sperimentazioni sui farmaci e compila anche rapporti aggregati per la regolamentazione. L'azienda vuole conservare i dati, forse a tempo indeterminato, per aiutare i futuri ricercatori e soddisfare qualsiasi domanda delle autorità di regolamentazione. Utilizza un data lake per raccogliere le informazioni non elaborate iniziali e un magazzino per archiviare report aggregati.

Cosa stanno facendo le aziende legacy in questo spazio

Ci sono due temi principali. Alcune delle aziende che realizzano database tradizionali stanno aggiungendo funzionalità per supportare l'analisi e trasformando il prodotto completo in un data warehouse. Allo stesso tempo, stanno sviluppando un ampio spazio di archiviazione cloud con funzionalità simili per supportare le aziende che desiderano esternalizzare il proprio spazio di archiviazione a lungo termine su un cloud.

Azure di Microsoft ha migrato il lavoro del data warehouse per vivere sotto l'ombrello chiamato "Synapse Analytics". Integra l'archiviazione cloud di Microsoft con le diverse routine che possono includere parte dell'intelligenza artificiale. Lo strumento è progettato per scalare per gestire petabyte di dati utilizzando tecnologie come Apache Spark sviluppate per trasformare, analizzare ed eseguire query su set di big data. Microsoft evidenzia anche il fatto che la fatturazione è separata per l'archiviazione e il calcolo in modo che gli utenti possano risparmiare denaro quando possono disattivare le istanze dedicate all'analisi.

Microsoft raggruppa anche alcune delle stesse opzioni di archiviazione e analisi sotto il titolo di un data lake. Include sia opzioni basate su SQL sia l'archiviazione di oggetti più generale e il suo materiale di marketing afferma che è destinato a "dati di qualsiasi dimensione, forma e velocità".

Oracle offre anche un Autonomous Data Warehouse per cloud e on-premise che integra il suo Autonomous Database con una serie di strumenti con routine analitiche avanzate. Il servizio nasconde tutto il lavoro per l'applicazione di patch, il ridimensionamento e la protezione dei dati. Offre anche alcune delle funzionalità di un data lake, inclusi i classici strumenti Big Data come Apache Spark, sotto il nome del prodotto "Big Data".

Gli utenti di Db2 di IBM possono anche scegliere i servizi cloud di IBM per creare un data warehouse. Il suo strumento, disponibile anche come contenitore Docker per l'hosting locale, raggruppa routine analitiche di machine learning, statistiche ed elaborazione parallela con alcuni strumenti di migrazione per l'integrazione di origini dati.

Cosa stanno facendo i nuovi arrivati ​​in questo spazio

Molti dei data warehouse e dei data lake sono costruiti in sede da team di sviluppo interni che utilizzano i database esistenti di un'azienda per creare un'infrastruttura personalizzata per rispondere a query più grandi e complesse. Uniscono le fonti di dati e aggiungono applicazioni che risponderanno alle domande più importanti. In generale, il magazzino o il lago è progettato per creare un solido record storico per l'analisi a lungo termine.

Le società cloud offrono due diverse soluzioni. In primo luogo, vogliono aiutare a memorizzare i dati. Amazon, ad esempio, offre una vasta gamma di soluzioni di archiviazione a prezzi diversi in cui la velocità può essere scambiata per risparmiare. Alcuni livelli hanno un prezzo inferiore a $ 1 per terabyte al mese solo per l'archiviazione, ma possono essere applicati costi aggiuntivi per il recupero. Alcuni dei livelli più lenti, chiamati Glacier, possono anche utilizzare un sottoinsieme di base di SQL per trovare determinati elementi di dati, una funzionalità utile che trasforma l'archiviazione a lungo termine in una sorta di database. Amazon offre anche una vasta gamma di strumenti analitici come il data warehouse su cloud RedShift, che funziona con tutte le sue opzioni di archiviazione.

In secondo luogo, le società cloud stanno anche integrando i loro strumenti di analisi con lo storage per trasformare i loro rack in data warehouse o data lake. Il database BigQuery di Google, ad esempio, è anche integrato con alcuni degli strumenti di machine learning di Google per consentire di esplorare l'uso dell'intelligenza artificiale con i dati già archiviati sui suoi dischi.

Alcuni dei nuovi arrivati ​​stanno offrendo alcuni servizi e non altri. Backblaze, ad esempio, memorizzerà i dati a prezzi stracciati che possono essere del 60%, 70% o inferiori rispetto ai principali cloud. La sua API è progettata per funzionare proprio come S3 di Amazon per semplificare il passaggio.

Altri sono progettati per funzionare con qualsiasi origine dati. Teradata e Snowflake, ad esempio, sono due società che offrono strumenti sofisticati per l'aggiunta di analisi ai dati. Sottolineano una strategia multi-cloud in modo che gli utenti possano costruire il loro magazzino con molte opzioni di archiviazione.

Cosa non può fare un database

C'è qualcosa che un database non può fare che un data warehouse o un data lake può fare?

I termini non sono nitidi e coerenti, ma generalmente i database hanno dimensioni più limitate. I data warehouse e i data lake fanno riferimento a raccolte di database che potrebbero essere in un unico prodotto unificato, ma spesso possono essere una raccolta creata da commercianti diversi. Le metafore sono abbastanza flessibili da supportare molti approcci diversi.

Questo articolo fa parte di una serie sulle tendenze della tecnologia dei database aziendali.

VentureBeat

La missione di VentureBeat è quella di essere una piazza cittadina digitale per i responsabili delle decisioni tecniche per acquisire conoscenze sulla tecnologia trasformativa e sulle transazioni.

Il nostro sito fornisce informazioni essenziali sulle tecnologie dei dati e sulle strategie per guidarti mentre guidi le tue organizzazioni. Ti invitiamo a diventare un membro della nostra community, per accedere a:

  • informazioni aggiornate sugli argomenti di tuo interesse
  • le nostre newsletter
  • contenuti gated leader di pensiero e accesso scontato ai nostri eventi pregiati, come Trasforma il 2021: Per saperne di più
  • funzionalità di rete e altro ancora

Diventare socio