Non esiste un singolo fattore che determini se i dati siano big data o dati tradizionali. Alcune differenze fondamentali includono il valore, come descritto sopra, e la possibilità o meno di analizzarli efficacemente con strumenti tradizionali o legacy. I dati tradizionali sono strutturati, ad esempio nei database, e vengono analizzati con metodi statistici e strumenti di interrogazione come SQL. I big data si muovono rapidamente e includono dataset vastissimi in formati diversi, tra cui dati strutturati, non strutturati e semi-strutturati. Gli strumenti tradizionali di analisi dei dati non riescono a elaborare la scala o la complessità dei big data, per questo servono sistemi distribuiti e strumenti avanzati come il machine learning.
L’analisi dei dati tradizionale gestisce volumi contenuti, ad esempio un report di fine giornata sulle vendite da un singolo database finanziario strutturato, elaborato con batch prevedibili. Al contrario, soluzioni di big data analytics sono necessarie quando si gestisce un volume enorme di dati in streaming, ad esempio un’app globale di ride-sharing che monitora milioni di veicoli. In questo scenario, i dati devono essere ingeriti ed elaborati ad alta velocità, in millisecondi, per calcolare tempi di arrivo stimati in tempo reale e pricing dinamico.
Inoltre, i big data devono gestire un’enorme varietà, integrando coordinate GPS strutturate con feedback testuali e immagini non strutturati. Servono tecniche sofisticate per gestire la veridicità (affidabilità) e garantire l’estrazione del valore di business finale, una complessità per cui i sistemi tradizionali non sono progettati.