No hay un único factor que determine si los datos son big data o datos tradicionales. Algunas diferencias fundamentales incluyen el valor (mencionado antes) y si puede analizarse de forma eficaz con herramientas tradicionales o heredadas. Los datos tradicionales suelen ser estructurados, como los de las bases de datos, y se analizan mediante métodos estadísticos y herramientas de consulta clásicas como SQL. El big data se mueve a gran velocidad e incluye enormes conjuntos de datos en formatos dispares, con datos estructurados, no estructurados y semiestructurados. Las herramientas tradicionales de análisis de datos no pueden procesar ni analizar la escala o la complejidad del big data; por eso, el big data requiere sistemas distribuidos y herramientas avanzadas como el aprendizaje automático (ML).
Las analíticas de datos tradicionales manejan un volumen asumible de información; por ejemplo, generar un informe de ventas al final del día a partir de una única base de datos financiera estructurada, procesándolo en lotes predecibles. En cambio, las soluciones de analíticas de big data son necesarias cuando se trabaja con un volumen masivo de datos de transmisión, como una aplicación global de transporte compartido que monitoriza millones de vehículos. En una situación así, por ejemplo, los datos deben ingerirse y procesarse con gran velocidad (en milisegundos) para calcular la hora estimada de llegada en tiempo real y aplicar precios dinámicos.
En este caso, el big data también debe gestionar una enorme variedad, al integrar coordenadas GPS estructuradas con texto e imágenes no estructurados procedentes de los comentarios de los conductores. Se necesitan técnicas avanzadas para gestionar la veracidad (la fiabilidad de los datos) y asegurar que se extrae el valor empresarial final, una complejidad para la que los sistemas tradicionales sencillamente no están diseñados.