Não existe um único fator que determine se algo é um big data ou um dado tradicional. Algumas das diferenças fundamentais incluem o valor, como mencionado acima, e se ele pode ser analisado de forma eficaz por ferramentas tradicionais ou antigas. Os dados tradicionais são estruturados, como em bancos de dados, e dependem de métodos estatísticos e ferramentas de consulta tradicionais, como SQL, para serem analisados. Big data são rápidos e incluem grandes conjuntos de dados em diferentes formatos, incluindo dados estruturados, não estruturados e semiestruturados. As ferramentas tradicionais de análise de dados não conseguem processar ou analisar a escala ou a complexidade de big data. Por isso, eles requerem sistemas distribuídos e ferramentas avançadas, como aprendizado de máquina, para análise.
A análise de dados tradicional lida com um volume de informações gerenciável, como a execução de um relatório de vendas no final do dia a partir de um único banco de dados financeiro estruturado, processando-o em lotes previsíveis. Por outro lado, as soluções de análise de big data são necessárias quando se lida com um imenso volume de dados de streaming, como um app global de transporte de passageiros que monitora milhões de veículos. Nessa situação, por exemplo, os dados precisam ser ingeridos e processados em alta velocidade (milissegundos) para calcular em tempo real os tempos estimados de chegada e preços dinâmicos.
Neste cenário, o big data precisa gerenciar uma imensa variedade de dados, integrando informações estruturadas (coordenadas de GPS) com dados não estruturados (feedbacks de motoristas em texto e imagens). Técnicas sofisticadas são necessárias para gerenciar a veracidade (confiabilidade) e garantir que o valor comercial final seja extraído, um desafio para o qual os sistemas tradicionais simplesmente não foram projetados para lidar.