Uma das perguntas mais frequentes que recebemos na Aquarela está relacionada aos conceitos BI, Data Mining e Big Data. Uma vez que os três estão ligados à análise de dados, não é estranho que haja confusões.
O objetivo deste post é apresentar de maneira sucinta quais são as características mais marcantes de cada uma das soluções, ajudando o leitor a definir sua estratégia de informação (leia aqui sobre os dramas na implementação da cultura de Data Analytics). Apesar das dores por falta de informação serem parecidas, cada caso é um caso.
O Básico
Inicialmente o ciclo de análise de dados segue, de maneira geral, os seguintes passos:
- Levantamento de perguntas: O que a empresa quer saber (descobrir) do seu negócio. Por exemplo, quantos clientes atendemos por mês? Qual o valor médio do produto? Qual o produto que mais vende?
- Estudo das fontes de dados: Quais dados estão disponíveis interna/externamente para responder as perguntas de negócio. Ex. Onde estão os dados? Como consigo processá-los?
- Definição do tamanho do projeto: Quem serão todos os envolvidos no projeto? Qual o será o tamanho da análise, quais serão as ferramentas utilizadas e os custos do projeto.
- Desenvolvimento: Operacionalização da estratégia, realizando o processamento dos dados assim como várias interações de validação com os envolvidos do projeto, sobretudo o cliente final, para saber se as perguntas de negócio estão sendo respondidas e realmente ajudando.
Veja mais sobre os passos para um projeto de analytics de sucesso aqui.
Até esse momento o BI, Data Mining e Big Data são muito parecidos. Na tabela abaixo fizemos um resumo que ajuda a delinear as diferenças:
BI, Data Mining e Big Data
Caracteristicas | BI (Business Intelligence) | Data Mining | Big Data |
Virtude da solução | Volumetria – Monitorar o desempenho dos indicadores das operações | Metodologia científica e algoritmos. Descobrir padrões de comportamento de dados. Detecção de pontos cegos da gestão. Análise estatística intensa e pontual. | Data mining em grande escala. Geração de conhecimento de gestão, apoiado por inteligência e capacidade computacional. Análise estatística intensa e contínua |
Tipos de dados | Dados estruturados em planilhas, banco de dados relacionais e dimensionais, etc. | Dados estruturados em planilhas, banco de dados relacionais e dimensionais, etc. | Dados estruturados, semiestruturados e não estruturados em bancos de dados NoSQL ou TripleStores |
Estilo de análise | Reflete apenas o passado dos dados em pequena ou grande escala. Não há inteligência no sistema, sendo necessário profissionais da gestão para interpretar as informações e tomada de decisão. | Permite fazer a predição e descoberta de fatores relevantes ao negócio em pequena escala usando inteligência computacional. Necessita de profissionais da gestão trabalhando em colaboração com cientistas da informação. | Permite fazer a predição e descoberta de fatores relevantes ao negócio em grande escala usando inteligência computacional. Necessita de profissionais da gestão trabalhando em colaboração com cientistas da informação. |
Resultados Esperados | Diversas visualizações de gráficos consolidadas em painéis de controle conhecidos como dashboards | Relatório de recomendação | Painéis de controle com indicadores preditivos e recomendações estratégicas. |
Foco | Monitorar indicadores tais como preço, valor, temperatura, custo total, etc. | Identificar padrões de comportamento dos dados, criando novos indicadores de análise para o BI | Extração do conhecimento de grandes massas de dados com fontes e tipos variados |
Comercialização | Custo de implementação, integração do sistema e mensalidade por usuário | Valor do projeto, envolvendo o custo da produção do relatório | Custo de implantação, integração do sistema e/ou comissionamento sobre o resultado do faturamento. |
Volume de dados | Alto, porém limitado ao processamento dos bancos de dados relacionais/dimensionais | Baixo, trabalho por amostragem (pequenas parcelas) de dados com alto custo de procesamento | Alto, com estruturas distribuídas e grande demanda de procesamento. |
Conclusões e recomendações
Apesar da análise se restringir a apenas 7 características, os resultados mostram que existem diferenças importantes entre BI, Data Mining e Big Data. Abaixo seguem algumas conclusões de nossa análise e experiência:
- Empresas que possuem uma solução de BI já consolidada tem mais maturidade para embarcar em projetos extensivos de Data mining e Advanced Analytics. Ex: descobertas feitas pelo Data Mining ou Advanced Analytics podem ser rapidamente testadas e monitoradas pelo BI. Ou seja, os elementos podem e devem coexistir para realmente trazer valor ao negócio na forma de otimização de recursos, aumento de vendas e assim por diante.
- O Big Data só faz sentido em grandes volumes de dados e a melhor opção para o seu negócio depende de quais perguntas estão sendo feitas e quais os dados disponíveis. Todas as soluções são dependentes do dado de entrada. Consequentemente se a qualidade das fontes de informação forem ruins, há grande chance de que a reposta seja ruim como frisa a expressão em inglês “garbage in, garbage out” Lixo entra, lixo saí.
- Enquanto os painéis do BI podem ajudar a fazer sentido de seus dados de maneira bastante visual e facilitada, não é possível fazer análises muito ricas com ele. Para isso é necessário soluções mais complexas, capazes de enriquecer a sua percepção da realidade do negócio, ajudando a encontrar correlações, novos segmentos de mercado (classificação, predição), fazer previsões, controlar variáveis e seus efeitos em com relação as diversas outras por meio da análises multivariadas.
- O BI é fortemente dependente de dados estruturados que são os mais utilizados atualmente, porém a tendência é de crescimento em dados não estruturados. Também, não demanda profissionais especialistas em estatística e ou engenharia do conhecimento.
- O Big Data estende a possibilidade de análise sobre não estruturados. Ex: posts de redes sociais, imagens, vídeos, músicas e etc. Porém o grau de complexidade e exigência de conhecimento do operador é maior, bem como o alinhamento com os profissionais da gestão.
- Para evitar frustrações é importante levar em consideração as diferenças nas virtudes (proposta de valor) e resultados de cada solução. Por exemplo, não esperar por descoberta de padrões e insights de negócio da própria ferramenta de BI, este é o papel do operador do BI.
- O Big Data pode ser considerado em parte, a junção do BI e Data Mining. O BI com seus dados estruturados em conjunção com a gama de algoritmos e técnicas do Data Mining empoderado pelas novas tecnologias de grande processamento, armazenamento e memória; tudo processado de forma paralela e distribuída sobre uma gama gigantesca de fontes de informação heterogêneas.
- Podemos observar que os resultados dos três geram inteligência para o negócio, da mesma forma como o bom uso de uma simples planilha também pode gerar inteligência, mas é importante avaliar se isso é suficiente para atender as ambições ou dilemas do seu negócio.
- Vemos que o potencial do Big Data ainda não está sendo plenamente reconhecido, porém as empresas mais avançadas em termos de tecnologia, hoje, o têm como ponto chave de suas estratégias oferecendo gratuitamente seus serviços para alimentar suas bases com dados estruturados e não estruturados. Ex. Gmail, Facebook, Twitter e OLX.
- A tendência é que o crescimento do volume dos dados e sua variedade continue cada vez de forma menos estruturada como já escrevemos no post Dos dados ao Analytics.
A Aquarela criou uma metodologia, chamada DCIM – Data Culture Introduction Metodology – que estabelece 5 níveis de maturidade e mecanismo de análise situacional, leia aqui sobre.
Quem é a Aquarela Analytics?
A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial Corporativa na indústria e em grandes empresas. Por meio da plataforma Vorteris, da metodologia DCM e o Canvas Analítico (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania, Mercedes-Benz, Grupo Randon (automotivo), SolarBR Coca-Cola (varejo alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Auren, SPIC Brasil (energia), Telefônica Vivo (telecomunicações), dentre outros.
Acompanhe os novos conteúdos da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!
Autores
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
3 Comments
Excelente matéria!
Excelente resumo! Eu complementaria o post distinguindo Data Mining de Machine learning.
Data mining é a procura de insights, que são respostas a perguntas que não fizemos, em dados que são pouco conhecidos, daí cavar e minerar à procura do que não se sabe de antemão. Para tal usamos em geral basket analysis, regras de associação e eventualmente segmentação (clustering).
Já machine learning se aplica a dados totalmente conhecidos, que etiquetamos (label) para treinar os modelos e assim estes possam aprender o que sabemos, para “etiquetar” novos dados via decision trees, classificações ou regressões para responder nossas perguntas.
[ ]’s
[…] https://aquare.la/pt/artigos/2015/04/27/7-caracteristicas-importantes-para-diferenciar-bi-data-minin… […]