Aquarela

Aquarela Analytics branco

7 características importantes para diferenciar BI, Data Mining e Big Data

Uma das perguntas mais frequentes que recebemos na Aquarela está relacionada aos conceitos BI, Data Mining e Big Data. Uma vez que os três estão ligados à análise de dados, não é estranho que haja confusões.

O objetivo deste post é apresentar de maneira sucinta quais são as características mais marcantes de cada uma das soluções, ajudando o leitor a definir sua estratégia de informação (leia aqui sobre os dramas na implementação da cultura de Data Analytics). Apesar das dores por falta de informação serem parecidas, cada caso é um caso.

O Básico

Inicialmente o ciclo de análise de dados segue, de maneira geral, os seguintes passos:

  1. Levantamento de perguntas: O que a empresa quer saber (descobrir) do seu negócio. Por exemplo, quantos clientes atendemos por mês? Qual o valor médio do produto? Qual o produto que mais vende?
  2. Estudo das fontes de dados: Quais dados estão disponíveis interna/externamente para responder as perguntas de negócio. Ex. Onde estão os dados? Como consigo processá-los?
  3. Definição do tamanho do projeto: Quem serão todos os envolvidos no projeto? Qual o será o tamanho da análise, quais serão as ferramentas utilizadas e os custos do projeto.
  4. Desenvolvimento: Operacionalização da estratégia, realizando o processamento dos dados assim como várias interações de validação com os envolvidos do projeto, sobretudo o cliente final, para saber se as perguntas de negócio estão sendo respondidas e realmente ajudando.

Veja mais sobre os passos para um projeto de analytics de sucesso aqui.

Até esse momento o BI, Data Mining e Big Data são muito parecidos. Na tabela abaixo fizemos um resumo que ajuda a delinear as diferenças:

BI, Data Mining e Big Data

CaracteristicasBI (Business Intelligence)Data MiningBig Data
Virtude da soluçãoVolumetria – Monitorar o desempenho dos indicadores das operaçõesMetodologia científica e algoritmos. Descobrir padrões de comportamento de dados. Detecção de pontos cegos da gestão. Análise estatística intensa e pontual.Data mining em grande escala. Geração de conhecimento de gestão, apoiado por inteligência e capacidade computacional. Análise estatística intensa e contínua
Tipos de dadosDados estruturados em planilhas, banco de dados relacionais e dimensionais, etc.Dados estruturados em planilhas, banco de dados relacionais e dimensionais, etc.Dados estruturados, semiestruturados e não estruturados em bancos de dados NoSQL ou TripleStores
Estilo de análiseReflete apenas o passado dos dados em pequena ou grande escala. Não há inteligência no sistema, sendo necessário profissionais da gestão para interpretar as informações e tomada de decisão.Permite fazer a predição e descoberta de fatores relevantes ao negócio em pequena escala usando inteligência computacional. Necessita de profissionais da gestão trabalhando em colaboração com cientistas da informação.Permite fazer a predição e descoberta de fatores relevantes ao negócio em grande escala usando inteligência computacional. Necessita de profissionais da gestão trabalhando em colaboração com cientistas da informação.
Resultados EsperadosDiversas visualizações de gráficos consolidadas em painéis de controle conhecidos como dashboardsRelatório de recomendaçãoPainéis de controle com indicadores preditivos e recomendações estratégicas.
FocoMonitorar indicadores tais como preço, valor, temperatura, custo total, etc.Identificar padrões de comportamento dos dados, criando novos indicadores de análise para o BIExtração do conhecimento de grandes massas de dados com fontes e tipos variados
ComercializaçãoCusto de implementação, integração do sistema e mensalidade por usuárioValor do projeto, envolvendo o custo da produção do relatórioCusto de implantação, integração do sistema e/ou comissionamento sobre o resultado do faturamento.
Volume de dadosAlto, porém limitado ao processamento dos bancos de dados relacionais/dimensionaisBaixo, trabalho por amostragem (pequenas parcelas) de dados com alto custo de procesamentoAlto, com estruturas distribuídas e grande demanda de procesamento.

Conclusões e recomendações

Apesar da análise se restringir a apenas 7 características, os resultados mostram que existem diferenças importantes entre BI, Data Mining e Big Data. Abaixo seguem algumas conclusões de nossa análise e experiência:

  • Empresas que possuem uma solução de BI já consolidada tem mais maturidade para embarcar em projetos extensivos de Data mining e Advanced Analytics. Ex: descobertas feitas pelo Data Mining ou Advanced Analytics podem ser rapidamente testadas e monitoradas pelo BI. Ou seja, os elementos podem e devem coexistir para realmente trazer valor ao negócio na forma de otimização de recursos, aumento de vendas e assim por diante.
  • O Big Data só faz sentido em grandes volumes de dados e a melhor opção para o seu negócio depende de quais perguntas estão sendo feitas e quais os dados disponíveis. Todas as soluções são dependentes do dado de entrada. Consequentemente se a qualidade das fontes de informação forem ruins, há grande chance de que a reposta seja ruim como frisa a expressão em inglês “garbage in, garbage out” Lixo entra, lixo saí.
  • Enquanto os painéis do BI podem ajudar a fazer sentido  de seus dados de maneira bastante visual e facilitada, não é possível fazer análises muito ricas com ele. Para isso é necessário soluções mais complexas, capazes de enriquecer a sua percepção da realidade do negócio, ajudando a encontrar correlações, novos segmentos de mercado (classificação, predição),  fazer previsões, controlar variáveis e seus efeitos em com relação as diversas outras por meio da análises multivariadas.
  • O BI é fortemente dependente de dados estruturados que são os mais utilizados atualmente, porém a tendência é de crescimento em dados não estruturados. Também, não demanda profissionais especialistas em estatística e ou engenharia do conhecimento.
  • O Big Data estende a possibilidade de análise sobre não estruturados. Ex: posts de redes sociais, imagens, vídeos, músicas e etc. Porém o grau de complexidade e exigência de conhecimento do operador é maior, bem como o alinhamento com os profissionais da gestão.
  • Para evitar frustrações é importante levar em consideração as diferenças nas virtudes (proposta de valor) e resultados de cada solução. Por exemplo, não esperar por descoberta de padrões e insights de negócio da própria ferramenta de BI, este é o papel do operador do BI.
  • O Big Data pode ser considerado em parte, a junção do BI e Data Mining. O BI com seus dados estruturados em conjunção com a gama de algoritmos e técnicas do Data Mining empoderado pelas novas tecnologias de grande processamento, armazenamento e memória; tudo processado de forma paralela e distribuída sobre uma gama gigantesca de fontes de informação heterogêneas.
  • Podemos observar que os resultados dos três geram inteligência para o negócio, da mesma forma como o bom uso de uma simples planilha também pode gerar inteligência, mas é importante avaliar se isso é suficiente para atender as ambições ou dilemas do seu negócio.
  • Vemos que o potencial do Big Data ainda não está sendo plenamente reconhecido, porém as empresas mais avançadas em termos de tecnologia, hoje, o têm como ponto chave de suas estratégias oferecendo gratuitamente seus serviços para alimentar suas bases com dados estruturados e não estruturados. Ex. Gmail, Facebook, Twitter e OLX.
  • A tendência é que o crescimento do volume dos dados e sua variedade continue cada vez de forma menos estruturada como já escrevemos no post Dos dados ao Analytics.

A Aquarela criou uma metodologia, chamada DCIM – Data Culture Introduction Metodology – que estabelece 5 níveis de maturidade e mecanismo de análise situacional, leia aqui sobre.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial Corporativa na indústria e em grandes empresas. Por meio da plataforma Vorteris, da metodologia DCM e o Canvas Analítico (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania, Mercedes-Benz, Grupo Randon (automotivo), SolarBR Coca-Cola (varejo alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Auren, SPIC Brasil (energia), Telefônica Vivo (telecomunicações), dentre outros.

Acompanhe os novos conteúdos da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autores

3 Comments

  1. Alderico disse:

    Excelente matéria!

  2. Kleyn Guerreiro disse:

    Excelente resumo! Eu complementaria o post distinguindo Data Mining de Machine learning.
    Data mining é a procura de insights, que são respostas a perguntas que não fizemos, em dados que são pouco conhecidos, daí cavar e minerar à procura do que não se sabe de antemão. Para tal usamos em geral basket analysis, regras de associação e eventualmente segmentação (clustering).
    Já machine learning se aplica a dados totalmente conhecidos, que etiquetamos (label) para treinar os modelos e assim estes possam aprender o que sabemos, para “etiquetar” novos dados via decision trees, classificações ou regressões para responder nossas perguntas.
    [ ]’s

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Send this to a friend