Data mining ou mineração de dados é a prática de examinar dados que já foram coletados por meio da utilização de diversos tipos de algoritmos. Normalmente, isso acontece de forma automática a fim de gerar novas informações e encontrar padrões. Veja em mais detalhes neste artigo o que é data mining, e como a mineração de dados se coloca diante de temas mais recentes como o Advanced Analytics e a Indústria 4.0.
Na prática, como funciona a mineração de dados?
Minerar dados é um processo de transformar dados em informações úteis (dados mais valiosos a partir de dados complexos). Então, para atingir esse objetivo, realizam-se alguns passos, como: encontrar padrões, associações e anomalias gerais nos dados.
É importante ressaltar que em data mining não importa a forma de coleta dos dados, se via banco de dados, web scraping, API`s, por exemplo.
Data mining: seu surgimento e a economia da informação
O data mining surgiu com a emersão da economia da informação, que por sua vez representa a informação sendo utilizada como mercadoria e como bem de produção.
Uma das primeiras aparições do termo “economia da informação” no mundo científico foi em 1986, com Bruce Greenwald e com o ganhador do Nobel de economia, Joseph Stiglitz. Nesse contexto, os acadêmicos argumentam que as pessoas não possuem acesso a todas informações disponíveis, tornando assim os mercados imperfeitos.
Esse foi, na época, um argumento distante da premissa econômica até então dominante que afirmava que a mesma informação era acessível a todos. Sendo assim, a informação passou a ser vista como um diferencial, como uma forma de extrair insights para melhorar as decisões gerenciais no âmbito corporativo.
Na economia da informação, praticamente todas as transações e operações realizadas por pessoas e empresas no dia a dia geram algum tipo de dados. Data mining entra nesse contexto com a aplicação de equações matemáticas e métodos estatísticos. Eles vão desde o uso de uma regressão logística até redes neurais, deep learning, análise de clustering (agrupamentos) e classificações automáticas.
Uma das primeiras soluções focadas em data mining, para fins de exemplificação, foi o software Weka. O Weka, criado em 1993 e mantido até os dias atuais, é uma rica coleção de algoritmos de machine learning e data mining. O propósito do software em sua concepção foi permitir que o usuário não precisasse conhecer linguagens de programação para fazer o pré-processamento dos dados (organizá-los) e assim aplicar diversos algoritmos prontos em seus próprios dados.
Data mining na Indústria 4.0
Mais do que a economia da informação, hoje vivemos em uma transição econômica como um todo para a indústria 4.0.
A Indústria 4.0 caracteriza-se por serviços concebidos e produzidos de forma descentralizada, com forte apoio de Advanced Analytics, Inteligência Artificial (a máquina com capacidade de aprender) e Inteligência Coletiva (as pessoas, coletivamente, cooperando para que as máquinas aprendam). Esse processo teve seu início com o boom da internet no começo dos anos 2000.
Leia mais sobre Indústria 4.0.
Na Indústria 4.0, os smartphones, por exemplo, permitem tanto a Inteligência Artificial quanto a Inteligência Coletiva fazerem parte das decisões do dia a dia das pessoas. Assim, gera-se uma imensidão de dados, e cada vez em maior quantidade.
Nesse contexto, a mineração de dados é a base para uma integração com métodos mais avançados, que envolvem desde as ferramentas mais básicas, como regressões e árvores de decisão, até modelagens mais complexas com elevado nível de otimização de análise, utilizando também métodos de aprendizagem de máquina, big data, entre outros. Nesses casos, o propósito costuma ser análises preditivas e prescritivas, que conduzem os indivíduos a tomarem suas decisões de forma mais rápida, automatizada e otimizada.
Como aplicar data mining em um ambiente de negócio?
Na mineração de dados, o que gera valor de fato é o conjunto de ações que são tomadas a partir dos processamentos dos dados. Por isso, é preciso saber onde aplicar as técnicas e quais ferramentas de mineração são mais adequadas para cada caso, dando vida a um novo perfil de profissionais chamada Cientista de Dados
Então, onde se aplica data mining? Sempre que existirem processos definidos têm-se dados. Usa-se a mineração de dados no momento em que esgotam-se as alternativas iniciais de análise, como análises a “olho nu”, com planilhas de dinâmicas ou ainda com o uso de estatística descritiva, entre outros.
Veja a seguir uma lista de exemplos práticos da aplicação da mineração de dados em ambientes de negócio, que conduzem a melhorias das decisões gerenciais e estratégicas:
1. Dados gerados internamente nas organizações
Dados transacionais ou extraídos de sistemas em geral da organização podem ser tratados e minerados. Por exemplo: dados de CRM, ERP, softwares de marketing digital, plataformas de monitoramento de websites (como o Google Analytics), e-commerce, supply-chain, dados de logística, entre outras inúmeras áreas de negócios.
2. Dados sociais
Dados que estão sempre crescendo e descrevem pessoas: quem são, onde estão, que serviços e produtos estão usando. Usar esses dados para fins de negócios é a maneira como a economia da informação funciona. Isso é um dos grandes motores no advento da indústria 4.0.
3. Área da saúde
A mineração de dados possui diversas aplicações na área da saúde. Por exemplo, Aquarela, juntamente com a Prefeitura de Vitória/ES, minerou e analisou dados de faltas em agendamentos médicos. Após as análises, tomaram-se decisões estratégicas que reduziram as faltas em agendamentos de cerca de 30% para aproximadamente 15%. Assim, gerou-se uma economia milionária aos cofres públicos. Veja o case em detalhes.
4. Obras públicas
Com a tendência de transparência pública no Brasil, cada vez mais dados públicos têm sido disponibilizados gratuitamente via web. Isso viabiliza a realização de análises que podem levar à população um poder extra de monitoramento de como o dinheiro público tem sido utilizado.
Como case de exemplo, a SEFAZ/SC e a Aquarela Advanced Analytics utilizaram técnicas avançadas de análise de dados para a descoberta de padrões de obras públicas do estado de Santa Catarina, tornando-as assim acessíveis à população, em complemento ao portal da transparência do governo. Veja neste post os resultados das análises.
5. Capital de risco em empresas de base tecnológica
Diante de uma grande diversidade de startups surgindo e também de fundos de investimento em venture capital e capital de risco, técnicas de data mining podem auxiliar a encontrar as melhores startups focadas em dados de fundos de investimentos. Além disso, podem dar uma visão às startups de quais fundos de investimentos são mais propensos a se tornarem investidores.
Em mais um case, a Aquarela analisou as características de startups unicórnios (com valor de mercado superior a U$ 1 bi.), cruzando os dados com seus respectivos fundos investidores. Entre as perguntas-chave estava identificar padrões e clusters nas empresas unicórnios e comparar as variáveis das empresas com as rodadas de investimentos que receberam de fundos de capital de risco.
Leia também: IA nos negócios: 6 setores que utilizam inteligência artificial
Data mining – Considerações finais
Mineração de dados é um processo cujo fim é gerar informações a partir de dados em que são utilizadas diversas ferramentas e métodos. Ou seja, não há “receita de bolo” para trabalhar com data mining. Cada caso é único, por isso demanda profissionais com grande capacidade criativa para definição dos modelos.
Data mining é um termo antigo, levando em conta o grande dinamismo do mundo da tecnologia. Com o passar do tempo, também surgiram diversos outros termos que podem gerar confusões. Por isso, veja o artigo em que tratamos sobre as diferenças entre BI, data mining e big data.
Por fim, a forma de extrair informações estratégicas a partir dos dados representa o que é data mining. Mas, de forma mais ampla, surge o Advanced Analytics, em que a mineração de dados é parte de um processo que envolve desde o desenvolvimento da cultura de Analytics nas empresas até a construção de análises e sistemas preditivos e prescritivos com uso de IA.
Quem é a Aquarela Analytics?
A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial Corporativa na indústria e em grandes empresas. Por meio da plataforma Vorteris, da metodologia DCM e o Canvas Analítico (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania, Mercedes-Benz, Grupo Randon (automotivo), SolarBR Coca-Cola (varejo alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Auren, SPIC Brasil (energia), Telefônica Vivo (telecomunicações), dentre outros.
Acompanhe os novos conteúdos da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!
Autores
Doutor e Mestre em Finanças pela Universidade Federal de Santa Catarina – Brasil. Pesquisador em finanças / economia comportamental e mercado de capitais. Atualmente Data Scientist aplicando estratégias de aprendizado de máquina em problemas de negócios de grandes organizações no Brasil e no exterior.
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
Fundador da Aquarela, CEO e arquiteto da plataforma Vorteris. Mestre em Engenharia e Gestão do Conhecimento, entusiasta de novas tecnologias, tendo expertise em linguagem funcional Scala e em algoritmos de Machine Learning e IA.