Neste artigo vamos mostrar o que é ciência de dados, uma área que tem chamado cada vez mais atenção no mundo corporativo e universitário.
É crescente o número de empresas buscando por aplicações de data science para negócios, bem como o número de profissionais que estão migrando para a área de ciência de dados e ajudando a democratizar o uso e a aplicação da matemática e estatística.
Popularidade da área de ciência de dados
Em outubro de 2012 a Harvard Business Review publicou um artigo intitulado “Data Scientist: The Sexiest Job of the 21st Century”, o qual foi muito falado ao redor do mundo e ajudou a enfatizar a relevância da área de ciência de dados.
Se a área de data science ganhou espaço em boa parte por ser uma área “atraente” – que chama atenção pelos belos gráficos, análises feitas com algoritmos complexos e métodos modernos –, hoje em dia o campo de ciência de dados tem aumentado ainda mais o seu espaço pela possibilidade de gerar valor às organizações, entregando resultados de forma rápida e objetiva como solução de problemas complexos.
A seguir apresentamos um gráfico com dados extraídos do Google Trends, que mostra a evolução das buscas pelo termo “data science” no Brasil e no mundo, de outubro de 2012 até julho de 2018. O gráfico mostra a popularidade das buscas, sendo 100 o momento de maior popularidade, 50 média popularidade e 0 nenhuma popularidade.
O gráfico mostra que a popularidade da área de ciência de dados cresce cada vez mais, estando no seu auge. Vemos que no Brasil há um certo “delay” em relação às buscas gerais em todo o mundo. As quedas sazonais no mundo são mais marcantes em dezembro ao passo que no Brasil não há um padrão bem definido da demanda.
O que é ciência de dados?
Ciência de dados é um campo interdisciplinar de investigação de dados que resolve problemas reais de negócios, com o uso de método científico e técnicas avançadas de análise de dados, machine learning e inteligência artificial. Esta é uma área essencial para posicionar as organizações no cerne da Indústria 4.0.
Uma das características marcantes da área de ciência de dados é a conexão que ela cria entre o mundo acadêmico e o mundo de negócios. Na academia muito se aprende sobre o método científico e a estruturação de pesquisas e análises.
No mundo dos negócios, por sua vez, há um forte apelo pela rápida resolução de problemas práticos nos diversos setores das organizações.
“A ciência de dados pode resolver problemas simples e complexos, não apenas complexos. Existem problemas simples que geram grandes impactos nas operações e até nas estratégias de longo prazo.” Joni Hoppen
Com aplicações de data science é possível unir estes dois mundos, resolvendo problemas simples e complexos de forma estruturada, gerando impactos nos negócios. Estes impactos vão depender do tipo de problema que está sendo resolvido, e o fluxo de dados podendo abranger desde o nível operacional da empresa até a descoberta de novas regras de negócio (insights) para mudar decisões estratégicas de longo prazo.
Em termos de “campos de conhecimento”, a área de ciência de dados é uma intersecção entre ciência da computação, engenharias, matemática e estatística com áreas de negócio, que envolve conhecimentos de economia e administração, de forma geral.
Aplicando data science para negócios
O profissional que irá executar “data science” no dia a dia é o cientista de dados, e para aplicar data science para negócios é necessário um envolvimento tanto de áreas mais técnicas, quanto de áreas mais de negócio. A separação dos profissionais técnicos dos analistas de negócio tem se mostrado um fator crítico de sucesso desta natureza de projeto.
Na parte mais técnica, os cientistas de dados se relacionam com setores como: business intelligence (BI) / inteligência de mercado; tecnologia de informação (TI); administração de banco de dados (DBA).
Já nas áreas de negócio, os cientistas de dados irão se relacionar com profissionais que possuem domínio do negócio a respeito de cada problema específico que busca-se resolver, em outras palavras, são os profissionais que entendem as regras do jogo e jogam diariamente.
Por exemplo: se o cientista de dados irá resolver um problema de gestão de estoque, então profissionais da área de logística e até mesmo da contabilidade poderão ser alocados para fazer parte do projeto.
Neste artigo elaboramos de forma resumida 14 áreas de aplicação de ciência de dados e as recomendações necessárias para começar a estruturar análises em cada área.
Etapas para desenvolver projetos de ciência de dados com sucesso nos negócios
Para aplicar projetos de ciência de dados em negócios, é fundamental cumprir algumas etapas, as quais são descritas a seguir.
Desenvolver projetos de ciência de dados envolve muito mais do que o conhecimento de linguagens de programação, como Python e R, ou de saber como aplicar algoritmos complexos de machine learning e inteligência artificial.
Para colocar em prática projetos envolvendo ciência de dados que obtenham sucesso e agreguem valor para as empresas, é preciso ter uma metodologia, para mapear o problema a ser resolvido e definir métricas de sucesso do projeto.
Conheça a DCIM, metodologia desenvolvida pela Aquarela para implementar a cultura de Data Analytics nas organizações.
De forma geral, as seguintes etapas precisam ser cumpridas:
1. Definição de problema e métrica de sucesso
O ponto inicial para aplicar ciência de dados nas organizações é identificar qual é a dor de negócio, e qual é o indicador que realça essa dor na prática. Alguns exemplos de problemas que a já auxiliamos no processo de definição do caminho para a solução são:
- Logística: como reduzir a taxa de entregas não efetuadas? Como otimizar as rotas e as cargas enviadas?
- Marketing digital e sistemas online: como reduzir a taxa de churn de clientes?
- Manutenção industrial (Embraer): como melhorar a assertividade na troca de peças para resolver defeitos de equipamentos de alto custo
- Gestão de estoque: como reduzir o provisionamento contábil de estoques e otimizar o deslocamento do patrimônio
- Área comercial: Como aumentar o ticket médio das vendas com a recomendação de produtos? Como antecipar a compra de produtos que invariavelmente seriam comprados pelo cliente?
- Saúde: Como reduzir em 50% a taxa de faltas nos agendamentos médico? (Leia mais aqui).
- Marketing: Como inferir motivos de perda de market-share e gerar recomendações de ações por produto.
- Cobrança: Como antecipar o contato com clientes com mais probabilidade de pagamento das dívidas?
2. Definição do dataset analítico a ser utilizado
O dataset (conjunto de dados) a ser utilizado pelo cientista de dados, não é uma simples extração de uma enorme massa de dados diretamente do banco transacional pelas queries SQL. (Saiba mais sobre projetos analytics de alto nível aqui.)
O dataset analítico é construído a partir da definição do problema, e precisa conter todas as variáveis (colunas) necessárias para que o problema em questão possa ser respondido.
Este conjunto de dados normalmente é uma mescla de variadas bases de dados, tanto internas (da própria organização), quanto externas. Nas fontes de dados externas entram bases compradas de fornecedores específicos, ou até bases públicas, que têm o fim de enriquecer os dados e melhorar a assertividade dos modelos que serão aplicados.
Veja aqui em detalhes o que é e como construir um dataset analítico.
3. Transformação e higienização de dados
Umas das etapas que mais exige horas de trabalho em ciência de dados é a transformação e higienização de dados.
Este processo inclui pontos que envolvem técnicas estatísticas, como tratamento de dados faltantes e tratamento de outliers.
Outros procedimentos também são realizados nesta etapa, como: “merge” ou concatenação de colunas, enriquecimento de dados com bases externas (dados de latitude e longitude, temperatura, macroeconômicos, entre outros) e diversas outras reestruturações necessárias para que os modelos de inteligência artificial consigam trazer a resposta desejada.
4. Mineração de dados e modelagem com inteligência artificial
Um dos pontos mais importantes no processo de gerar valor para as companhias na área de ciência de dados é o processo de modelagem.
Nesta etapa diversos modelos (centenas ou milhares) são treinados com o uso de diversas técnicas de inteligência artificial.
O propósito de todas essas modelagens é encontrar as inter-relações entre as variáveis (colunas) com o uso de inteligência artificial, e gerar outputs como:
- predições: probabilidade de ocorrência de um evento dado um conjunto de características (leia mais sobre análise preditiva);
- previsões: projeções de como será o futuro de séries temporais;
- análise de perfis: identificação de personas, categorização entre indivíduos similares dentro do conjunto de dados, o que permite encontrar também grupos de outliers, os quais possuem características muito diferentes dos demais;
- criação de cenários: identificar grupos que impactam positiva ou negativamente em um target, uma variável a ser explicada.
Saiba mais sobre data mining (mineração de dados) em nosso artigo.
Ao final, os modelos escolhidos serão colocados em produção e monitorados pelos sistemas de acompanhamento, normalmente sistemas de BI ou mesmo planilhas de excel dependendo do nível de maturidade da organização. Veja aqui os 5 níveis de maturidade de dados da metodologia DCIM Aquarela.
Veja também – Resultados da pesquisa sobre a qualidade dos dados empresariais no Brasil
5. Comunicação dos resultados obtidos em linguagem de negócio
A comunicação dos resultados dos projetos de ciência de dados deve ser feita em linguagem de negócios, com foco na objetividade e na agilidade, mostrando os KPI’s que foram impactados com o projeto e qual será o retorno financeiro obtido. Além disso, se recomenda apresentar a visão de futuro dos sistemas integrados, e uma lista com as oportunidades adjacentes, descobertas durante o processo (está última parte é a que consideramos mais disruptiva para os negócios).
Conclusão – ciência de dados
Mostramos neste artigo o que é ciência de dados, uma área de grande interesse que está promovendo a democratização da matemática e estatística no mundo. Evidenciamos algumas características deste tipo de trabalho e apresentamos alguns exemplos de projetos que já realizamos em diversos setores.
Em nossa visão, a ciência de dados vai muito além das questões técnicas, pois aplicar ciência de dados na prática é saber o problema de negócio será atacado, descobrir quais dados estão disponíveis, quais indicadores existem ou precisam ser desenvolvidos.
Além disso é necessário desempenhar um papel ponderador das avaliações qualitativos e quantitativos das tecnologias que serão utilizadas na resolução do problema, utilizando boa comunicação, sensibilidade técnica e de negócios. E, ao fim, ser capaz de colocar em produção as análises e partir para o monitoramento de desempenho.
Por fim, a área de ciência de dados é um dos principais motores que está moldando as organizações na era da informação, sendo capaz de gerar conhecimento em diferentes níveis do comportamento interno e até externo das organizações. Com o ganho em poder computacional, e também na capacidade de coleta e armazenamento de dados, há uma crescente demanda por profissionais fluentes nestes processos de análise, os cientistas de dados.
“Ciência de dados vai muito além dos algoritmos!”
A tendência para o futuro é que ciência de dados passe a ser cada vez mais relevante para os negócios, não apenas por ser uma área “sexy” – como tratada pelo artigo da HBR, citado anteriormente –, mas, principalmente, por gerar valor em análises que antes eram inviáveis (mesmo as mais simples) de serem realizadas.
Veja mais conteúdos relacionados em nosso blog:
- Como estruturar projetos Analytics de alto nível – Dados Transacionais versus dados Analíticos
- O que é data mining (mineração de dados)?
- Análise descritiva, preditiva, prescritiva e cenarização: como gerar valor nos negócios
- O que é inteligência artificial (IA), tipos e suas aplicações de negócio
- 7 livros descomplicados sobre Data Science
Quem é a Aquarela Analytics?
A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial corporativa na indústria e em grandes empresas. Por meio da plataforma Vorteris, da metodologia DCM e o Canvas Analítico (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania, Mercedes-Benz, Grupo Randon (automotivo), SolarBR Coca-Cola (varejo alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Auren, SPIC Brasil (energia), Telefônica Vivo (telecomunicações), dentre outros.
Acompanhe os novos conteúdos da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!
Autores
Doutor e Mestre em Finanças pela Universidade Federal de Santa Catarina – Brasil. Pesquisador em finanças / economia comportamental e mercado de capitais. Atualmente Data Scientist aplicando estratégias de aprendizado de máquina em problemas de negócios de grandes organizações no Brasil e no exterior.
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.