Neste post vamos mostrar que tipos de insights os processos de mineração de dados pode nos fornecer a partir dos dados da votação do processo de impeachment da presidente Dilma no dia 17 de abril de 2016.
Estudo da natureza dos dados e limpeza
Estudar a natureza dos dados é muito importante para a escolha das possíveis abordagens de análise. Nesta etapa utilizamos a estatística, que rapidamente traz as grandezas, distâncias e limitações do objeto de estudo. A estatística nos ajuda na limpeza da base informacional (que em muitos casos apresenta dados faltantes, erros de digitação e assim por diante).
Imagem recortada da planilha.
Assim temos:
Partidos com mais e menos membros votantes:
- PMDB = 66 votantes
- PMB = 1 votante
Estados com mais e menos membros votantes:
- São Paulo = 70 votantes
- Tocantins = 8 votantes
Números totais de votos:
SIM | NÃO | AUSENTE | ABSTENÇÃO |
367 | 137 | 2 | 7 |
Gênero dos votantes:
- Masculino = 462
- Feminino = 51
Aplicação de técnicas de mineração
Análise de textos
Como todos bem lembramos, cada deputado teve a oportunidade de justificar seu voto, e destes discursos podemos retirar alguns insights.
Na área de mineração existem vários estudos que buscam o sentimento do falante pela combinação das palavras usadas. Aqui vamos utilizar apenas uma contagem proporcional de cada uma das palavras para entender o que pesou mais ou menos no vocabulário dos deputados. Posteriormente, esses valores são excluídos das análises de correlações.
Análise de agrupamentos (clustering ou segmentação)
Para entender qual é a força exercida pelos grupos votantes e como eles se caracterizam, utilizamos a técnica de clustering, que resultou na análise abaixo, onde é possível ver que existem 3 grupos distintos. Divididos da seguinte forma:
- Grupo 0 Azul = 310 votos – principal força PMDB
- Grupo 1 Verde = 57 votos – principal força PSDB
- Grupo 2 Vermelho = 146 votos – principal força PT
Uma das grandes vantagens da análise computacional de segmentos é conseguir sintetizar a complexidade do ambiente sem inclinações ou segundas intenções, pois ele apenas revela ou decodifica a realidade.
Análise preditiva de votos
Agora, aplicamos algoritmos que nos ajudam a fazer predições sobre fatos que já ocorreram. Na imagem abaixo temos a predição de novos votos de cada partido com uma precisão de aproximadamente 86,35%, predizendo com precisão 367 votos sim, 76 não e predizendo erroneamente 70 votos.
Pesos das variáveis
Agora imagine o seguinte: Você quer viajar. Na sua análise mental você começa a pesar fatores como:
- O estado do carro;
- A previsão do tempo;
- O preço da gasolina;
- A distância a ser viajada;
- A quantidade de bagagem.
Então, se você colocasse tudo isso numa régua de importância, qual é o fator que mais pesaria e que menos pesaria na sua decisão?
Seguindo esse pensamento, a análise abaixo mostra o que mais pesou para votos = SIM e votos = Não. Vale notar que os partidos políticos pesaram mais do que os estados dos deputados que estão no meio da régua.
Conclusões e Limitações:
Buscamos ser o mais breve possível utilizando apenas algumas técnicas de mineração que consideramos importantes para a natureza dos dados. Pense que os dados são como a farinha para um pão.
Como analistas, podemos fazer diversos tipos de análise, mas se a base não for boa o resultado será ruim. Simples assim.
Além disso, buscamos abstrair o máximo da complexidade matemática das abordagens, e assim esperamos que este post possa ajudar a estender a compreensão do potencial da mineração de dados para descriptografar a realidade, melhorando significativamente a saúde, educação e a gestão do país de um modo geral.
Por exemplo: Encontrando grupos de pacientes e alunos com determinadas tendências, prevendo doenças e epidemias, descobrindo as influências predominantes de uma série de comportamentos sociais, e assim por diante.
Blitz analytics
Mediante a crescente demanda de projetos rápidos usando Advanced Analytics e IA, que gerem mudanças imediatas em diversos níveis dentro das empresas, nós criamos o conceito de Blitz Analytics, usando a metodologia DCIM, aliada ao poder da inteligência artificial da Plataforma Aquarela Vorteris.
Executada por nossos cientistas de dados sobre os dados de nossos clientes, a Blitz Analytics entrega um sistema de predição ou prescrição que atendem os requisitos do negócio de forma rápida e assertiva.
Quem é a Aquarela Analytics?
A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial Corporativa na indústria e em grandes empresas. Por meio da plataforma Vorteris, da metodologia DCM e o Canvas Analítico (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania, Mercedes-Benz, Grupo Randon (automotivo), SolarBR Coca-Cola (varejo alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Auren, SPIC Brasil (energia), Telefônica Vivo (telecomunicações), dentre outros.
Acompanhe os novos conteúdos da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!
Autores
Fundador da Aquarela, CEO e arquiteto da plataforma Vorteris. Mestre em Engenharia e Gestão do Conhecimento, entusiasta de novas tecnologias, tendo expertise em linguagem funcional Scala e em algoritmos de Machine Learning e IA.
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
9 Comments
Quais as ferramentas utilizadas nas técnicas de mineração?
Caro leitor,
As principais ferramentas foram:
– Libre Office
– Microsoft Office
– Weka, Rapidminer e Vortx.io.
Espero que tenha sido útil, na próxima deixe seu nome para que eu possa endereçar a resposta pessoalmente.
Atenciosamente.
Parabéns Joni, ótimo post.
Gostaria de saber, se possível, como vocês fazem a coleta desses dados brutos. Qual a fonte? 🙂
Valeu e parabéns novamente.
Abraço
Caro Felipe,
Tanto a natureza do dado quanto a coleta dependem 100% de quem os disponibiliza e isso varia bastante, no Brasil estamos avançando em vários setores, sobre tudo no governo com a lei de acesso a informação. Talvez a regra mais importante para te ajudar a localizar dados é você buscá-los com o termo de pesquisa “microdado”. Assim você terá mais chance de encontrar repositórios grandes e mineráveis. Neste caso do post, ainda não consegui as informações da pessoa que coletou e os disponibilizou no gdocs. Gostaria muito de dar os créditos pois esse trabalho é muito importante para a comunidade de cientistas de dados que está se formando no Brasil. Respondido?
Atenciosamente
Joni
Cara… Que foda! Estou no segundo ano de Ciência da Computação e sonho em Data Scientist, seu post é uma das coisas mais bacanas sobre o assunto.
Olá José,
Que bom que gostou, continue antenado que em breve teremos mais coisas legais.
Joni
Fala Joni beleza?
Parabéns pela análise.
Já até passei para frente. Muito bom.
https://mineracaodedados.wordpress.com/2016/04/27/minerando-os-dados-da-votacao-do-impeachment/
Abs!
Flávio
Olá Flávio,
Obrigado pela mensagem e por repassar o conhecimento. Na verdade não esperava que essa análise (relativamente simples) fosse gerar tanta audiência. Temos um país que precisa melhorar em quase tudo e o Big Data está aí para ajudar.
Um abraço seguimos processando!
Joni
Olá Joni Hoppen, seu artigo é ótimo. Envolve pontos importantes de mineração de dados (clusterização, pré-processamento, o valor dos dados, predição, etc.) de forma bastante coloquial e com um tema mais que atual! Faço extensão em Mineração de Dados e gostaria de ver mais exemplos práticos como esse por ai! Parabéns!