Data Analytics e o impeachment de 2016: Uma análise sem partido

Neste post vamos mostrar que tipos de insights os processos de mineração de dados pode nos fornecer a partir dos dados da votação do processo de impeachment da presidente Dilma no dia 17 de abril de 2016.

Estudo da natureza dos dados e limpeza

Estudar a natureza dos dados é muito importante para a escolha das possíveis abordagens de análise. Nesta etapa utilizamos a estatística, que rapidamente traz as grandezas, distâncias e limitações do objeto de estudo. A estatística nos ajuda na limpeza da base informacional (que em muitos casos apresenta dados faltantes, erros de digitação e assim por diante).

Imagem recortada da planilha.

Assim temos:

Partidos com mais e menos membros votantes:

PMDB = 66 votantes
PMB = 1 votante

Estados com mais e menos membros votantes:

São Paulo = 70 votantes
Tocantins = 8 votantes

Números totais de votos:

SIM	NÃO	AUSENTE	ABSTENÇÃO
367	137	2	7

Gênero dos votantes:

Masculino = 462
Feminino = 51

Aplicação de técnicas de mineração

Análise de textos

Como todos bem lembramos, cada deputado teve a oportunidade de justificar seu voto, e destes discursos podemos retirar alguns insights.

Na área de mineração existem vários estudos que buscam o sentimento do falante pela combinação das palavras usadas. Aqui vamos utilizar apenas uma contagem proporcional de cada uma das palavras para entender o que pesou mais ou menos no vocabulário dos deputados. Posteriormente, esses valores são excluídos das análises de correlações.

Análise de agrupamentos (clustering ou segmentação)

Para entender qual é a força exercida pelos grupos votantes e como eles se caracterizam, utilizamos a técnica de clustering, que resultou na análise abaixo, onde é possível ver que existem 3 grupos distintos. Divididos da seguinte forma:

Grupo 0 Azul = 310 votos – principal força PMDB
Grupo 1 Verde = 57 votos – principal força PSDB
Grupo 2 Vermelho = 146 votos – principal força PT

Uma das grandes vantagens da análise computacional de segmentos é conseguir sintetizar a complexidade do ambiente sem inclinações ou segundas intenções, pois ele apenas revela ou decodifica a realidade.

Análise preditiva de votos

Agora, aplicamos algoritmos que nos ajudam a fazer predições sobre fatos que já ocorreram. Na imagem abaixo temos a predição de novos votos de cada partido com uma precisão de aproximadamente 86,35%, predizendo com precisão 367 votos sim, 76 não e predizendo erroneamente 70 votos.

Pesos das variáveis

Agora imagine o seguinte: Você quer viajar. Na sua análise mental você começa a pesar fatores como:

O estado do carro;
A previsão do tempo;
O preço da gasolina;
A distância a ser viajada;
A quantidade de bagagem.

Então, se você colocasse tudo isso numa régua de importância, qual é o fator que mais pesaria e que menos pesaria na sua decisão?

Seguindo esse pensamento, a análise abaixo mostra o que mais pesou para votos = SIM e votos = Não. Vale notar que os partidos políticos pesaram mais do que os estados dos deputados que estão no meio da régua.

Conclusões e Limitações:

Buscamos ser o mais breve possível utilizando apenas algumas técnicas de mineração que consideramos importantes para a natureza dos dados. Pense que os dados são como a farinha para um pão.

Como analistas, podemos fazer diversos tipos de análise, mas se a base não for boa o resultado será ruim. Simples assim.

Além disso, buscamos abstrair o máximo da complexidade matemática das abordagens, e assim esperamos que este post possa ajudar a estender a compreensão do potencial da mineração de dados para descriptografar a realidade, melhorando significativamente a saúde, educação e a gestão do país de um modo geral.

Por exemplo: Encontrando grupos de pacientes e alunos com determinadas tendências, prevendo doenças e epidemias, descobrindo as influências predominantes de uma série de comportamentos sociais, e assim por diante.

Blitz analytics

Mediante a crescente demanda de projetos rápidos usando Advanced Analytics e IA, que gerem mudanças imediatas em diversos níveis dentro das empresas, nós criamos o conceito de Blitz Analytics, usando a metodologia DCIM, aliada ao poder da inteligência artificial da Plataforma Aquarela Vorteris.

Executada por nossos cientistas de dados sobre os dados de nossos clientes, a Blitz Analytics entrega um sistema de predição ou prescrição que atendem os requisitos do negócio de forma rápida e assertiva.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial Corporativa na indústria e em grandes empresas. Por meio da plataforma Vorteris, da metodologia DCM e o Canvas Analítico (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania, Mercedes-Benz, Grupo Randon (automotivo), SolarBR Coca-Cola (varejo alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Auren, SPIC Brasil (energia), Telefônica Vivo (telecomunicações), dentre outros.

Acompanhe os novos conteúdos da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autores

Marcos Santos

Fundador e CEO da Aquarela Analytics. Mestre em Engenharia e Gestão do Conhecimento, autor da metodologia DCM (Data Culture Methodology), com mais de 30 anos de experiência em empreendedorismo e desenvolvimento de sistemas. Estruturou e conduziu com sucesso dezenas de projetos estratégicos de alta complexidade de Inteligência Artificial e Indústria 4.0 com foco em Revenue Management, Predictive Maintenance, Competitive Intelligence, Customer Acquisition, Logística e Estoque para grandes empresas como Mercedes-Benz, Vivo/Telefônica , Coca-Cola, Scania, Randon, Votorantim e Embraer.

Joni Hoppen

Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.

9 Comments

Big Data disse:

25 de abril de 2016 às 10:42

Quais as ferramentas utilizadas nas técnicas de mineração?

Responder
- Joni Hoppen disse:
  
  27 de abril de 2016 às 23:03
  
  Caro leitor,
  
  As principais ferramentas foram:
  – Libre Office
  – Microsoft Office
  – Weka, Rapidminer e Vortx.io.
  
  Espero que tenha sido útil, na próxima deixe seu nome para que eu possa endereçar a resposta pessoalmente.
  
  Atenciosamente.
  
  Responder
Felipe Almeida disse:

26 de abril de 2016 às 14:56

Parabéns Joni, ótimo post.

Gostaria de saber, se possível, como vocês fazem a coleta desses dados brutos. Qual a fonte? 🙂

Valeu e parabéns novamente.

Abraço

Responder
- Joni Hoppen disse:
  
  27 de abril de 2016 às 22:57
  
  Caro Felipe,
  
  Tanto a natureza do dado quanto a coleta dependem 100% de quem os disponibiliza e isso varia bastante, no Brasil estamos avançando em vários setores, sobre tudo no governo com a lei de acesso a informação. Talvez a regra mais importante para te ajudar a localizar dados é você buscá-los com o termo de pesquisa “microdado”. Assim você terá mais chance de encontrar repositórios grandes e mineráveis. Neste caso do post, ainda não consegui as informações da pessoa que coletou e os disponibilizou no gdocs. Gostaria muito de dar os créditos pois esse trabalho é muito importante para a comunidade de cientistas de dados que está se formando no Brasil. Respondido?
  
  Atenciosamente
  Joni
  
  Responder
José Augusto Valim disse:

26 de abril de 2016 às 23:51

Cara… Que foda! Estou no segundo ano de Ciência da Computação e sonho em Data Scientist, seu post é uma das coisas mais bacanas sobre o assunto.

Responder
- Joni Hoppen disse:
  
  27 de abril de 2016 às 22:48
  
  Olá José,
  
  Que bom que gostou, continue antenado que em breve teremos mais coisas legais.
  
  Joni
  
  Responder
Flavio disse:

27 de abril de 2016 às 14:49

Fala Joni beleza?

Parabéns pela análise.

Já até passei para frente. Muito bom.

https://mineracaodedados.wordpress.com/2016/04/27/minerando-os-dados-da-votacao-do-impeachment/

Abs!

Flávio

Responder
- Joni Hoppen disse:
  
  27 de abril de 2016 às 22:46
  
  Olá Flávio,
  
  Obrigado pela mensagem e por repassar o conhecimento. Na verdade não esperava que essa análise (relativamente simples) fosse gerar tanta audiência. Temos um país que precisa melhorar em quase tudo e o Big Data está aí para ajudar.
  
  Um abraço seguimos processando!
  
  Joni
  
  Responder
Édipo Daniel Aragão disse:

3 de maio de 2016 às 19:54

Olá Joni Hoppen, seu artigo é ótimo. Envolve pontos importantes de mineração de dados (clusterização, pré-processamento, o valor dos dados, predição, etc.) de forma bastante coloquial e com um tema mais que atual! Faço extensão em Mineração de Dados e gostaria de ver mais exemplos práticos como esse por ai! Parabéns!

Responder