Aquarela

Aquarela Analytics branco

Data Analytics e o impeachment de 2016: Uma análise sem partido

Neste post vamos mostrar que tipos de insights os processos de mineração de dados pode nos fornecer a partir dos dados da votação do processo de impeachment da presidente Dilma no dia 17 de abril de 2016.

Estudo da natureza dos dados e limpeza

Estudar a natureza dos dados é muito importante para a escolha das possíveis abordagens de análise. Nesta etapa utilizamos a estatística, que rapidamente traz as grandezas, distâncias e limitações do objeto de estudo. A estatística nos ajuda na limpeza da base informacional (que em muitos casos apresenta dados faltantes, erros de digitação e assim por diante).

Imagem recortada da planilha.

Assim temos:

Partidos com mais e menos membros votantes:

  • PMDB = 66 votantes
  • PMB = 1 votante

Estados com mais e menos membros votantes:

  • São Paulo = 70 votantes
  • Tocantins = 8 votantes

Números totais de votos:

SIMNÃOAUSENTEABSTENÇÃO
36713727

Gênero dos votantes:

  • Masculino = 462
  • Feminino = 51

Aplicação de técnicas de mineração

Análise de textos

Como todos bem lembramos, cada deputado teve a oportunidade de justificar seu voto, e destes discursos podemos retirar alguns insights.

Na área de mineração existem vários estudos que buscam o sentimento do falante pela combinação das palavras usadas. Aqui vamos utilizar apenas uma contagem proporcional de cada uma das palavras para entender o que pesou mais ou menos no vocabulário dos deputados. Posteriormente, esses valores são excluídos das análises de correlações.

Análise por Fernando Severo

Análise de agrupamentos (clustering ou segmentação)

Para entender qual é a força exercida pelos grupos votantes e como eles se caracterizam, utilizamos a técnica de clustering, que resultou na análise abaixo, onde é possível ver que existem 3 grupos distintos. Divididos da seguinte forma:

  • Grupo 0 Azul = 310 votos – principal força PMDB
  • Grupo 1 Verde = 57 votos – principal força PSDB
  • Grupo 2 Vermelho = 146 votos – principal força PT

Uma das grandes vantagens da análise computacional de segmentos é conseguir sintetizar a complexidade do ambiente sem inclinações ou segundas intenções, pois ele apenas revela ou decodifica a realidade.

Análise preditiva de votos

Agora, aplicamos algoritmos que nos ajudam a fazer predições sobre fatos que já ocorreram. Na imagem abaixo temos a predição de novos votos de cada partido com uma precisão de aproximadamente 86,35%, predizendo com precisão 367 votos sim,  76 não e predizendo erroneamente 70 votos.

Pesos das variáveis

Agora imagine o seguinte: Você quer viajar. Na sua análise mental você começa a pesar fatores como:

  • O estado do carro;
  • A previsão do tempo;
  • O preço da gasolina;
  • A distância a ser viajada;
  • A quantidade de bagagem.

Então, se você colocasse tudo isso numa régua de importância, qual é o fator que mais pesaria e que menos pesaria na sua decisão?

Seguindo esse pensamento, a análise abaixo mostra o que mais pesou para votos = SIM e votos = Não. Vale notar que os partidos políticos pesaram mais do que os estados dos deputados que estão no meio da régua.

Conclusões e Limitações:

Buscamos ser o mais breve possível utilizando apenas algumas técnicas de mineração que consideramos importantes para a natureza dos dados. Pense que os dados são como a farinha para um pão.

Como analistas, podemos fazer diversos tipos de análise, mas se a base não for boa o resultado será ruim. Simples assim.

Além disso, buscamos abstrair o máximo da complexidade matemática das abordagens, e assim esperamos que este post possa ajudar a estender a compreensão do potencial da mineração de dados para descriptografar a realidade, melhorando significativamente a saúde, educação e a gestão do país de um modo geral.

Por exemplo: Encontrando grupos de pacientes e alunos com determinadas tendências, prevendo doenças e epidemias, descobrindo as influências predominantes de uma série de comportamentos sociais, e assim por diante.

Blitz analytics

Mediante a crescente demanda de projetos rápidos usando Advanced Analytics e IA, que gerem mudanças imediatas em diversos níveis dentro das empresas, nós criamos o conceito de Blitz Analytics, usando a metodologia DCIM, aliada ao poder da inteligência artificial da Plataforma Aquarela Vorteris.

Executada por nossos cientistas de dados sobre os dados de nossos clientes, a Blitz Analytics entrega um sistema de predição ou prescrição que atendem os requisitos do negócio de forma rápida e assertiva.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial Corporativa na indústria e em grandes empresas. Por meio da plataforma Vorteris, da metodologia DCM e o Canvas Analítico (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania, Mercedes-Benz, Grupo Randon (automotivo), SolarBR Coca-Cola (varejo alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Auren, SPIC Brasil (energia), Telefônica Vivo (telecomunicações), dentre outros.

Acompanhe os novos conteúdos da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autores

9 Comments

  1. Big Data disse:

    Quais as ferramentas utilizadas nas técnicas de mineração?

    • Joni Hoppen disse:

      Caro leitor,

      As principais ferramentas foram:
      – Libre Office
      – Microsoft Office
      – Weka, Rapidminer e Vortx.io.

      Espero que tenha sido útil, na próxima deixe seu nome para que eu possa endereçar a resposta pessoalmente.

      Atenciosamente.

  2. Felipe Almeida disse:

    Parabéns Joni, ótimo post.

    Gostaria de saber, se possível, como vocês fazem a coleta desses dados brutos. Qual a fonte? 🙂

    Valeu e parabéns novamente.

    Abraço

    • Joni Hoppen disse:

      Caro Felipe,

      Tanto a natureza do dado quanto a coleta dependem 100% de quem os disponibiliza e isso varia bastante, no Brasil estamos avançando em vários setores, sobre tudo no governo com a lei de acesso a informação. Talvez a regra mais importante para te ajudar a localizar dados é você buscá-los com o termo de pesquisa “microdado”. Assim você terá mais chance de encontrar repositórios grandes e mineráveis. Neste caso do post, ainda não consegui as informações da pessoa que coletou e os disponibilizou no gdocs. Gostaria muito de dar os créditos pois esse trabalho é muito importante para a comunidade de cientistas de dados que está se formando no Brasil. Respondido?

      Atenciosamente
      Joni

  3. José Augusto Valim disse:

    Cara… Que foda! Estou no segundo ano de Ciência da Computação e sonho em Data Scientist, seu post é uma das coisas mais bacanas sobre o assunto.

  4. Flavio disse:

    Fala Joni beleza?

    Parabéns pela análise.

    Já até passei para frente. Muito bom.

    https://mineracaodedados.wordpress.com/2016/04/27/minerando-os-dados-da-votacao-do-impeachment/

    Abs!

    Flávio

    • Joni Hoppen disse:

      Olá Flávio,

      Obrigado pela mensagem e por repassar o conhecimento. Na verdade não esperava que essa análise (relativamente simples) fosse gerar tanta audiência. Temos um país que precisa melhorar em quase tudo e o Big Data está aí para ajudar.

      Um abraço seguimos processando!

      Joni

  5. Olá Joni Hoppen, seu artigo é ótimo. Envolve pontos importantes de mineração de dados (clusterização, pré-processamento, o valor dos dados, predição, etc.) de forma bastante coloquial e com um tema mais que atual! Faço extensão em Mineração de Dados e gostaria de ver mais exemplos práticos como esse por ai! Parabéns!

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Send this to a friend