Inteligência Artificial nas Quotas Parlamentares

Pessoal,

Como todos sabem, estamos sempre que possível, engajados colaborando de alguma forma com o fantástico e disruptivo projeto “Serenata de Amor“, o qual foi criado por uma galerinha muito do bem e muito capacitada (não basta ser só do bem para desenvolver um país) para gerar uma transparência irreversível na história da gestão publica do Brasil (Veja operação que houve aqui em Florianópolis).

No artigo de hoje, vamos demonstrar alguns experimentos utilizando nossa plataforma de Machine Learning (Aprendizado de Máquina, ou melhor, Inteligência Artificial) chamada VORTX Big Data Analytics, a qual, apesar de soar estrangeira e ter os textos todos em inglês, é orgulhosamente brasileira e fruto do apoio de diversas comunidades e entidades de auxílio ao empreendedorismo tecnológico no país.

Além do VORTX, utilizamos várias ferramentas complementares como R, Python e Java, dado a complexidade e a extensão da análise. Antes de começar, gostaria de dizer que Machine Learning não é apenas análise preditiva, aqui veremos como ela apresenta-se sem fazer qualquer predição.

Dados de entrada

Mais de 1,5 milhões de notas fiscais emitidas de reembolso de 1158 deputados federais desde 2009 — Destes sobraram 1,138 que possuíam informações sobre a idade e o sexo — Fonte (https://serenatadeamor.org/).

O que queríamos descobrir?

  • Qual a idade provável de um cidadão se tornar deputado(a) federal?
  • Quais as características e as proporções de cada perfil parlamentar?
  • Qual o perfil de parlamentares mais gastões e quais os deputados mais econômicos? Como está a distribuição regional?
  • Quais os principais fatores associados aos gastos dos perfis descobertos?
  • Se existe uma relação entre a idade dos parlamentares com o gasto de suas cotas parlamentares?

Resultados

Depois de fazer uma série de enriquecimentos da base original (processo bastante comum em análise de dados), formatamos os dados no modelo requerido pela plataforma VORTX chegamos aos seguintes resultados e validações.

Probabilidade de ser deputado por idade

Abaixo está o desenho e os cálculos da distribuição probabilística de alguém se tornar deputado de acordo com sua idade.

  • Probabilidade de ser parlamentar com menos de 30 anos é de 1,5%
  • Probabilidade de ser parlamentar com mais de 30 anos é de 98,5%
  • Probabilidade de ser parlamentar com menos de 80 anos é de  97,5%
  • Probabilidade de ser parlamentar com mais de 80 anos é  2,5%
  • Estar entre 30 e 80 é de 96% e fora dessa faixa 4%

Idade mínima = 23. Idade média = 56,87. Idade máxima = 98. Desvio padrão (taxa de variabilidade de idades) = 12,20.

Abaixo está o ranking dos deputados que fogem para baixo do padrão da curva normal, ou seja, os “deputados federais ninjas” que chegaram lá com 1,5% de chances.

Quadro de deputados federais mais novos desde 2009.

Proporções do perfil de gasto da quota parlamentar

No quadro abaixo vemos o perfil comportamental gerado pelo VORTX de todos os deputados analisados, sendo 3 grupos predominantes (1, 2 e 3) contém mais de 90% de todos os parlamentares. Os menos representativos chamados de 4, 5 e 6 são comportamentos anormais. O agrupamento 2 é formado apenas por mulheres ao passo que os demais, apenas por homens. Com isso vemos que existe diferenças consideráveis do comportamento por gênero.

Grupo 1 = 87,61%. Grupo 2 = 10,11%. Grupo 3 = 1,93%. Grupo 4 = 0,18% . Grupo 5 = 0,09% grupo 6 = 0,09%.

Perfil dos parlamentares gastões vs econômicos e região de atuação.

Abaixo apresentamos os sumários estatísticos dos grupos identificados pela ferramenta de forma automática. A primeira coluna da esquerda é o gasto médio em reais dos parlamentares. Imaginando que quanto maior a média, maior o custo deste para os cofres públicos, então temos o grupo 1 com a média mais alta: acima de R$ 1,2 mil, e os mais econômicos disposto no grupo 3, com gastos abaixo dos R$ 250,00. As mulheres do grupo 2 tendem a gastar R$157.21 menos que os homens do grupo 1. A proporção dos deputados com baixo custo é gritantemente menor do que os grupos principais.

A título de conhecimento, abaixo dos nomes estão a nota do grau de influência que a coluna tem na variação do valor médio. Ao contrário do que muitos pensam, encontrar padrões que já conhecemos é fundamental para saber se a ferramenta está interpretando corretamente a realidade, ou seja, felizmente o VORTX que não conhece nada de política ou quotas parlamentares, descobriu uma coisa que já se esperava: que os deputados(as) com médias maiores apresentam uma taxa maior de compras parceladas. Assim, o VORTX coloca ela como a primeira variável da esquerda para direita com nota 8.7 de influência. Seguida pela contagem do número de fornecedores.

Como parte da estratégia da análise, optamos por não considerar (não entregar para o algoritmo) a informação do estado e/ou partido dos deputados(as), tornando assim a análise sem qualquer viés que não sejam simplesmente o comportamento administrativo de cada um.

Uma vez que conseguimos atrelar a geolocalização dos parlamentares, a ferramenta desenha automaticamente a segmentação diretamente no mapa. Assim, é possível sintetizar os padrões e claro, depois descer (drill down) até encontrar os registros específicos de cada caso.

Ainda respondendo a questão 3, abaixo está um apontamento regional dos deputados que mais e menos gastam.

Em amarelo está a contagem absoluta, ou seja, quantos deputados de baixo custo existem em cada estado. Os amarelos estão apenas em alguns estados do país.

 

Mapa dos parlamentares do grupo 4 com a maior média de gastos. A letra é a primeira letra da variável que havíamos chamado de “ponto”.

 

Uma dúvida comum dos analistas é saber se os resultados fecham com a realidade do dado bruto. Este processo é muito importante em todo e qualquer tipo de análise de machine learning. Assim, fizemos alguns recortes da base sobre os resultados da entrega da inteligência artificial para verificar se os achados faziam sentido ou não.

Abaixo está uma das variáveis consideradas mais fortes no padrão de comportamento do uso das quotas. Com esta visualização podemos afirmar que deputados(as) com o menor custo médio apresentam uma quantidade muito maior de fornecedores do que todos os outros grupos. Esta variável é tão mais influente do que a idade do parlamentar que a segunda foi excluída automaticamente do modelo pela máquina.

Cada ponto representa um parlamentar. As cores estão relacionadas ao grupo criado pela inteligência artificial.

Na figura abaixo, podemos concluir também que não é possível fazer uma relação do comportamento de gasto por partido político já que há uma grande pluralidade de partidos nos diferentes perfis. Seria muito interessante, por exemplo, se algum partido tivesse uma política de redução dos gastos bem definida de modo que o grupo 3 tivesse apenas a cor deste partido ou fosse a cor predominante.

Cada ponto representa um parlamentar. As cores são o seu partido político. O eixo X representa o grupo que ele pertence de acordo com a inteligência artificial.

Já na visualização abaixo temos uma informação interessante. Quando estávamos levantado as perguntas de análise com a equipe de voluntários no evento  Serenata Capítulo Floripa. Eu, particularmente, tinha uma intuição bastante forte de que os parlamentares mais jovens tivessem uma tendência a gastar menos em média, imaginando que houvesse uma melhor conscientização da importância da economia do dinheiro público. O resultado foi exatamente este, só que no sentido oposto. Verificamos que existe uma pequena tendência (muito fraca) da idade interferir no comportamento dos gastos. Os deputados(as) mais velhos tendem a gastar menos em média. Uma ressalva, a idade é baseada na diferença em anos da data de nascimento com a data desta pesquisa. Além alguns deputados já são falecidos(as).

Cada ponto representa um parlamentar, os homens são os pontos verdes e as mulheres os pontos vermelhos.

Bom pessoal, obrigado pela atenção. Espero que tenham gostado da análise, todos os comentários são bem-vindos. Dúvidas, erros ou sugestões também. Quanto mais feriados o Brasil tiver, mais tempo os cidadãos terão para fazer análise sobre os dados dos nossos gestores, pelo menos é a realidade que se materializa no trabalho dessa turma aqui.

Um forte abraço e bom feriado a todos! Para aqueles que quiserem acompanhar em tempo real como estão sendo feitos os gastos parlamentares, basta seguir o twitter da super Rosie, ela vem publicando em tempo real situações que fogem da normalidade – Sabem o que é isso? Política supervisionada –  https://twitter.com/rosiedaserenata

Fiquem ligados em nossas redes sociais também! O compartilhamento dos trabalhos de todos envolvidos nesse projeto é uma ajuda à vocês mesmos :)

Facebook, Twitter, Linkedin

 


Screen Shot 2016-09-16 at 10.49.55

Autor:

Joni Hoppen – Fundador da Aquarela Advanced Analytics, professor e palestrante na área de Ciência de Dados, mestre em Sistemas de Informação pela universidade de Twente na Holanda, focado em processos de rápida prototipação de Big Data Analytics. Linkedin


Assine nossa Newsletter e receba os novos artigos em seu e-mail!


VORTX Big Data

A Aquarela desenvolveu o VORTX Big Data para tornar as análises de mineração de dados muito mais fáceis, precisas e robustas do que as soluções atuais de mercado, com impacto significativo em problemas de negócios como: redução de churn, descoberta de cenários de negócios, manutenção preditiva, segmentação de mercado e otimização de recursos. Mais informações, confira no site oficial do produto: www.vortx.io


Veja outros estudos

Deixe uma resposta

O seu endereço de email não será publicado