2018 é um ano importante para o futuro do Brasil, e assim como você caro leitor, nós também temos uma grande preocupação:
Será que finalmente levaremos o hexa nesta copa?
Brincadeiras a parte, 2018 é ano de eleição, momento no qual vamos decidir quem será nosso presidente pelos próximos 4 anos. Sabemos que as opções não são as melhores até o momento, mas não vamos perder a fé em mudar o nosso país, certo? Neste post, pegamos carona no momento político e, aliando-se ao projeto “Serenata de amor”, traçamos o perfil dos gastos de dinheiro público feitos por nossos deputados. (Veja como o projeto aconteceu em Floripa)
Utilizamos o Vorteris (nossa plataforma de Inteligência Artificial) e ferramentas complementares como R, Python e Java, para encontrar padrões na forma como nosso dinheiro é gasto pelos deputados brasileiros. Perceba que até o momento não falamos em predição ou prescrição baseada em dados, outro ponto que este artigo mostrará é o fato de que Machine Learning também pode ser empregada na procura de padrões de comportamento, sem fazer nenhuma predição.
Dados de entrada
Mais de 1,5 milhões de notas fiscais emitidas de reembolso de 1158 deputados federais desde 2009 — Destes sobraram 1,138 que possuíam informações sobre a idade e o sexo — Fonte (https://serenatadeamor.org/).
O que queríamos descobrir?
- Qual a idade provável de um cidadão se tornar deputado(a) federal?
- Quais as características e as proporções de cada perfil parlamentar?
- Qual o perfil de parlamentares mais gastões e quais os deputados mais econômicos? Como está a distribuição regional?
- Quais os principais fatores associados aos gastos dos perfis descobertos?
- Se existe uma relação entre a idade dos parlamentares com o gasto de suas cotas parlamentares?
Resultados utilizando Inteligência Artificial.
Depois de fazer uma série de enriquecimentos da base original, formatamos os dados no modelo requerido pela plataforma Vorteris chegando assim aos seguintes resultados e validações.
Probabilidade de ser deputado por idade
Abaixo está o desenho e os cálculos da distribuição probabilística de alguém se tornar deputado de acordo com sua idade.
- Probabilidade de ser parlamentar com menos de 30 anos é de 1,5%
- Probabilidade de ser parlamentar com mais de 30 anos é de 98,5%
- Probabilidade de ser parlamentar com menos de 80 anos é de 97,5%
- Probabilidade de ser parlamentar com mais de 80 anos é 2,5%
- Estar entre 30 e 80 é de 96% e fora dessa faixa 4%
Abaixo está o ranking dos deputados que fogem para baixo do padrão da curva normal, ou seja, os “deputados federais ninjas” que chegaram lá com 1,5% de chances.
Proporções do perfil de gasto da quota parlamentar
No quadro abaixo vemos o perfil comportamental gerado pelo Vorteris de todos os deputados analisados, sendo 3 grupos predominantes (1, 2 e 3) contém mais de 90% de todos os parlamentares. Os menos representativos chamados de 4, 5 e 6 são comportamentos anormais. O agrupamento 2 é formado apenas por mulheres ao passo que os demais, apenas por homens. Com isso vemos que existe diferenças consideráveis do comportamento por gênero.
Perfil dos parlamentares gastões vs econômicos + região de atuação.
Abaixo apresentamos os sumários estatísticos dos grupos identificados pela ferramenta de forma automática.
A primeira coluna da esquerda é o gasto médio em reais dos parlamentares. Imaginando que quanto maior a média, maior o custo deste para os cofres públicos, então temos o grupo 1 com a média mais alta: acima de R$ 1,2 mil, e os mais econômicos disposto no grupo 3, com gastos abaixo dos R$ 250,00.
As mulheres do grupo 2 tendem a gastar R$157.21 menos que os homens do grupo 1. A proporção dos deputados com baixo custo é gritantemente menor do que os grupos principais.
A título de conhecimento, abaixo dos nomes estão a nota do grau de influência que a coluna tem na variação do valor médio.
Ao contrário do que muitos pensam, encontrar padrões que já conhecemos é fundamental para saber se a ferramenta está interpretando corretamente a realidade, ou seja, felizmente o Vorteris que não conhece nada de política ou quotas parlamentares, descobriu uma coisa que já se esperava: que os deputados(as) com médias maiores apresentam uma taxa maior de compras parceladas.
Assim, o Vorteris coloca ela como a primeira variável da esquerda para direita com nota 8.7 de influência. Seguida pela contagem do número de fornecedores.
Como parte da estratégia da análise, optamos por não considerar (não entregar para o algoritmo) a informação do estado e/ou partido dos deputados(as), tornando assim a análise sem qualquer viés que não sejam simplesmente o comportamento administrativo de cada um.
Uma vez que conseguimos atrelar a geolocalização dos parlamentares, a ferramenta desenha automaticamente a segmentação diretamente no mapa. Assim, é possível sintetizar os padrões e claro, depois descer (drill down) até encontrar os registros específicos de cada caso.
Ainda respondendo a questão 3, abaixo está um apontamento regional dos deputados que mais e menos gastam.
Uma dúvida comum dos analistas é saber se os resultados fecham com a realidade do dado bruto.
Este processo é muito importante em todo e qualquer tipo de análise de machine learning. Assim, fizemos alguns recortes da base sobre os resultados da entrega da inteligência artificial para verificar se os achados faziam sentido ou não.
Abaixo está uma das variáveis consideradas mais fortes no padrão de comportamento do uso das quotas. Com esta visualização podemos afirmar que deputados(as) com o menor custo médio apresentam uma quantidade muito maior de fornecedores do que todos os outros grupos.
Esta variável é tão mais influente do que a idade do parlamentar que a segunda foi excluída automaticamente do modelo pela máquina.
Na figura abaixo, podemos concluir também que não é possível fazer uma relação do comportamento de gasto por partido político já que há uma grande pluralidade de partidos nos diferentes perfis.
Seria muito interessante, por exemplo, se algum partido tivesse uma política de redução dos gastos bem definida de modo que o grupo 3 tivesse apenas a cor deste partido ou fosse a cor predominante.
Já na visualização abaixo temos uma informação interessante.
Quando estávamos levantado as perguntas de análise com a equipe de voluntários no evento Serenata Capítulo Floripa. tínhamos uma intuição bastante forte de que os parlamentares mais jovens tivessem uma tendência a gastar menos, imaginando que houvesse uma melhor conscientização da importância da economia do dinheiro público.
O resultado foi exatamente este, só que no sentido oposto. Verificamos que existe uma pequena tendência (muito fraca) da idade interferir no comportamento dos gastos.
Os deputados(as) mais velhos tendem a gastar menos em média. Uma ressalva, a idade é baseada na diferença em anos da data de nascimento com a data desta pesquisa. Além alguns deputados já são falecidos(as).
Brasil, todo dia um 7×1
Sabemos que o sentimento possa ser de frustração, afinal, descobrir que nem mesmo os deputados jovens estão conscientes do seu papel político-social é um tanto quanto desanimador.
Mas para que aconteça mudança, temos que encarar a realidade, por esta razão que o projeto Serenata de amor foi criado, agregando o uso de Inteligência Artificial feita no Brasil com a necessidade de mudarmos nosso cenário político.
Não deixem de seguir a Rosie no Twitter, robô criada pelo projeto que Twitta gastos suspeitos em tempo real, acompanhando de perto como nossos políticos gastam nosso dinheiro.
Acreditamos na mudança e na capacidade do povo brasileiro de inovar com tecnologia, acompanhe em nosso blog outros casos de uso de IA para predição e clusterização com dados públicos, e apoie o projeto Serenata de amor. Só assim faremos um Brasil mais inteligente e menos burocrático.
Quem é a Aquarela Analytics?
A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial corporativa na indústria e em grandes empresas. Por meio da plataforma Vorteris, da metodologia DCM e o Canvas Analítico (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania, Mercedes-Benz, Grupo Randon (automotivo), SolarBR Coca-Cola (varejo alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Auren, SPIC Brasil (energia), Telefônica Vivo (telecomunicações), dentre outros.
Acompanhe os novos conteúdos da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!
Autor
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.