Dados da quota parlamentar disponíveis para download – Operação Serenata de Amor

Publicado por Joni Hoppen em julho 2, 2017

 

Com os feedbacks dos artigos relacionados ao projeto Serenata de Amor e a introdução dos conceitos de política supervisionada que eles estão ajudando a introduzir no país, descobrirmos que existem muitas pessoas curiosas (futuros cidadãos cientistas de dados) querendo informações mais detalhadas sobre o comportamento dos gastos dos parlamentares por partidos e por estados. Como não podemos responder a todos os questionamentos e hipóteses levantadas, vamos virar o jogo e facilitar a digestão dos dados de maneira que a grande massa consiga alcançar e replicar esses dados da maneira mais ampla e rápida possível para suas realidades.

Entraves técnicos do acesso aos dados públicos

A estratégia definida pelo time SERENATA foi utilizar tecnologias de ponta e utilizando o idioma inglês para a construção da plataforma de captura e disseminação dos dados. Estas duas medidas são absolutamente acertadas, pois assim, estão conseguindo que diversos programadores, cientistas e pesquisadores (Brasileiros ou não) de qualquer parte do mundo possam colaborar e manter o crescimento acelerado da plataforma. Só para se ter uma ideia, neste exato momento são 576 membros no grupo do Telegram discutindo melhorias do projeto, tudo em inglês.

Para fazer com que as informações geradas pelo projeto sejam mais acessíveis à população, levantei alguns pontos que considero como barreiras técnicas temporárias do processo:

  • Grande parte da população não é alfabetizada em inglês.
  • O conjunto de dados (1580942 linhas)  ultrapassa o limite de linhas que o Excel ou LibreOffice são capazes de processar – Mais informações neste post sobre os limites do Excel.
  • O repositório Github (onde ficam guardados todos os códigos e dados de forma pública 100% na nuvem) ainda é um mistério para muitos. E realmente não é fácil explicar como funciona um mecanismo de gestão de códigos capaz de manter a integridade do projeto com mais de 500 pessoas trabalhando 24×7.Imaginem que seria uma forma de organizar a edição de um documento do no Word de forma colaborativa e sem perder nenhuma informação.
  • Formatos de dados e códigos Python, assim como o inglês não são amplamente conhecidos.

Dos pontos levantados, gostaria de reafirmar que todas as decisões de projetos que visualizei e que criaram esses entraves são absolutamente necessários e sem eles não teríamos nada para discutir. Estamos ampliando um trabalho “semente”, e esse esforço é comum em todos os processos de inovação.

Processo de Facilitação

Para que mais pessoas possam inferir conhecimento a partir dos dados, gerei diversas versões recortadas dos dados traduzindo os nome das colunas para o português. Assim pessoas com noções mínimas de Excel possam usar filtros, planilhas dinâmicas e até gráficos para estudar esses dados 100% públicos da forma mais detalhada possível no menor tempo.

Abaixo está um printscreen da tela do super Ubuntu 17 tunado durante esse processo. Isso dá uma boa noção de como o trabalho sobre dados demanda processamento e memória RAM ou paciência.

Download dos arquivos

Neste link você deve ter acesso as pastas compartilhadas do Google Drive com as seguintes informações:

  • ArquivoCompleto – Contém todos os registros de reembolsos desde 2009 – não pode ser aberto em Excel.
  • RecortePeloAno – O arquivo completo foi retalhado em arquivos menores no formato Excel contendo todos os registros de reembolsos de todos os partidos e todos os estados, porém, fechados por cada ano desde 2009.
  • RecortePorEstado – Neste estão todos os lançamentos de todos os partidos de todos os anos, porém, isolados por estado da federação.

Recomendações

Este artigo tem um objetivo de disseminar o conhecimento tanto da complexidade geralmente não prevista em projetos de análise de dados (aspectos técnicos matam projetos caso não sejam bem arquitetados) e também promover o conceito da política supervisionada em nosso país, área que vai crescer muito nos próximos anos assim como o tema de análise avançada de dados (Advanced Analaytics).

Ao proporcionar dados fatiados e já tratados recomendo fortemente que profissionais de tecnologia, professores, alunos e cientistas façam o seguinte:

  • Encontrem padrões sozinhos nos dados e abram discussões com colegas e alunos;
  • Descubram novas ferramentas para analisar dados;
  • Divulguem as informações de forma abrangente, curtam e compartilhem os achados;
  • Apoiem o projeto Serenata de Amor;
  • Utilizem dados reais para testar seus algoritmos (geralmente os exemplos na internet são dados sintéticos que dão mais de 98% de acerto nas predições, na vida real essa taxa de acerto é bastante difícil se chegar).

Por hora é isso, um abraço a todos e ótimas análises! Seguimos!

Facebook, Twitter, Linkedin.

Autores:
Joni Hoppen
Fundador da Aquarela Advanced Analytics, professor e palestrante na área de Ciência de Dados, mestre em Sistemas de Informação pela universidade de Twente na Holanda, focado em processos de rápida prototipação de Big Data Analytics. Linkedin
Continue Lendo
Assine nossa Newsletter