Olá pessoal,
Aproveitando o clima de olimpíadas no Brasil, resolvi fazer uma análise de agrupamentos com o Vorteris sobre os dados consolidados das medalhas distribuídas em Londres. Bom, então vamos lá!
O que significam as medalhas?
Em todo projeto de análise de dados, a primeira etapa é sempre saber o que as coisas significam na realidade. Logo, do ponto de vista do esporte, cada medalha significa muita coisa, vejamos alguns exemplos:
- Reconhecimento pelo esforço e disciplina pessoal;
- Resultado da organização e investimento dos países em cada modalidade (disciplina regional);
- Marcos históricos;
- Ranking de qualidade e etc.
Bom, esses foram apenas alguns exemplos de muita coisa atrelada ao evento. Para um analista de dados, o quadro de medalhas pode significar:
Um índice composto de centenas de sub-indicadores sociais apresentado na forma de ranking quantitativo dos países.
Os dados utilizados
Coletei o quadro de medalhas olímpicas distribuídas em Londres disponível na Wikipedia, não levando em consideração países com “0” medalhas. Para a análise, cada linha é um país.
- Primeira coluna, nome do país;
- Segunda coluna, número de medalhas de ouro;
- Terceira coluna, número de medalhas de prata;
- Quarta coluna, número de medalhas de bronze;
- Removido a coluna total de medalhas.
Obs. Mas por que remover o total de medalhas por país? É simples, este é um indicador composto da soma de todas as medalhas e como queremos descobrir padrões que existem entre a distribuição de medalhas, precisamos deixar o modelo homogeneizado. Esse é um erro bastante comum nas práticas de processamento de dados que resulta em análises com baixa confiança, pois os algoritmos processam tudo, se entrar coisa errada, saí coisa errada. Usando uma metáfora, colocar os dados totais em uma análise é como se o cozinheiro jogasse a colher dentro da máquina de triturar, o resultado vai ser misturado e influenciado.
Perguntas, processamento e repostas
Vamos utilizar o Aquarela Vorteris para descobrir o comportamento de distribuição das medalhas olímpicas.
- Quantos grupos de países parecidos em termos de desempenho existem, como são caracterizados e o quanto representam proporcionalmente?
No total formam 5 grupos distintos de países com a seguintes proporções:
As características do primeiro grupo são apresentadas em um gráfico de frequência, enquanto mais alto o gráfico, maior é o número de países com o valor do eixo X. Em uma breve interpretação, no grupo 1 são muito poucos os países 16 medalhas (ouro, prata ou bronze).
Abaixo está uma tabela de sumarização dos resultados com os demais grupos. Procure as diferenças nos resultados e pense em qual nome daria para cada grupo.
Eu diria que o grupo 1 é formado por países de baixa performance, e o grupo 3 de alta. Dar nome aos grupos é o trabalho do analista, o algoritmo já fez o mais complicado que é separar e organizar toda a coisa olhando para todos os fatores.
- Qual o grau de confiança do padrão encontrado?
Estes dados apresentem uma nitidez de 96,04% o que é muito alto e significa que os grupos estão de fato muito bem segmentados.
- Qual é um resultado típico ou comum nas olimpíadas?
Sendo o grupo 1 o maior grupo, que equivale a 91,76% dos países que receberam medalhas, é possível afirmar que tipicamente os países recebem até duas medalhas. Do contrário, não é típico um país receber mais de 20 medalhas.
- Quais países têm características mais distintas da maioria?
Comparando os resultados de distinção dos grupos gerados pelos Vorteris, podemos afirmar que os grupos 3 e 4 são os grupos países mais diferentes ou diferenciados.
Grupo 1 – 83,28%
Grupo 2 – 79,31%
Grupo 3 – 100%
Grupo 4 – 100%
Grupo 5 – 84,73%
- É possível prever os resultados das olimpíadas do Rio 2016 com base do padrão dos grupos?
A identificação dos agrupamentos, dá o ponta pé inicial das análises, organizando e estruturando o raciocínio lógico, porém a assertividade dos modelos de predição dependem de vários fatores, dentre eles:
- a quantidade de dados sendo analisados (neste caso são poucos), quanto mais dados, melhor.
- mudanças estruturais no quadro de medalhas, como por exemplo adição ou remoção de novos esportes.
- Influência política ou os casos de doping que afastaram diversos atletas.
Conclusões e Reflexões
Bom pessoal, os resultados fazem sentido para vocês? Vejam que exercício foi feito com dados relativamente simples de 3 colunas onde já é possível descobrir coisas interessantes. Agora, o que realmente importa em relação a utilização de algoritmos de agrupamento para resolver resultados práticos em outras áreas? Abaixo seguem algumas ideias:
- Seria interessante saber quais os problemas típicos e o grau de homogeneidade das turmas escolares ou tratamentos hospitalares?
- Seria estratégico descobrir quais alunos ou pacientes são muito diferentes do comum e demandam atendimento especial?
- Seria interessante saber quais as características predominantes de equipamentos que mais quebram? Isso reduziria o custo de operação?
- Quando temos 3 colunas como o caso das medalhas é fácil encontrar o padrão no olho, certo? E se forem 2 milhões de linhas e 20 colunas, como você encontraria o tipo de venda que traz o melhor retorno sobre investimento?
- Quais são as características dos usuários que fraudam o seguro? Qual é o corte ideal de idade por região, gênero e escolaridade? E quanto esses grupos representam de prejuízo?
É isso pessoal. Obrigado pela atenção, vamos em frente! Que há muito dado para se processar e muita gestão para melhorar, um forte abraço a todos.
Quem é a Aquarela Analytics?
A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial Corporativa na indústria e em grandes empresas. Por meio da plataforma Vorteris, da metodologia DCM e o Canvas Analítico (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania, Mercedes-Benz, Grupo Randon (automotivo), SolarBR Coca-Cola (varejo alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Auren, SPIC Brasil (energia), Telefônica Vivo (telecomunicações), dentre outros.
Acompanhe os novos conteúdos da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!
Autor
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.