O conceito de clusterização, também chamado de clustering, agrupamentos, por análise de grupos é um tema recorrente na área de aprendizado de máquina e inteligência artificial, por isso criamos um vídeo tutorial que, em síntese, demonstra um problema de forma visual, um caso real e algumas conclusões.
Descrição do vídeo em português
Para facilitar a absorção do conceito, utilizamos um exemplo bastante visual. Assim, imagine que você tem em uma fábrica têxtil e quer produzir o maior número de bandeiras de todo os países conhecidos, algo em torno de 200 tipos com cores e formatos diferentes.
Interessa saber quais quais os padrões de cores e formatos para otimizar e organizar a linha de produção? Essa é a ideia, reduzir custos e tempo, mantendo qualidade e volume.
Um bom algoritmo de agrupamento deve ser capaz de identificar padrões nos dados como nós humanos conseguimos identificar visualmente bandeiras com características comuns, por terem os mesmos padrões, como são as bandeiras da Itália, Irlanda e México, no exemplo abaixo.
Podem existir padrões de cores, forma, figuras, etc. Um fator que diferencia algoritmos de clusterização para os de classificação é que estes não tem a informação do padrão junto com os dados, ou seja, ele deve descobrir automaticamente.
Neste contexto, tão importante quanto identificar os grupos com indivíduos semelhantes são as identificações dos indivíduos que não se assemelham com nenhum outro. Os chamados outliers, que são as exceções, elementos únicos que não compartilham características com outros elementos.
Por fim, em um resultado final de clusterização, temos um número de 8 grupos formados pelas bandeiras que apresentam características semelhantes e indivíduos isolados, por serem ouliers.
Um dos fatores mais importantes de processamento de grupos é número de grupos onde os elementos serão alocados. Em muitos casos, temos observado resultados diferentes quando aplicamos os mesmos dados, nas mesmas condições de processamento e parametrização, em diferentes algoritmos.
sso é muito importante. Veja o que poderia ser o resultado de uma clusterização imprecisa.
Figura 5: Clusters resultantes de um agrupamento impreciso.
A questão prática é:
Você investiria o seu dinheiro nisso?
Provavelmente não, e resolver esse problema é o desafio dos cientistas de dados. Na prática, já aplicamos em diversos segmentos, em um deles identificamos padrões da características dos pacientes que mais faltam às consultas médicas, gerando custos e ingerência em consultórios, clínicas e hospitais.
O resultado foi um surpreendente grupo com 50% dos dados analisados, o que merece realmente uma política específica para redução dos custos e impactos de operação.
O que pensariam os clientes que ficaram sem horário para consulta? Como não dar razão aos diretores financeiros destas organizações?
Outras possíveis aplicações estão no post “14 setores para aplicação de Big Data e dados necessários para as análises”. no blog da Aquarela.
Conclusões
- Nossa visão é muito poderosa para classificação de imagens como no caso das bandeiras.
- É humanamente impossível fazer análises e correlações lógicas dos números de um grande banco de dados, para isso foram criados os algoritmos de clusterização.
- A acurácia (exatidão) dos resultados de clusterização são fundamentais para a tomada de decisão de investimentos.
- Diversos setores podem se beneficiar dessa abordagem de gestão.
Quem é a Aquarela Analytics?
A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial Corporativa na indústria e em grandes empresas. Por meio da plataforma Vorteris, da metodologia DCM e o Canvas Analítico (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania, Mercedes-Benz, Grupo Randon (automotivo), SolarBR Coca-Cola (varejo alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Auren, SPIC Brasil (energia), Telefônica Vivo (telecomunicações), dentre outros.
Acompanhe os novos conteúdos da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!
Autores
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
Fundador da Aquarela, CEO e arquiteto da plataforma Vorteris. Mestre em Engenharia e Gestão do Conhecimento, entusiasta de novas tecnologias, tendo expertise em linguagem funcional Scala e em algoritmos de Machine Learning e IA.
1 Comment
[…] chamada de Clustering (agrupamentos). Informações específicas sobre esse conceitos neste post (Como a estratégia de clusterização otimiza negócios?). Na conclusão deixo algumas ideias de como essa abordagem inovadora pode otimizar e alavancar […]