Aquarela

Aquarela Analytics branco

A distribuição normal em Data Analytics

Encontrar a normalidade e as anormalidades (outliers) nos processo de negócio, tais como vendas, compras, cadeias de distribuição e precificação dinâmica é tarefa fundamental na ciência de dados.

Neste artigo, explicamos e mostramos como a estatística aborda a descoberta da normalidade. Também vamos mostrar algumas distribuições normais associadas aos negócios, dentro de estratégias de data analytics, visando ajudar os leitores a converterem suas análises em resultados tangíveis.

O que é a distribuição normal ou curva normal?

A distribuição Normal também é conhecida como distribuição Gaussiana, em homenagem ao “príncipe da matemática”, o alemão Johann Carl Friedrich Gauss, que contribuiu para diversas áreas da ciência.

Sua utilização da distribuição normal vai além da determinação da probabilidade entre valores numa distribuição, ela também é recorrentemente utilizada como indicativo de qualidade de modelos estatísticos, como o Método dos Mínimos Quadrados, por exemplo.

Caso a distribuição de erros do modelo apresente distribuição não normal, supõe-se então que o modelo está viesado, ou seja, não confiável.

Exemplos de Distribuição Normal estão presentes em nosso cotidiano, seja na distribuição de peso de recém nascidos, notas de acadêmicos, Quociente Intelectual (QI), tamanho de sapatos e velocidade de veículos em uma rota, isso para citar alguns dos mais comuns. 

A distribuição normal na visão matemática

Podemos defini-la como uma distribuição de probabilidade contínua com esperança matemática (μ) e desvio padrão (σ). A função densidade de uma distribuição Normal segue a seguinte equação:

Sendo assim, poderíamos dizer que X~N(μ, σ2). Ou seja, uma variável qualquer X segue uma distribuição Normal com média (μ) e variância (σ2). Além disso, uma distribuição normal deve possuir média, mediana e moda iguais, ser simétrica e leptocúrtica.

Distribuição normal de forma didática

Mal começamos o artigo e já estamos com uma baita fórmula cheia de letras gregas na cabeça. Mas calma. Seremos mais didáticos daqui em diante e, falando nisso, sabiam que o conceito de distribuição normal pode ser demonstrado fisicamente? Dá uma olhada nesse gif:

As bolinhas caem aleatoriamente entre os pinos até formar a distribuição normal.

Contudo, há algo que as pessoas costumam confundir com frequência e devemos deixar claro aqui:

Distribuição Normal e Normal padrão, apesar de serem bastante semelhantes, não são exatamente a mesma coisa. Então:

  • Distribuição normal pode possuir qualquer valor como média e desvio padrão. Contudo, o desvio padrão não pode assumir valores negativos.
  • Distribuição normal padrão sempre terá média igual a zero (0) e desvio padrão igual a um (1). Costuma ser bastante utilizada para facilitar cálculos de probabilidade.

Por que algumas distribuições não são normais?

  • Outliers: Valores muito altos ou muito baixos podem distorcer a curva, a média é especialmente sensível aos extremos. Sugerimos remover os outliers e verificar como ficou a distribuição. Temos um artigo que aborda mais aprofundadamente o que são outliers e como tratá-los
  • Distribuições misturadas: Podem haver casos onde duas ou mais distribuições podem ser combinadas em seus dados. Se desenharmos um gráfico de distribuição com esses dois grupos, podem aparecer duas curvas misturadas, e quando são muitos grupos fica até difícil visualizar o que está acontecendo, e a análise pode demandar o uso de filtros complexos. 
  • Poucos dados: Dados insuficientes podem fazer com que uma distribuição normal pareça completamente deformada. Por exemplo, os resultados da idade dos pacientes de um hospital são distribuídos normalmente. Mas se você escolher três deles aleatoriamente, não obterá uma distribuição normal. Se você estiver em dúvida se possui um tamanho de amostra suficiente para ter resultados robustos, confira esse outro artigo no qual disponibilizamos uma calculadora de amostragem – O que é amostragem e como fazer o cálculo amostral?  
  • Coleta incorreta dos dados: Se em um dataset (o que são datasets) existe uma coluna na qual é esperada uma curva normal, e esta fica deformada, verifique se não há filtros aplicados, ou se a coleta está sendo feita de forma adequada. 
  • Distribuição não normal: Por vezes, a distribuição pode simplesmente ser de outra natureza. A quantidade de vezes que a face de um dado se repete em jogadas seguidas, por exemplo, se comportaria de maneira uniforme. Ou seja, suas faces se repetiriam um número de vezes virtualmente igual. Classificaríamos sua distribuição, então, como uniforme.

Tratamentos

Contudo, bem sabemos que nem tudo se mostra normal nessa terra. Muitas vezes a variável deverá passar por algum tipo de tratamento para ser considerada normal, outras vezes nem mesmo com os tratamentos mais robustos isso será possível. 

Frequentemente encontramos em nossas análises variáveis que se distribuem de maneira logarítmica, por exemplo. Apenas ao observar essa característica já nos damos conta do tratamento mais adequado para este tipo de caso, a aplicação de logaritmo (de base 10). Dessa maneira, teríamos então uma distribuição log-normal. Confira o exemplo abaixo:

Cálculo de probabilidade na prática

Digamos que uma máquina que preenche água em garrafas plásticas de uma determinada fábrica encha as garrafinhas em média 300 ml. Após verificar a distribuição da quantidade de água preenchida por essa máquina, percebe-se que a mesma preenche as garrafinhas com um desvio padrão de 6 ml. Logo:

Qual a probabilidade desta máquina preencher uma garrafinha menos que 295 ml?

Bom, na academia, recorrentemente utilizamos a tabela de distribuição normal padrão para calcularmos algo nesse sentido. Calcularíamos o valor Z e procuraríamos na tabela para determinar a probabilidade de evento como este acontecer. Entretanto, considerando que esse método é apenas utilizado para facilitar o cálculo e o mesmo pode ser estimado através da densidade abaixo da curva, podemos fazer uso da calculadora que desenvolvemos. Veja e tente você mesmo:

Se você chegou a um valor de aproximadamente 20%, parabens! Você acertou!
Fique a vontade para utilizá-la em outros exercícios. Temos certeza que ela pode lhe ser útil em diversos outros experimentos.

Distribuições na Aquarela 

Na Aquarela, utilizamos diariamente a ideia de distribuição, seja para validar a qualidade do dado, da captura do dado ou mesmo entender a natureza dos fenômenos que estamos estudando. Contudo, as demandas que atendemos nos diversos setores industriais de serviço exigem muito mais do que isso para criar predições, prescrições e cenarização de negócio. 

Ao atuar diretamente com analytics na indústria, necessitamos criar e aplicar algoritmos de inteligência artificial para descobrir múltiplas combinações probabilísticas de diversas distribuições que, por sua vez, gerarão recomendações tais como:

  • preço dinâmico;
  • horário de melhor atendimento;
  • níveis de risco de entrega de produtos;
  • riscos de falhas em equipamentos em produção. 

Conclusões e recomendações

Entender o conceito da distribuição normal e seu papel no processo da análise de probabilidades é muito importante. Nesse sentido, com a transformação digital que está em curso, cada dia mais, existirão dados disponíveis para análises. 

Neste artigo vimos:

  • O que é uma distribuição normal e como diferenciar ela das demais;
  • Por que algumas curvas ou distribuições não são normais;
  • Como o conceito de distribuição pode ser demonstrado de forma física; 
  • Como descrevemos a distribuição de probabilidade Normal e como calcular a probabilidade entre intervalos de valores;
  • Demonstramos como proceder tratamentos logarítmicos para transformar a distribuição.

Concluímos que, o conhecimento da distribuição de probabilidade é fundamental para a condução de procedimentos estatísticos. A partir daí, podemos calcular parâmetros, estimar intervalos de confiança e investigar hipóteses. A distribuição mais relevante dentre as possíveis, sem dúvidas, é distribuição normal, tendo enorme importância para a validade de diversos modelos estatísticos aplicados à economia e negócios. 

Fique atento às futuras publicações assinando nossa newletter!

Onde erramos?

Graças ao olhar atento da comunidade, encontramos alguns erros na primeira versão do artigo e abaixo está o esclarecimento:

01 – Onde dizíamos:

Distribuição normal é “assimétrica”, o correto é “simétrica”.

02 – Onde dizíamos:

Distribuição normal pode possuir qualquer valor como média e desvio padrão.

Adicionamos a seguinte informação para evitar a ambiguidade no sentido de que o desvio padrão poderia assumir valores negativos. A continuação ficou assim:

Contudo, o desvio padrão não pode assumir valores negativos.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial Corporativa na indústria e em grandes empresas. Por meio da plataforma Vorteris, da metodologia DCM e o Canvas Analítico (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania, Mercedes-Benz, Grupo Randon (automotivo), SolarBR Coca-Cola (varejo alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Auren, SPIC Brasil (energia), Telefônica Vivo (telecomunicações), dentre outros.

Acompanhe os novos conteúdos da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autores

1 Comment

  1. AffiliateLabz disse:

    Great content! Super high-quality! Keep it up! 🙂

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Send this to a friend