Aquarela

Aquarela Analytics branco

Monitoramento de Modelos de Machine Learning: Práticas para Preservar a Relevância e Confiabilidade

Monitoramento de Modelos de Machine Learning Práticas para Preservar a Relevância e Confiabilidade

Modelos de Machine Learning (ML) são amplamente utilizados para transformar dados em ferramentas valiosas para a percepção de negócio, mas sua eficácia pode ser comprometida por problemas como drift de dados e contexto, baixa qualidade, viés e uma explicação baixa ou nenhuma em relação às suas características na tomada de decisão. 

O drift de dados ocorre quando a distribuição dos dados muda ao longo do tempo, o que pode levar a uma degradação na performance do modelo. A qualidade dos dados afeta diretamente a precisão das previsões, enquanto o viés pode levar a decisões injustas. A explicabilidade é crucial para compreender e confiar nas decisões dos modelos. Esses problemas têm um impacto significativo no contexto em que os modelos são inseridos, pois podem resultar em decisões incorretas, perda de confiança e até mesmo prejuízos financeiros.

Garantia da Qualidade de dados em modelos de Machine Learning

A qualidade dos dados é fundamental para o sucesso de qualquer projeto de ML. Um aspecto crucial desse processo é entender a estrutura em que o modelo está inserido, pois a integridade e a precisão dos dados podem ser comprometidas por diversos fatores. Por exemplo, um sensor danificado pode gerar leituras inconsistentes ou erradas, impactando a precisão das previsões e análises. Da mesma forma, dados digitados manualmente de forma incorreta podem introduzir erros significativos, afetando a validade dos resultados. Outro exemplo comum é uma câmera de vigilância apontada para a direção errada, resultando em dados visuais inadequados ou irrelevantes para o propósito do monitoramento e contexto para o qual o modelo foi treinado. Esses problemas destacam a importância de implementar mecanismos confiáveis de validação e verificação para garantir que os dados coletados sejam confiáveis e representativos da realidade que se pretende modelar.

Além disso, mudanças no esquema dos dados podem impactar negativamente sua qualidade. Quando a estrutura do banco de dados é alterada por meio da adição de novos campos, removendo existentes ou os tipos de dados são modificados sem que não haja um planejamento adequado, pode levar a inconsistências e perda de integridade. Conhecer bem a estrutura dos dados e como eles se relacionam é essencial para antecipar e mitigar esses riscos. 

A adoção de práticas de governança de dados e o uso de ferramentas de monitoramento contínuo podem ajudar a detectar e corrigir rapidamente quaisquer anomalias ou discrepâncias, garantindo que os modelos continuem a cumprir o propósito da sua criação. Portanto, a qualidade dos dados é fundamental para a eficácia das soluções de ML, e entender a estrutura em que os dados são gerados e armazenados é vital para manter essa qualidade.

A Importância do Monitoramento de Drift de Dados e Contexto em Modelos de ML

O monitoramento de drift de dados e contexto é essencial para garantir a precisão e a relevância dos modelos de ML ao longo do tempo. O data drift ocorre quando a distribuição dos dados de entrada para o modelo muda, afetando sua performance. Por exemplo, fotos de um animal tiradas no verão podem ter uma distribuição de cores e iluminação muito diferente das fotos do mesmo animal tiradas no inverno. Da mesma forma, diferentes grupos demográficos, como jovens e adultos, podem apresentar comportamentos distintos que influenciam os dados coletados. Mudanças nas tendências de compra, como a popularidade de brinquedos específicos, como o fidget spinner, podem alterar drasticamente a distribuição dos dados de vendas, tornando os modelos treinados com dados antigos obsoletos. 
Em todos esses casos, é necessário identificar o data drift e avaliar a possibilidade da realização de um novo treinamento dos modelos para manter a precisão e a eficácia das previsões. Na Figura 1 é possível observar um exemplo de drift de dados, em que a distribuição que o modelo observou na sua criação é significantemente diferente da distribuição atual de entrada.

Figura 1 : Exemplo de data drift em modelos de ML (autoria própria)

O drift de conceito, por outro lado, ocorre quando as relações subjacentes entre as variáveis de entrada e saída mudam, mesmo que a distribuição dos dados de entrada permaneça a mesma. Um exemplo claro é um modelo de estimativa de preços de casas. Embora a quantidade de quartos e o tamanho do apartamento permaneçam constantes, os preços das casas em 2024 podem ser muito diferentes dos preços em 2010 devido a fatores econômicos, sociais e regionais. Outro exemplo é a variação nos preços de imóveis em diferentes regiões do Brasil, onde imóveis com as mesmas dimensões podem ter valores significativamente diferentes. 

Sem o monitoramento e novos treinamentos adequados para capturar essas mudanças de conceito, os modelos de ML podem se tornar irrelevantes e imprecisos. Portanto, a detecção e correção tanto do data drift quanto do drift de conceito são cruciais para manter a relevância e a precisão dos modelos de machine learning ao longo do tempo.

Identificação e Redução de Viés em Modelos de Machine Learning

A identificação de viés em modelos de ML é um componente crucial do monitoramento de modelos para garantir decisões justas e equitativas. O viés pode se manifestar de várias maneiras, muitas vezes devido a desequilíbrios ou preconceitos nos dados de treinamento. Um exemplo pode ser a negação de acesso a crédito com base em características específicas. Se um modelo de ML foi treinado com dados historicamente enviesados, ele pode perpetuar ou até amplificar essas desigualdades, resultando em decisões discriminatórias. Detectar esses vieses é essencial para evitar tais injustiças, e uma das abordagens mais eficazes é a segmentação de características.

A segmentação de características envolve dividir os dados em subgrupos com base em atributos específicos, como idade, gênero, raça ou localização geográfica, e analisar o desempenho do modelo dentro de cada subgrupo. Esse processo permite identificar se o modelo está apresentando vieses sistemáticos contra determinados grupos. Por exemplo, se o modelo de concessão de crédito apresenta uma taxa de aprovação significativamente menor para um subgrupo específico em comparação com outros, isso indica a presença de viés. Ao identificar essas disparidades,é possível ajustar os dados de treinamento ou modificar o modelo para reduzir o viés, promovendo a equidade. A redução de viés não apenas melhora a justiça das decisões automatizadas, mas também aumenta a confiança e a aceitabilidade dos modelos de ML em aplicações sensíveis, como finanças, saúde e recrutamento. 

Na Figura 2, é apresentado um exemplo ilustrativo de segmentação para análise de viés. No contexto deste exemplo, cada país teve 100 análises de crédito realizadas, com a variável em análise sendo o país de residência do indivíduo. A figura revela claramente um viés na concessão de crédito: apenas 10 das 100 solicitações do País A foram aprovadas, enquanto no País B, 80 das 100 solicitações foram concedidas. Esse contraste significativo entre os dois países destaca uma discrepância evidente na distribuição das concessões de crédito, evidenciando um possível viés na avaliação das solicitações.

Figura 2 : Exemplo de segmentação de características (autoria própria)

Explicabilidade dos Modelos de Machine Learning

A explicabilidade dos modelos de ML é um aspecto essencial do monitoramento, pois contribui significativamente para a confiança nas previsões e na identificação de erros e possíveis vazamentos de dados. Ferramentas como mapa de calor em imagens e SHAP (SHapley Additive exPlanations) são recursos valiosos sobre como os modelos tomam decisões. Por exemplo, mapas de calor podem ilustrar quais áreas de uma imagem são mais relevantes para a decisão de um modelo de visão computacional, ajudando a entender se o modelo está focado nas características esperadas ou se há comportamentos inesperados. Já o SHAP fornece uma medida quantitativa do impacto de cada característica na previsão do modelo, permitindo a identificação de quais variáveis estão influenciando mais as decisões e se essas influências são apropriadas.

A capacidade de explicar como um modelo chega a uma determinada previsão melhora a transparência e a confiança nas suas previsões, facilitando a detecção de possíveis problemas nos dados ou no próprio modelo. Com a explicabilidade, é possível identificar padrões errôneos ou vazamentos de dados que podem comprometer a integridade das previsões. Dessa forma, a explicabilidade não só ajuda na validação e ajuste dos modelos, mas também assegura que eles operem de maneira justa e confiável, promovendo uma maior confiança e robustez nas soluções baseadas em ML.

Conclusão – Monitoramento de Modelos de Machine Learning

O monitoramento eficaz de modelos de Machine Learning é essencial para garantir que eles continuem precisos e relevantes em um ambiente de dados dinâmico. Ao entender e abordar problemas como drift de dados e contexto, qualidade dos dados, viés e explicabilidade, existe a possibilidade de manter a performance e a confiança nos modelos ao longo do tempo por meio de um novo treinamento. Aplicar as técnicas discutidas ajudará a enfrentar esses desafios e a maximizar o valor dos modelos de ML, resultando em decisões mais informadas e eficazes.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial Corporativa na indústria e em grandes empresas. Por meio da plataforma Vorteris, da metodologia DCM e o Canvas Analítico (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania, Mercedes-Benz, Grupo Randon (automotivo), SolarBR Coca-Cola (varejo alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Auren, SPIC Brasil (energia), Telefônica Vivo (telecomunicações), dentre outros.

Acompanhe os novos conteúdos da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Send this to a friend