Quando trabalhamos com um conjunto de dados, podemos extrair diversos atributos dos mesmos. No contexto da ciência de dados, um atributo consiste em uma propriedade ou característica da entidade que está sendo analisada.
Por exemplo, diante de um conjunto de dados relacionados ao clima, podemos encontrar atributos como temperatura, umidade, pressão atmosférica, condições meteorológicas, entre outros.
A seleção de atributos, ou Feature Selection, consiste na obtenção de um subconjunto de dados a partir de um conjunto original, visando extrair conhecimento dos dados e, ao mesmo tempo, reduzir a complexidade e a dimensionalidade do problema.
A evolução da seleção de atributos
Entre as décadas de 60 e 70, a etapa de seleção de atributos era feita, muitas vezes, de forma manual, baseada apenas no conhecimento puro do especialista, o que tornava o processo muito mais sujeito a erros.
Com o surgimento dos modelos de Machine Learning (Aprendizado de Máquina), na década de 80, a seleção de atributos se tornou uma parte crucial do pré-processamento de dados. Nesse contexto, várias técnicas foram desenvolvidas para a seleção de atributos, incluindo as técnicas baseadas em filtros, wrappers e embedded.
Em projetos de Big Data, a seleção de atributos pode ser ainda mais importante, pois a quantidade de dados disponíveis pode ser gigante, aumentando a complexidade do problema. Ademais, muitos desses dados podem ser irrelevantes. Nesse sentido, a seleção de atributos, caso aplicada, pode melhorar a qualidade da análise dos dados e tornar o resultado dos modelos mais preciso.
Importância da seleção de atributos
A seleção de atributos é uma das etapas mais importantes do pré-processamento de dados e tem o objetivo de preparar os dados antes de serem aplicados em modelos de Machine Learning.
Em projetos de Machine Learning, busca-se tirar conclusões a partir de uma base de dados para auxiliar no processo de tomada de decisão. Para tal propósito, são traçados alguns objetivos como: agrupar, identificar padrões ou projetar valores futuros. Por meio da seleção de atributos, esses objetivos podem ser alcançados de maneira acelerada e otimizada.
Embora uma base de dados possa apresentar diversos atributos, às vezes apenas alguns deles podem estar relacionados ao problema em si. É possível que haja redundância, de modo que não há necessidade de incluir todos os dados na modelagem; e interdependência, em que dois ou mais atributos transmitem informações fortemente dependentes entre si.
As técnicas de seleção de atributos englobam atividades de identificação e remoção de informações irrelevantes ou redundantes. Isso reduz a dimensionalidade dos dados e pode permitir que algoritmos de aprendizagem operem com maior rapidez, reduzindo o tempo de treinamento e aumentando a eficiência do modelo.
Outra vantagem da seleção de atributos é melhorar a precisão dos modelos, uma vez que os atributos irrelevantes podem contribuir para o ruído e para a ocorrência de overfitting, diminuindo a acurácia dos modelos.
A seleção de atributos ainda é capaz, em alguns casos, de aumentar a interpretabilidade dos dados, tendo em vista que a partir de um número reduzido de atributos, é mais fácil entender as relações entre os mesmos e as variáveis de interesse.
Técnicas de seleção de atributos
Na etapa de pré-processamento dos dados, a seleção de atributos pode ser implementada por meio de diversas técnicas, cada uma com as suas características. Algumas das principais técnicas são as seleções baseadas em filtro, wrapper e embedded.
1. Seleção baseada em filtro (Filter-based selection):
Trata-se de uma das técnicas mais populares, em que todo o processo é realizado previamente, o que demanda baixo custo computacional. A seleção por filtro utiliza métricas estatísticas para avaliar a relevância dos atributos com a variável de interesse.
Dessa forma, são selecionadas aquelas que apresentam maior grau de correlação ou dependência. Algumas métricas comumente utilizadas na avaliação são o teste qui-quadrado, a correlação de Pearson.
A figura a seguir (FIGURA 1) ilustra o funcionamento da seleção baseada em filtro:
Avaliar a correlação entre atributos é crucial na análise de dados, uma vez que evita a multicolinearidade entre os atributos. É possível dizer que variáveis fortemente correlacionadas representam a mesma informação e, portanto, não é preciso utilizá-las em conjunto.
O coeficiente de correlação de Pearson é capaz de identificar a correlação linear entre os atributos de entrada de um modelo. A figura a seguir (FIGURA 2) mostra um exemplo de um mapa de calor com os coeficientes de correlação de Pearson entre cinco atributos (var1, var2, var3, var4 e var5) com a variável alvo (target).
O coeficiente expressa numericamente se duas sequências de números estão positivamente correlacionadas, não correlacionadas ou negativamente correlacionadas. Quanto mais próximo de 1 for o módulo do coeficiente de Pearson, mais fortemente correlacionadas estão as variáveis. Todavia, quanto mais próximo de 0, mais fracamente correlacionados linearmente estão os atributos.
No exemplo acima, os atributos “var2” e “var4” apresentam uma correlação linear alta, com coeficiente de Pearson de 0.96. Utilizar os dois atributos para encontrar a variável “target” pode representar uma redundância, pois esses atributos podem contribuir com praticamente a mesma informação. Esse pode ser um critério para a eliminação de atributos redundantes.
Por outro lado, ao avaliar a correlação linear dos atributos com a variável “target” percebe-se que os atributos “var1”, “var3” e “var” apresentam maior correlação linear com a variável de interesse. Atribuir um valor “threshold” (limite) pode ser um critério de escolha utilizado pelo cientista de dados para selecionar os atributos mais relevantes para o modelo.
Embora o coeficiente de Pearson analise a correlação linear entre dados numéricos, quando se trata de atributos categóricos, uma das técnicas de seleção por filtro mais recomendada é o teste qui-quadrado. O teste qui-quadrado calcula a diferença entre a distribuição observada dos dados e a distribuição que seria esperada caso não houvesse relação entre as variáveis categóricas.
Quando se tem um alto valor de qui-quadrado (p-value baixo), significa que há uma evidência estatística para inferir que os valores observados e esperados não são equivalentes. Nesse caso, portanto, as variáveis apresentam um grau de dependência entre si.
2. Seleção baseada em embrulho (Wrapper-based selection):
A Seleção baseada em wrapper, ou embrulho, é uma técnica de seleção de atributos que utiliza um modelo de aprendizado de máquina para avaliar a importância de cada subconjunto de atributos. Ao contrário das técnicas de seleção por filtro, as técnicas de seleção baseadas em wrapper apresentam alto custo computacional. Todavia, em geral essas técnicas podem levar a uma seleção de atributos mais precisa.
Para dar início a seleção, essas técnicas criam múltiplos subconjuntos de atributos e avaliam a importância de cada um na performance do modelo, selecionando aqueles que obtiveram o melhor desempenho.
Uma desvantagem da seleção por wrapper está no fato de que seu resultado depende do modelo utilizado para avaliação dos atributos e pode levar ao overfitting.
A Figura a seguir (FIGURA 3) mostra um fluxograma da metodologia utilizada pela seleção por wrapper. No método wrapper, um modelo de Machine Learning inicial é utilizado para avaliar o desempenho de diferentes subconjuntos de atributos. O melhor subconjunto é selecionado baseado no modelo com melhor performance.
3. Seleção por métodos de incorporação (Embedded selection):
Outra técnica que utiliza modelos de Machine Learning para realizar escolher os atributos mais importantes é a seleção baseada em embedded (incorporação). A principal diferença em relação a seleção por wrapper está no momento em que a seleção de atributos é feita.
Enquanto na abordagem por wrapper um modelo de Machine Learning é utilizado para avaliar a importância dos atributos após a seleção de um subconjunto de atributos, na abordagem por embedded, a seleção é realizada diretamente no processo de treinamento do modelo. A figura a seguir (FIGURA 4) ilustra o funcionamento da seleção baseada em embedded.
Os métodos embarcados são implementados por algoritmos que apresentam seu próprio método de seleção de atributos. Alguns métodos como a regressão Lasso e Ridge são capazes de selecionar os atributos mais relevantes de maneira automática ainda no processo de treinamento. Esses métodos têm o objetivo de lidar com o problema de multicolinearidade, em que há alta correlação entre os atributos de entrada.
Os algoritmos de regressão Lasso e Ridge utilizam algumas funções de penalização. Na regressão Lasso, uma penalização é adicionada pelo valor absoluto dos coeficientes dos atributos. O objetivo é forçar alguns dos coeficientes a serem iguais a zero, o que leva a uma seleção automática de atributos.
Já na regressão Ridge, a penalização se resume a uma restrição à soma dos quadrados dos coeficientes dos atributos. O objetivo do último método é reduzir a magnitude dos coeficientes, evitando a ocorrência de overfitting.
Conclusão – Importância da Seleção de Atributos em Modelos de Machine Learning
A seleção de atributos é uma etapa do pré-processamento de dados muito importante em diversas aplicações. Dentre suas vantagens, pode-se destacar a melhoria na acurácia e eficiência dos modelos; redução da complexidade e facilidade na interpretabilidade dos dados.
Ao longo do texto foram apresentadas algumas das principais técnicas de seleção de atributos, com destaque para as seleções por filtro, por wrapper e por embedded.
Os métodos baseados em filtro são computacionalmente eficientes e independentes dos modelos, porém ignoram as interações entre atributos e, em alguns casos, podem não identificar o subconjunto ótimo de variáveis.
Os algoritmos de seleção por wrapper, por sua vez, analisam a interação entre atributos e podem identificar o subconjunto ótimo para um modelo específico. Porém são métodos computacionalmente caros e sujeitos a ocorrência de overfitting.
Por fim, as técnicas de seleção por embedded são indicadas para lidar com conjunto de dados de alta dimensão, com muitos atributos, podendo não lidar muito bem com amostras pequenas, além de depender da escolha dos parâmetros de regularização dos modelos implementados.
A melhor técnica vai depender da escolha particular do cientista de dados para um problema específico, sendo que cada uma das abordagens de seleção de atributos possui pontos positivos e negativos.
Quem é a Aquarela Analytics?
A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial Corporativa na indústria e em grandes empresas. Por meio da plataforma Vorteris, da metodologia DCM e o Canvas Analítico (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania, Mercedes-Benz, Grupo Randon (automotivo), SolarBR Coca-Cola (varejo alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Auren, SPIC Brasil (energia), Telefônica Vivo (telecomunicações), dentre outros.
Acompanhe os novos conteúdos da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!
Autor
Engenheira Eletricista com ênfase em Eletrotécnica e Mestranda em Engenharia Elétrica pela Universidade Federal de Campina Grande. Cientista de dados na Aquarela Analytics. Apresenta experiência na área de modelos de Machine Learning e Previsão de Séries Temporais.