O desenvolvimento de soluções que fazem uso de inteligência artificial (IA) está intimamente ligado aos dados que estas soluções utilizam. Na era da transformação digital, a qualidade dos dados (data quality) desempenha um papel essencial nas tomadas de decisões e gera valor para o negócio.
Nesse contexto, o processamento dos dados utilizados na construção da IA tem uma notável importância para garantir seu bom funcionamento. Neste conteúdo, iremos falar sobre limpeza e estruturação de dados e sua relevância no processo de elaboração de soluções em IA.
Limpeza de dados
A limpeza de dados (data cleaning ou data cleansing) é um dos processos que garantem uma boa qualidade dos dados utilizados para estratégias de decisão e que geram valor. Esse processo se baseia em corrigir, remover, selecionar e padronizar os dados de uma determinada fonte.
A Tabela 1 apresenta um exemplo fictício da quantidade de itens vendidos por uma loja em determinados meses. É possível notar que a representação da quantidade de itens vendidos está na forma decimal; entretanto, sabemos que esse valor é sempre um número inteiro.
Além disso, o mês de maio apresenta valor duplicado. Sendo assim, o processo de limpeza de dados para este exemplo seria converter a coluna “Quantidade de itens vendidos no mês” para valores inteiros e remover o valor duplicado do mês de maio da tabela.
Tabela 1 – Exemplo de dados a serem corrigidos
Data | Quantidade de itens vendidos no mês |
01/01 | 20,00 |
01/02 | 18,00 |
01/03 | 5,00 |
01/04 | 4,00 |
01/05 | 6,00 |
01/05 | 6,00 |
Alguns outros problemas que poderiam ocorrer nesse exemplo e que deveriam ser corrigidos são: valor de vendas negativo e valor de vendas em branco (sem valor).
Diferentes estratégias podem ser adotadas no processo de limpeza de dados. Tais estratégias são definidas pelos responsáveis pelo procedimento em conjunto com o conhecimento do problema de negócio em questão.
Estruturação de dados
Outro ponto importante no processamento de dados é sua estruturação. De forma simplificada, damos o nome de estruturação às diversas formas de organização e agrupamento de dados. Todo esse processo depende muito de questões como eficiência de busca, volume e relacionamento entre dados e deve ser levado em consideração na criação de banco de dados no desenvolvimento de soluções de IA. Além disso, a estruturação de dados também tem o objetivo de realizar operações como inserção/exclusão, busca e ordenação.
Esse tópico é de muita importância no desenvolvimento de aplicações de inteligência artificial e possibilita uma maior eficiência na utilização e processamento dos dados, além de também ser uma grande área de estudo no campo da ciência da computação.
Exemplo prático
O mercado livre de energia é um ambiente em que os consumidores podem negociar as condições de contratação de energia com os fornecedores, o que traz diversos benefícios. Um dos principais desafios dessa modalidade é prever com precisão a quantidade de energia que determinado consumidor irá consumir no futuro, para que este possa negociar um contrato com as melhores condições possíveis. Uma das soluções para esse problema é a previsão de séries temporais.
O histórico de consumo de energia elétrica de todos os consumidores inseridos no mercado livre de energia é disponibilizado publicamente na página da Câmara de Comercialização de Energia Elétrica (CCEE).
Sendo nosso objetivo prever o consumo de energia de determinado consumidor para os meses seguintes, com base no seu consumo histórico, precisamos garantir que os dados utilizados estejam com uma boa qualidade para que a previsão seja a melhor possível. Essa qualidade pode ser obtida através da limpeza e estruturação dos dados.
Inicialmente, é preciso analisar os dados disponíveis e identificar quais colunas das tabelas são essenciais para a tarefa a ser realizada. Posteriormente, é preciso analisar se essas colunas possuem algum tipo de problema como dados duplicados, erro de formatação, campos em branco, se o nome das colunas permanece o mesmo em todos os arquivos, entre outros.
Feitas as correções necessárias (limpeza dos dados), os dados selecionados para a previsão podem ser estruturados em uma tabela ou até mesmo em um banco relacional para que possam ser utilizados posteriormente no desenvolvimento da IA de previsão de consumo.
Dessa forma, podemos observar que as tarefas de limpeza e estruturação dos dados desempenham um papel essencial no desenvolvimento de uma aplicação de inteligência artificial, como, por exemplo, a previsão de consumo de energia elétrica através de séries temporais.
Conclusão – A importância do processamento de dados na IA
É notória a importância da utilização de dados para a construção de soluções em inteligência artificial. Além do mais, é necessário que os dados utilizados retratem bem o problema de negócio associado à solução desenhada e proposta. Nesse sentido, o processamento de dados desempenha uma função de suma importância para garantir o bom funcionamento dessas soluções.
Neste texto, foi possível entender um pouco dos procedimentos de limpeza e estruturação dos dados e como estes contribuem no processo de inteligência artificial e, também, analisar de forma prática a contextualização desses procedimentos.
Quem é a Aquarela Analytics?
A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial corporativa na indústria e em grandes empresas. Por meio da plataforma Vorteris, da metodologia DCM e o Canvas Analítico (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania, Mercedes-Benz, Grupo Randon (automotivo), SolarBR Coca-Cola (varejo alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Auren, SPIC Brasil (energia), Telefônica Vivo (telecomunicações), dentre outros.
Acompanhe os novos conteúdos da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!
Autor
Cientista de dados na Aquarela. Graduado em engenharia elétrica pela UFSC. Entusiasta nas áreas de ciência de dados, aprendizado de máquina e processamento de sinais.