Os datasets (ou conjuntos de dados) são o principal insumo dos processos de análise de dados.
Eles são representados por dados tabulares em formato de planilha onde as linhas são os registros dos acontecimentos e as colunas são as características desses acontecimentos.
Para que um dataset seja analisado por sistemas de análise é obrigatório que este tenha um formato retangular ou quadrado, não permitindo que haja valores em outras partes da planilha. Também não são aceitos valores em planilhas em sub-abas.
Neste artigo detalhamos, com base em nossa experiência prática com análise de dados e em nossos cursos de capacitação no Brasil, nossa visão sobre o conceito de datasets e sua posição pivotal no processo de Data Analytics e no processo de transformação digital rumo a gestão da indústria 4.0.
Abaixo seguem mais detalhes importantes sobre o conceito.
Porque dataset e não conjunto de dados?
Os datasets formam a base de qualquer análise de dados de alto nível. No Brasil o termo mais utilizado para ele é “conjunto de dados”, porém este conceito pode gerar dúvidas porque é mais abrangente do que a ideia de dataset para analytics.
Se por um lado um conjunto de dados pode ser representado por diversas planilhas, bancos de dados e assim por diante, o dataset é mais específico, auto-contido (todas as informações já estão presentes na tabela única, em contraste aos bancos de dados relacionais), não possui formatações nos dados e deve ter o formato retangular e possuem um cabeçalho com os nomes bem definidos para cada coluna.
Outros termos usados no dia a dia de análise, são:
- Planilha integrada;
- Flatfile (termo técnico antigo);
- Tabelão;
- Data Warehouse (sistema);
- Dados tabulados;
- Planilha de dados ou “Planilhona”
É muito comum ouvir os times negociando a exportação da planilha mais ou menos da seguinte forma.
“Avisa o pessoal da informática para montar esse planilhão e nos encaminhar depois? “
Exemplos de conjuntos de dados não organizados em formato de Dataset.
Agora mostramos os mesmos conjuntos, mas formatados para serem um dataset:
Formatos mais comuns para salvar Datasets
Os datasets devem ser salvos de alguma forma e abaixo relacionamos os tipos de arquivos mais comuns:
- Documentos Excel com extensão .XLS que permite um máximo 65 mil linhas e o formato mais novo .XLSX que vai até milhão de linhas. Mais detalhes sobre este tipo de arquivo em aqui
- Documentos em formato .CSV . O CSV é a sigla do inglês (comma separated values) valores separados por vírgula é o principal tipo de arquivo para salvar datasets por ser um dos formatos mais comuns de exportação de sistemas transacionais como ERPs, CRMs e SCMs.
Um dos pontos mais importantes é que não possui uma limitação específica para o número máximo de linhas dependendo então da capacidade de memória e disco do computador.
Este tipo de arquivo não salva ou transfere as formatações ou cálculos nas células, somente os dados brutos de forma tabular ou tabelada. Pode ser importado e exportado por praticamente todos os sistemas analíticos de mercado. No Brasil, o padrão conflita com a vírgula decimal por isso é comum que sejam salvos com a separação por “ponto e vírgula”. - Arquivo .TSV, segue praticamente todas as características do .csv porém ao invés de utilizar a vírgula como separador entre os valores, ele utiliza o TAB. Abaixo um exemplo. Duas vantagens em relação ao formato .CSV é a diminuição dos riscos de importação no idioma português que utiliza a vírgula como separador decimal dos números e também tem uma legibilidade mais amigável quando aberto em um simples editor de texto.
Codificação de caracteres (encoding)
A codificação de caracteres, o dialeto de comunicação entre os computadores, é um problema bastante recorrente, percebido após a importação quando se lê palavras com acentos. Quem nunca viu caracteres estranhos como estes?
O padrão mais aceito entre os sistemas é o UTF-8. Este aceita praticamente todos os acentos de diversas línguas e é um dos mais usados no mundo de sistemas livre, open source e o qual nós recomendamos adotar como padrão. Caso a base dos sistemas da organização Microsoft, pode existir diversos padrões como o ISO-8859-1.
Abaixo está a configuração do dialeto do dataset ao abrir um arquivo formato .csv com o sistema de planilha LibreOffice. A função de pré-visualização serve como guia para verificar se os formatos estão corretos.
Veja como ficam o texto “unidade de Saúde Maria Ortiz” quando se utiliza o encoding ISO-8859-1.
Independente de qual seja o padrão de encoding adotado pela organização, é fundamental que os times de analistas sejam capazes de fazer os devidos tratamentos de “enconding” para evitar erros graves de análise como por exemplo calcular o número de pacientes de São Paulo separadamente dos pacientes onde o nome do município ficou sem acento ou com caracteres estranhos.
Como recortar ou gerar um amostragem?
Na formação dos datasets, uma dúvida comum e que faz parte do cotidiano de cientistas de dados é a decisão pelas formas de se reduzir o dataset para acelerar ou dar foco para a análise. Neste artigo – Amostragem ou recorte de dados , explicamos com mais detalhes e tentamos reduzir a ambiguidade desta tarefa.
Como enriquecer datasets?
Para que os datasets sejam enriquecidos com o cruzamento de dados de outros datasets, é necessário definir qual coluna terá as informações de identificação das linhas.
Exemplo: Para adicionar a temperatura do dia de uma cidade, precisamos da coluna da data nos dois datasets, para que então a temperatura da outra base seja anexada.
A questão de enriquecimento de datasets é extensa e vamos falar disso em breve.
Quais ferramentas existem para lidar com datasets?
Esta lista não pretende ser exaustiva, porém mostra algumas ferramentas bastante úteis no trato dos dados. O mais importante é utilizar a ferramenta mais adequada para cada contexto:
- Microsoft Excel – É o sistema mais disseminado no mercado.
- LibreOffice – É equivalente ao Excel porém gratuito e tem uma vantagem de ser mais fácil de configurar importações e exportações em formato .CSV.
- Openrefine – Sistema feito para higienização de datasets.
- Linguagens de programação:R, Python, Scala, Apach Spark , Java e outras.
- Bancos de dados podem fazer diversas operações robustas, mas demandam conhecimentos técnicos avançados.
- Sistemas estatísticos e econométricos comerciais: SPSS (IBM), Minitab, Matlab, Stata, Eviews.
Na figura abaixo, fizemos um gráfico empírico para definir algumas destas ferramentas, de acordo com a facilidade de utilização e capacidade de processamento dos dados. Esta noção é fundamental para a estruturação da arquitetura de sistemas de informação voltada para análise.
Salvo as diversas vantagens ou limitações técnicas e comerciais de cada uma delas. A melhor ferramenta é a que traz os melhores resultados práticos. Por exemplo, nesta outra publicação falamos sobre os sistemas operacionais e máquinas recomendadas para fazer análise de dados ( máquinas para análise de dados).
A qualidade de datasets
A conformação de bons datasets é um trabalho difícil, tanto do ponto de vista técnico (na escolha da melhor ferramenta) como também no ponto de vista conceitual para responder as seguintes perguntas:
- Quais dados vou adicionar?
- Quais respostas estes dados tabelados podem me trazer?
Datasets muito raramente (muito mesmo) são iguais, tanto que na prática ocorrem uma ou mais análises para cada dataset. No que tange a qualidade, isso depende da natureza dos dados e dos questionamentos atrelados a eles, contudo em linhas gerais bons datasets se caracterizam por uma boa proporção de variáveis numéricas, categóricas, sem valores faltantes.
Além disso, bons datasets devem:
- Estar associados aos dicionários (veja um exemplo aqui) de dados que explicam detalhes de negócio e da natureza das informações(saiba mais aqui).
- Nomes na colunas autoexplicativos, curtos, sem acentos e sem espaços ajudam muito tanto do ponto de vista de comunicação com o time como reduz drasticamente problemas incompatibilidade de padrões.
Outliers, o que são e como tratá-los em uma análise de dados?
Onde encontrar datasets para análise?
Existem diversas fontes de datasets para estudo e análise, mas como elencado neste artigo, cada um possui um padrão e demandam abordagens relativamente diferentes e até ferramentas diferentes.
Fontes de Datasets
Na tabela abaixo estão algumas sugestões de fontes úteis de datasets. Caso tenham mais sugestões, deixe um comentário para ampliarmos.
Fonte | Descrição |
Dados Abertos | Diversos Datasets em vários formatos com informações públicas em diversos níveis. |
Data Viva | O DataViva é uma plataforma de visualização de dados que confere valor aos dados públicos, com o objetivo principal de apoiar o planejamento econômico e social, bem como a busca por estratégias de diversificação da economia de determinada região. Dados da RAIS – Salários e Empregos, Comércio exterior (SECEX), ensino superior e ensino médio. O sistema oferece várias formas de visualização e até de download dos dados. |
FRED | Base do Federal Reserve Economic Data. Dados públicos sobre a economia de diversos países do mundo. |
Banco Central Brasil | Indicadores macroeconômicos |
SEF – fazenda estadual | Apresenta uma série de dataset relevantes para pesquisas, porém com grande variação de formatos e séries temporais limitadas. – Empresas com CNPJ, endereço, situação fiscal, certidão negativa de débito. |
Receita federal | Diversos conjuntos de dados ligados à arrecadação dos municípios. |
FipeZap | É uma parceria da Fipe com o portal Zap imóveis. Eles criaram um indicador de valorização dos imóveis mensal. São referência nacional. |
Google Finance | ETF de fundos imobiliários no Brasil. |
Quandl | Indicadores econômicos, dados banco central do Brasil, agrega informações IPCA, variação cambial e outros.. |
Google analytics do cliente | Análise do perfil dos visitas do site da sua própria empresa. Grande variedade de indicadores. Necessita de alinhamento e um acompanhamento constante do time de marketing. |
InMet | Busca por dados do tempo na região ao longo do tempo. Máximo de 365 dias anteriores ao dia da consulta. Atende a maioria dos municípios do Brasil. |
Formação de datasets recorrentes.
Para que existam análises recorrentes, também é necessário que os datasets sejam atualizados constantemente. Como isso é possível materializar o conceito de BI definido neste artigo Diferenças entre BI.
Para que as análises possam ser recorrentes algumas destas perguntas devem ser feitas:
- Qual o grão mínimo em que o dado será coletado? Ou seja, o que representará cada linha do dataset? Será uma consulta de cada paciente ou serão os resultados de uma operação a cada mês?
- Quais são os padrões das fontes de dados?
- Qual a frequência de coleta dos dados?
- Quais as permissões de acesso às fontes?
Uso do conceito dataset para decisões colegiadas (Extra)
A estruturação de dados em forma tabular dataset é muito poderosa e se mostra extremamente útil para estruturar processos decisórios complexos onde diversas alternativas precisam ser analisadas de forma colaborativa.
Neste sentido o coordenador da reunião pode desenhar em um quadro branco o cabeçalho (com o nome das colunas) e os fatores de comparação nas linhas. E as opções de decisão sendo preenchidas pelos participantes de forma colaborativa.
Desta maneira pode haver um nível maior de alinhamento entre os participantes e até descobrir informações não previstas anteriormente com impacto direto na estratégia. A limitação deste modelo de dataset é o número de linhas e colunas, já que a complexidade da informação vai de encontro aos limites inerentes ao processo decisório da cognição humana.
Conclusões e recomendações
Aqui nesta publicação, buscamos trazer uma visão bastante prática sobre o conceito de Dataset e o seu papel no ambiente de análises básicas e avançadas de dados. No mercado e na própria academia estas informações existem, mas de forma dispersa.
Em resumo:
- Bons datasets possuem seus dicionário de dados (Conceito já descrito e disponível para download aqui)
- Os datasets necessitam ser autocontidos, ou seja, todas as informações necessárias para responder questões de análise devem estar presentes na tabela única.
- Conjuntos de dados não são necessariamente datasets, assim como planilhas tradicionais de excel (com gráficos e formatações) também não.
- Dataset é um conceito útil também para a gestão, permitindo assim alinhar decisões de grande complexidade e impacto de forma colegiada. A utilização desta forma de olhar para os dados (estratégia) vai ao encontro da construção dos pilares da indústria 4.0, conceito que já abordamos neste artigo (indústria 4.0).
- Existem diversas ferramentas gratuitas para o tratamento e análise de datasets, em diversos níveis de dificuldade e complexidade.
- Datasets de boa qualidade são os pilares para o aumento dos níveis de maturidade das organizações (Falamos sobre isso aqui).
Recomendações:
- Procure padronizar os formatos entre todos os participantes das análises. Verifique se o formato está de acordo com os sistemas. A falta de padronização gera muito trabalho extra não analítico e exige atenção.
- Verifique sempre o encoding do arquivo antes de qualquer importação, uma vez que estes dados tiverem sido importados errados, diversos problemas inesperados podem ocorrer e se tornam irreversíveis no desenrolar do projeto.
- Para aqueles que buscam resolver problemas específicos de análises como estes citados em (14 setores e dados para análise de dados). Recomendamos pesquisas pelos termos “microdados” associados a área de interesse.
- Utilize estratégias de gestão de conhecimento, para assim garantir a provenança (Provenança ou Proveniência de dados é a estrutura de sistemas que fornece um registro histórico dos dados e suas origens, respondendo questões como Onde os dados foram coletados, quando foram, por qual motivo, como foram transformados e para quem serão entregues.)
Não deixem de nos seguir, pois há muito mais pela frente. Fiquem a vontade para comentar, compartilhar, adicionar mais informações ao tema.
Quem é a Aquarela Analytics?
A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial Corporativa na indústria e em grandes empresas. Por meio da plataforma Vorteris, da metodologia DCM e o Canvas Analítico (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania, Mercedes-Benz, Grupo Randon (automotivo), SolarBR Coca-Cola (varejo alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Auren, SPIC Brasil (energia), Telefônica Vivo (telecomunicações), dentre outros.
Acompanhe os novos conteúdos da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!
Autores
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
Doutor e Mestre em Finanças pela Universidade Federal de Santa Catarina – Brasil. Pesquisador em finanças / economia comportamental e mercado de capitais. Atualmente Data Scientist aplicando estratégias de aprendizado de máquina em problemas de negócios de grandes organizações no Brasil e no exterior.
2 Comments
[…] Continue Lendo O que é inteligência artificial (IA), tipos e suas aplicações de negócio Datasets, o que são e como utilizá-los O Design como ferramenta transformadora na indústria […]
[…] rodarmos o VORTX para todo o dataset foram encontrados 17 clusters, cuja distribuição geográfica pode ser visualizada no gráfico a […]