O que é um dicionário de dados de Data Analytics

Um dos primeiros problemas sentidos pelos profissionais quando iniciam os processos de Data Analytics (não só no Brasil) é a falta de ferramentas, tanto conceituais como também de sistemas para esse propósito.

O objetivo desse artigo é apresentar as funções do dicionário de dados para data analytics, que consideramos ser um dos elementos mais importantes, simples e que mais fazem falta no dia a dia do trabalho de análise de datasets analíticos (o que são datasets?).

Ao final, disponibilizamos um modelo de dicionário de dados em formato Excel, para uso na prática em quaisquer áreas de negócio.

O que é Dicionário de Dados?

Um dicionário de dados de data analytics é um documento de texto ou planilha que centraliza informações sobre o conjunto de dados (dataset) sob análise dos cientistas de dados. Seu propósito é melhorar a comunicação entre todos os envolvidos no projeto de Data Analytics.

Segundo a IBM, um dicionário de dados:

“é um repositório centralizado com informações sobre os dados, tais como: significado, relacionamentos, origem, uso e formatos”

Sendo assim, de forma mais técnica, podemos resumir que:

o dicionário de dados é um repositório (documento) que descreve, de forma estruturada, o significado, origem, relacionamento e uso dos dados.

Importância da Dicionarização

As pessoas nem sempre percebem, mas elementos como postura, entonação, gestos, velocidade, apresentação do texto, entre outros, também transmitem informações que são utilizadas, mesmo que inconscientemente, para contextualizar e interpretar a informação.

Quando transformamos a informação em dados, para serem armazenados em uma base de dados, planilhas, etc, para reutilizar em outro momento por outras pessoas e/ou sistemas, muito dessa informação contextual, essencial para compreensão, é perdida. Portanto:

A qualidade da comunicação influencia diretamente na qualidade dos insights das análises.

O dicionário de dados serve como um ponto de partida, de comum acordo, objetivo e sem ambiguidades, a partir do qual é possível se reconstruir o contexto em que a informação foi coletada, melhorando significativamente a qualidade das análises de dados construídas a partir dos dados coletados.

“É muito raro um cientista de dados receber os dados do seu cliente como o dicionário já anexado” (Joni Hoppen)

Dicionarização para formação da Cultura de Data Analytics

O processo de dicionarização é a base da formação da cultura dos povos.

É algo tão importante para a manutenção e continuação das línguas e da comunicação dos povos, que as línguas não dicionarizadas – aquelas passadas dos pais para os filhos de forma oralizada – estão sendo extintas.

De forma paralela, a dicionarização é fundamental para a manutenção e evolução dos níveis de maturidade de Data Analytics dentro das organizaçõe. Ou seja, em nosso ponto de vista, é um processo ainda um processo bastante oralizado. Mais detalhes sobre níveis de maturidade de data analytics nesta página

O processo de dicionarização de dados é um dos passos iniciais na estruturação de projetos de analytics que vai até a materialização de organizações mais complexas como os escritórios de dados, pois é ele que permite manter a homogeneidade do conhecimento dos dados entre os envolvidos em um projeto de Analytics.

A ideia de dicionário de dados não é nova, principalmente para gestores de bancos de dados relacionais e programadores. No entanto, a novidade, é a necessidade recente de dicionários menos técnicos e voltados para o compartilhamento de conhecimento entre outros grupos de profissionais com o perfil de cientistas de dados, analistas de negócios e gestores.

Problema típico da dicionarização

O leitor já se deparou com alguém fazendo a seguinte colocação (ou talvez o próprio leitor tenha tido essa experiência) :

“Consegui uma planilha (conjunto de dados, banco de dados ou dataset) do departamento X mas não entendo o que significa cada uma das colunas e linhas… Tenho que ligar lá toda vez para saber.”

Problemas de comunicação pela falta de compartilhamento de significados.

Assim como um dicionário idiomático que explica a origem das palavras, seus significados e sinônimos, um dicionário de dados organiza o conhecimento necessário a respeito dos dados, onde são coletados, suas características, funções e etc.

Impactos da falta de um dicionário de dados para analytics

Uma das maneiras mais intuitivas e menos talvez eficientes de se explorar o valor de data analytics é:

“Te mando uma planilha aí e você vê o que acha”.

Para este problema há pelo menos 4 pontos chaves de alto risco para a análise:

Falta de Orientação de negócio: Desta forma não há uma orientação das regras implícitas do negócio que geram os dados da planilha. (Data Analytics só gera valor quando resolve um problema prático).

Novos Datasets: Todo dataset (conjunto de dados) é diferente: Os dados sempre chegam diferentes, seja no conteúdo da planilha como nas estrutura do número de linhas e colunas. Isso obriga o analista a executar processos de higienização e transformação dos dados, processo que demanda mais de 80% do tempo total de uma análise.

Demora de interpretação e ruído: O analista terá que questionar diversas vezes o dono do dataset sobre o significado de cada uma das linhas e colunas, e mesmo assim isso não garante que o entendimento seja completo até as conclusões da análise.

Desintegração em hierarquias verticais e horizontais: Dentro de organizações, sobre tudo as mais tradicionais, há níveis hierárquicos de responsabilidade (vertical) e diversos setores(horizontal). Assim, é inevitável o aparecimento de vocabulários diferentes. Data Analytics prevê a necessidade de uniformização dessas estruturadas para que a comunicação aconteça com o menor desnível possível de vocábulos.

Recomendações práticas

Faça o versionamento dos dicionários e mantenha-os atualizados com alguém responsável pela gestão do documento. O fato de existir pessoas trabalhando com versões diferentes do mesmo dicionário pode causar ruído. Quanto menos ruído na comunicação melhor.

Tenha um repositório acessível por todos os analistas, pois o nível da cultura de data analytics só aumenta quando todos os indivíduos estão cientes dos significados dos processos baseados em dados e este significado é compartilhado.

Tenha um dicionário para cada conjunto de dados e que este obedeça uma padronização mínima dentro do setor ou organização.

Simplifique ao máximo o nome dos termos (nomes das colunas). Utilize nomes curtos, sem espaços, sem acentos (Espaços e acentos geram problemas técnicos nos diversos sistemas) e que sejam intuitivos, para que seus colegas de trabalho possam entender os dados o mais facilmente possível. Evite jargões técnicos.

Quando compartilhar dados, tenha o costume de enviar os dicionários junto (essa é a recomendação mais importante).

Download do modelo de dicionário de dados

O dicionário de dados pode ser desenvolvido em alguma ferramenta de planilha eletrônica, como Excel, Calc, Google Sheets, entre outros.

Um dos pontos mais importantes, já mencionado, é que o arquivo do dicionário esteja acessível (de forma rápida e prática) a que todos os envolvidos em um projeto de Data Analytics.

É uma boa ideia compartilhar os dicionários de dados em alguma plataforma de compartilhamento de planilhas eletrônicas na nuvem via Google Sheets ou Excel online

Desenvolvemos um modelo de dicionário de dados, que pode ser baixado pelo link a seguir:

No modelo de dicionário de dados, os campos a serem preenchidos são os seguintes:

Variável: nome da variável, como consta no dataset. Normalmente estes nomes são curtos, sem acentos e nem sempre são autoexplicativos.

Descrição: o que significa a variável e como ela se relaciona com outras variáveis do dataset. Se houver regras de negócio importantes atreladas ao dado, elas devem estar descritas aqui.

Papel na análise: é importante definir se a variável é de identificação (ID), se é a variável resposta (variável dependente, cuja explicação ou predição está sendo buscada na análise), ou se é uma variável explicativa (variável independente, cujo comportamento contém informações acerca da variável resposta).

Tipo: trata da natureza da variável, como por exemplo: categórica, binária (ou dummy), escalar, numérica. Mais informações sobre a natureza de dados neste artigo sobre o Gênesis das análises de dados

Texto: são campos de texto aberto, como feedbacks de clientes ou campos de descrição.

Variável no tempo da análise: é preciso definir o aspecto temporal das variáveis em relação à variável resposta (pré análise, pós, durante, ou atemporal). Isso é muito importante para eliminar variáveis que não serão úteis para a resposta que se deseja obter.

Quantidade de níveis: nas variáveis categóricas e escalares existem níveis. É importante definir os níveis existentes em cada variável para que o analista possa ter uma noção do processamento de máquina que será exigido na hora de rodar os modelos analíticos.

O modelo de dicionário de dados do link acima segue as dicas de tornar tabelas de Excel muito mais apresentáveis que mostramos neste artigo!

O futuro dos dicionários de dados

Atualmente o grande desafio da computação de ponta é a automação do processo de descoberta de insights utilizando a inteligência artificial.

Neste caminho, um dos principais dilemas em análise de dados é descobrir o significado dos dados e assim raciocinar sobre problemas de negócio complexos. Assim, a base desse processo, seja ele feito por pessoas ou por máquinas é a dicionarização.

Abaixo recomendamos a leitura de dois artigos voltados para esse tema que desmistificam um pouco o futuro dos dicionários de dados sendo interpretados não apenas por analistas mas também pelas próprias máquinas:

Utilização da semântica para integração automática dos significados dos conceitos (Leia mais sobre este tópico neste artigo: Dos dados à inovação)
Associar as informações para resolver problemas de negócio, web semântica/web3.0 (Entenda melhor lendo este artigo).

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial Corporativa na indústria e em grandes empresas. Por meio da plataforma Vorteris, da metodologia DCM e o Canvas Analítico (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania, Mercedes-Benz, Grupo Randon (automotivo), SolarBR Coca-Cola (varejo alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Auren, SPIC Brasil (energia), Telefônica Vivo (telecomunicações), dentre outros.

Acompanhe os novos conteúdos da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autores

Joni Hoppen

Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.

Wlademir Prates

Doutor e Mestre em Finanças pela Universidade Federal de Santa Catarina – Brasil. Pesquisador em finanças / economia comportamental e mercado de capitais. Atualmente Data Scientist aplicando estratégias de aprendizado de máquina em problemas de negócios de grandes organizações no Brasil e no exterior.

Marcos Santos

Fundador e CEO da Aquarela Analytics. Mestre em Engenharia e Gestão do Conhecimento, autor da metodologia DCM (Data Culture Methodology), com mais de 30 anos de experiência em empreendedorismo e desenvolvimento de sistemas. Estruturou e conduziu com sucesso dezenas de projetos estratégicos de alta complexidade de Inteligência Artificial e Indústria 4.0 com foco em Revenue Management, Predictive Maintenance, Competitive Intelligence, Customer Acquisition, Logística e Estoque para grandes empresas como Mercedes-Benz, Vivo/Telefônica , Coca-Cola, Scania, Randon, Votorantim e Embraer.

3 Comments

Silas Vasconcelos disse:

14 de junho de 2019 às 06:10

Muito bom o artigo, obrigado pelo compartilhamento de conhecimento, estou iniciando em Análise de dados e estou pesquisando o máximo e conteúdo que possa me ajudar a entender melhor essa área, obrigado pelo modelo de dicionário, vou estudar e praticar com ele.

Responder
- Joni Hoppen disse:
  
  6 de janeiro de 2020 às 18:14
  
  Nós que agradecemos o seu feedback! Bons estudos!
  
  Responder
Carmo Melo disse:

6 de julho de 2021 às 01:05

Muito bom o artigo! Tenho pós em ciência de dados e estou estudando aprendizado de maquina, sinto falta de um dicionário de dados bem formado, criei o meu próprio modelo, que está bem inferior as suas dicas ai. O texto é de excelente compreensão.

Me permita contribuir com seu modelo e indicar duas colunas que acho interessante:
1o. Source/Origem do dado (Sistema, pasta, etc)
2o. Feature/Raw (dados criado / ou dado direto do banco de dados)

Obrigado pelo compartilhamento. Parabéns!

Responder