O que é um dicionário de dados de Data Analytics

Publicado por Aquarela Analytics em dezembro 11, 2017

Um dos primeiros problemas sentidos pelos profissionais quando iniciam os processos de Data Analytics (não só no Brasil) é a falta de ferramentas, tanto conceituais como também de sistemas para esse propósito. Com isso, o objetivo desse artigo é apresentar as funções do dicionário de dados para data analytics, que consideramos ser um dos elementos mais importantes, simples e que mais fazem falta no dia a dia do trabalho de análise.

Além de explicar o que é dicionário de dados de Data Analytics, apresentamos seu conceito e diferenças entre dicionários de dados tradicionais com base em nossa experiência e boas práticas do mercado nos processos de conformação de escritórios de dados.

Ao final, disponibilizamos um modelo de dicionário de dados em formato Excel, para uso na prática em quaisquer áreas de negócio. Em caso de dúvidas sobre quais áreas aplicar análise de dados, aqui vão algumas sugestões.

O que é Dicionário de Dados?

Um dicionário de dados de data analytics é um documento de texto ou planilha que centraliza informações sobre o conjunto de dados (dataset) sob análise dos cientistas de dados. Seu propósito é melhorar a comunicação entre todos os envolvidos no projeto de Data Analytics.

Segundo a IBM, um dicionário de dados:

“é um repositório centralizado com informações sobre os dados, tais como: significado, relacionamentos, origem, uso e formatos”

Sendo assim, de forma mais técnica, podemos resumir dicionário de dados como sendo um repositório que descreve, de forma estruturada, significado, origem, relacionamento e uso dos dados.

Importância da Dicionarização.

As pessoas nem sempre percebem, mas elementos como postura, entonação, gestos, velocidade, apresentação do texto, entre outros, também transmitem informações que são utilizadas, mesmo que inconscientemente, para contextualizar e interpretar a informação. Porém, quando transformamos a informação em dados, para serem armazenados em uma base de dados, planilhas, etc, com o fim de serem reutilizados em outro momento, por outras pessoas e/ou sistemas, muito dessa informação contextual, essencial para compreensão, é perdida. Assim, a qualidade da comunicação influencia diretamente na qualidade dos insights das análises.

O dicionário de dados serve como um ponto de partida, de comum acordo, objetivo e sem ambiguidades, a partir do qual é possível se reconstruir o contexto em que a informação foi coletada, melhorando significativamente a qualidade das análises de dados construídas a partir dos dados coletados.

“É muito raro um cientista de dados receber os dados do seu cliente como o dicionário já anexado” (Joni Hoppen)

Dicionarização para formação da Cultura de Data Analytics.

O processo de dicionarização é a base da formação da cultura dos povos. É algo tão importante para a manutenção e continuação das línguas e da comunicação dos povos, que as línguas não dicionarizadas – aquelas passadas dos pais para os filhos de forma oralizada – estão sendo extintas. De forma paralela, a dicionarização é fundamental para a manutenção e evolução dos níveis de maturidade de Data Analytics dentro das organizações que no nosso ponto de vista é um processo ainda um processo bastante oralizado. Mais detalhes sobre níveis de maturidade de data analytics nesta pagina

O principal objetivo da dicionarização de dados é um dos passos iniciais na estruturação de projetos de analytics até a materialização de organizações mais complexas como os escritórios de dados, pois é ele que permite manter a homogeneidade do conhecimento dos dados entre os envolvidos em um projeto de Analytics.

A ideia de dicionário de dados não é nova, principalmente para gestores de bancos de dados relacionais e programadores. A novidade, no entanto, é a necessidade recente de dicionários menos técnicos e voltados para o compartilhamento de conhecimento entre outros grupos de profissionais com o perfil de cientistas de dados, analistas de negócios e gestores.

Problema típico.

O leitor já se deparou com alguém fazendo a seguinte colocação (ou talvez o próprio leitor tenha tido essa experiência) : “Consegui uma planilha (conjunto de dados, banco de dados ou dataset) do departamento X mas não entendo o que significa cada uma das colunas e linhas… Tenho que ligar lá toda vez para saber.”

 

Esse é um cenário bastante comum. A boa notícia é que ele pode ser resolvido, bastando um pouco de disciplina, organização e comunicação. Assim como um dicionário idiomático que explica a origem das palavras, seus significados e sinônimos, um dicionário de dados organiza o  conhecimento necessário a respeito dos dados, onde são coletados, suas características, funções e etc.

Impactos da falta de um dicionário de dados para analytics

Uma das maneiras mais intuitivas e menos talvez eficientes de se explorar o valor de data analytics é:

“Te mando uma planilha aí e você vê o que acha”.   

Para este problema há pelo menos 4 pontos chaves de alto risco para a análise:

  • Falta de Orientação de negócio: Desta forma não há uma orientação das regras implícitas do negócio que geram os dados da planilha. (Data Analytics só gera valor quando resolve um problema prático).
  • Novos Datasets: Todo dataset (conjunto de dados) é diferente: Os dados sempre chegam diferentes, seja no conteúdo da planilha como nas estrutura do número de linhas e colunas. Isso obriga o analista a executar processos de higienização e transformação dos dados, processo que demanda mais de 80% do tempo total de uma análise.
  • Demora de interpretação e ruído: O analista terá que questionar diversas vezes o dono do dataset sobre o significado de cada uma das linhas e colunas, e mesmo assim isso não garante que o entendimento seja completo até as conclusões da análise.
  • Desintegração em hierarquias verticais e horizontais: Dentro de organizações, sobre tudo as mais tradicionais, há níveis hierárquicos de responsabilidade (vertical) e diversos setores(horizontal). Assim, é inevitável o aparecimento de vocabulários diferentes. Data Analytics prevê a necessidade de uniformização dessas estruturadas para que a comunicação aconteça com o menor desnível possível de vocábulos.

Dicionário de Dados tradicional vs Dicionário de Dados de Data Analytics

A finalidade de ambos os dicionários é a mesma, pois ambos buscam unificar e padronizar informações sobre os dados inseridos nos sistemas. O dicionário de dados deve levar informação a todos os usuários de forma homogênea.

Uma das principais diferenças entre dicionários tradicionais e de Data Analytics é que os dicionários de dados focados em Analytics necessitam responder atividades diferentes e em níveis de granularidade diferentes para responder questões mais alinhadas a requisitos do negócio do que requisitos dos sistemas. Isso não deve aumentar ou reduzir a importância de dos dois.

Dicionários Tradicionais

Os modelos tradicionais, são mais complexos e detalhados, informando até o tamanho do texto permitido em cada coluna. Por exemplo, a coluna nome do paciente tem um limite de 50 caracteres.

Estas informações são relevantes para garantir planejamentos de infraestrutura, escolha de uma linguagem de programação, integração de sistemas e diversas atividades que garantem a operação diária da empresa, porém quando se planeja utilizar a Inteligência Artificial dos algoritmos de mineração de dados, estas informações podem ser irrelevantes.

Dicionários de Data Analytics

Para que um o modelo tradicional (mais completo) seja adequado aos processos de Data Analytics, eles precisam ser ajustados aos perfis profissionais que irão consumir a informação, sobre tudo aos cientistas de dados e analistas de negócios interessados na assertividade das predições/prescrições de modo prático com o cliente.

Em data analytics, os dicionários estão mais focados nos significado das linhas (registros) e principalmente das colunas das tabelas (variáveis, fatores, características) para que as diversas pessoas envolvidas pensem sobre o problema de negócio (o que se quer analisar) na forma mais prática, simplificada e parecida possível.

Na tabela a seguir, apresentamos algumas sugestões de atividades e os consumidores dos diferentes dicionários.

Atividade Tradicional
(Tecnologia da Informação)
Dicionário de Analytics
(Escritório de Ciência de dados)
Ambos
Integração de sistemas X
Modelagem de bancos de dados; X
Migração de sistemas X
Higienização de dados X
Criação de modelos, exploratórios,  preditivos e prescritivos. X
Geração de relatórios analíticos X
Dados transacionais X
Dados analíticos X

Recomendações práticas

  1. Faça o versionamento dos dicionários e mantenha-os atualizados com alguém responsável pela gestão do documento. O fato de existir pessoas trabalhando com versões diferentes do mesmo dicionário pode causar ruído. Quanto menos ruído na comunicação melhor.
  2. Tenha um repositório acessível por todos os analistas, pois o nível da cultura de data analytics só aumenta quando todos os indivíduos estão cientes dos significados dos processos baseados em dados e este significado é compartilhado.
  3. Tenha um dicionário para cada conjunto de dados e que este obedeça uma padronização mínima dentro do setor ou organização.
  4. Simplifique ao máximo o nome dos termos (nomes das colunas). Utilize nomes curtos, sem espaços, sem acentos (Espaços e acentos geram problemas técnicos nos diversos sistemas) e que sejam intuitivos, para que seus  colegas de trabalho possam entender os dados o mais facilmente possível. Evite jargões técnicos.
  5. Quando compartilhar dados, tenha o costume de enviar os dicionários junto (essa é a recomendação mais importante).

Download do modelo de dicionário de dados

O dicionário de dados pode ser desenvolvido em alguma ferramenta de planilha eletrônica, como Excel, Calc, Google Sheets, entre outros. Um dos pontos mais importantes, já mencionado, é que o arquivo do dicionário deve estar acessível (de forma rápida e prática) a todos os envolvidos em um projeto de Data Analytics. Por isso, mantê-lo em alguma plataforma de compartilhamento de planilhas eletrônicas na nuvem via Google Sheets ou Excel online, por exemplo, pode ser uma boa ideia.

Desenvolvemos um modelo de dicionário de dados, que pode ser baixado pelo link a seguir:

No modelo de dicionário de dados, os campos a serem preenchidos são os seguintes:

  • Variável: nome da variável, como consta no dataset. Normalmente estes nomes são curtos, sem acentos e nem sempre são autoexplicativos.
  • Descrição: o que significa a variável e como ela se relaciona com outras variáveis do dataset. Se houver regras de negócio importantes atreladas ao dado, elas devem estar descritas aqui.
  • Papel na análise: é importante definir se a variável é de identificação (ID), se é a variável resposta (variável dependente, cuja explicação ou predição está sendo buscada na análise), ou se é uma variável explicativa (variável independente, cujo comportamento contém informações acerca da variável resposta).
  • Tipo: trata da natureza da variável, como por exemplo: categórica, binária (ou dummy), escalar, numérica. Mais informações sobre a natureza de dados neste artigo sobre o Gênesis das análises de dados 
  • Texto: são campos de texto aberto, como feedbacks de clientes ou campos de descrição.
  • Variável no tempo da análise: é preciso definir o aspecto temporal das variáveis em relação à variável resposta (pré análise, pós, durante, ou atemporal). Isso é muito importante para eliminar variáveis que não serão úteis para a resposta que se deseja obter.
  • Quantidade de níveis: nas variáveis categóricas e escalares existem níveis. É importante definir os níveis existentes em cada variável para que o analista possa ter uma noção do processamento de máquina que será exigido na hora de rodar os modelos analíticos.

O modelo de dicionário de dados do link acima segue as dicas de tornar tabelas de Excel muito mais apresentáveis que mostramos neste artigo!

O futuro dos dicionários de dados

Atualmente o grande desafio da computação de ponta é a automação do processo de descoberta de insights utilizando a inteligência artificial para descobrir o significado dos dados e assim raciocinar autonomamente sobre problemas de negócio complexos. Abaixo recomendamos a leitura de dois artigos voltados para esse tema que desmistificam um pouco o futuro dos dicionários de dados sendo interpretados não apenas por analistas mas também pelas próprias máquinas:

  • Utilização da semântica para integração automática dos significados dos conceitos (Leia mais sobre este tópico neste artigo: Dos dados a inovação)
  • Associar as informações para resolver problemas de negócio (Entenda melhor lendo este artigo)
Autores:
Wlademir Ribeiro Prates
Cientista de dados na Aquarela. Doutor e mestre em Administração na linha de Finanças pela Universidade Federal de Santa Catarina. Especialista em econometria financeira, finanças comportamentais, métodos quantitativos e mercado de capitais. Pesquisador com artigos científicos publicados em congressos e periódicos nacionais e internacionais. Linkedin
Joni Hoppen
Fundador da Aquarela Advanced Analytics, professor e palestrante na área de Ciência de Dados, mestre em Sistemas de Informação pela universidade de Twente na Holanda, focado em processos de rápida prototipação de Big Data Analytics e cultura de dados. Linkedin
Continue Lendo
Assine nossa Newsletter