6 recomendações de gestão para projetos de Data Lake

Há diversas razões para a criação de projetos de Data Lake, Big Data e Data Analytics na indústria. Pois, a partir desses projetos, torna-se possível concretizar a ideia de tomadas de decisão baseadas em dados (Data-driven) e a automação de decisões inteligentes por algoritmos de Inteligência Artificial.

Nesse caminho, vale lembrar que a construção de grandes bancos de dados já é, por si, um grande desafio técnico. Além disso, há a necessidade do alinhamento entre pessoas, processos e o negócio para que o tão esperado Data Lake não se torne um Data Swamp (pântano de dados).

Neste artigo, apresentamos alguns pontos de atenção aos gerentes, diretores de tecnologia da informação e CIOs neste processo de alto risco e que geralmente está atrelado a altas cifras.

O que é um Data Lake?

Antes de mais nada, existem diversas definições de Data. Para embasar nossa discussão, escolhemos a definição da Amazon que diz (tradução livre):

“Data Lake (Lago de dados) é um repositório centralizado que permite armazenar dados estruturados e não estruturados em qualquer escala. Em um data lake é possível armazenar dados como eles são/estão, sem ter que primeiro estruturá-los, sendo também possível executar diferentes tipos de análise sobre os dados”.

Pontos de Atenção em Projetos de Data Lake

A ideia de um data lake é de fato muito interessante e acaba evidenciando sua importância estratégica no médio e longo prazo. No entanto, aqui vão algumas dicas gerenciais (não tecnológicas) relacionadas aos processos de construção e estruturação de Data Lake.

01 – Estruturar os dados: significado e metadados

Após a realização de diversos tipos de projetos relacionados a Data Lakes, chegamos a algumas conclusões interessantes que detalhamos abaixo:

O principal fator relacionado ao sucesso ou fracasso das iniciativas de lago de dados era a concepção incompleta e até ambígua das análises. Isso nos levou à criação, registro e publicação do Analytics Business Canvas, que tem o objetivo de extrair o real significado de cada esforço analítico.
Embora o conceito “Lago de Dados” informe que os dados podem ser guardados como são/estão, começar projetos guardando os dados sem uma estratégia clara de negócios não é uma boa intuição. Além disso, ter membros sêniores na equipe ajuda a mitigar muito esse tipo de risco.
O grande sucesso dos projetos de analytics geralmente está na estratégia do uso dos dados frente às oportunidades de negócio e não necessariamente na tecnologia envolvida. O foco deve ser nas motivações e “PORQUÊS” e depois nos “COMOS”. Inclusive, com boas motivações até “COMOS” se tornam mais fáceis de responder.
Além das questões dos significados dos processos de negócio, é importante (muito importante) o uso sistemático de metadados (informações sobre os dados).

Uma dica importante para quem está começando a organizar a área de análise e data lakes é começar estruturando os dicionários dados (um modelo básico pode ser baixado aqui).

É fundamental entender a diferença entre a natureza dos dados transacionais e dados analíticos e os seus papéis/expectativas no projeto. Neste artigo – Como estruturar projetos de analytics de alto nível – apresentamos essa diferença e o porquê isso é fundamental para o processo.

02 – Escolher o stack tecnológico adequado

Embora a tecnologia seja o segundo passo para a estruturação dos lagos de dados, ela é uma das decisões mais importantes a serem tomadas no projeto. A palavra-chave desse processo é a “Arquitetura de sistemas”.

A escolha do stack tecnológico para a criação do data lake (O que é um stack tecnológico de analytics?) deve estar alinhado tanto ao problema de negócio quanto ao conhecimento técnico do time de operação.

Neste ponto, para desenhar a arquitetura da(s) solução(ões) recomendamos profissionais com experiência em engenharia de software, bancos de dados, administração e criação de processos de ETL, escalabilidade de infraestruturas de armazenamento.

Para que o stack tecnológico analítico não entre em desuso é altamente recomendado garantir um alto nível de interoperabilidade entre os sistemas.

03 e 04 – Cuidar com a sub/super estimação do volume de dados

Assim como no planejamento e construção de uma casa, nos projetos, os lagos de dados necessitam de informações mínimas à correta estruturação. Entretanto, muitas vezes, essas informações mínimas não são claras nem para o time de negócios, nem para os arquitetos de sistemas.

Super-estimação

Já vimos casos em que se imaginava um conjunto imenso de dados (muito acima da realidade) para se investigar padrões dos comportamentos de uma indústria em específico.

Com o tempo foi verificado que pequenos ajustes na estratégia dos indicadores de desempenho (dicas sobre estruturação de KPIs) com o uso de técnicas de amostragem (O que é amostragem?) já solucionaram com elegância e precisão mais de 80% dos problemas analíticos.

A dica é questionar diferentes atores envolvidos no projeto, buscando entender a natureza do problema, das perguntas e então olhar para os dados internos e externos.

Sub-estimação de dados

Do mesmo modo que é possível superestimar a necessidade de dados, é também possível subestimá-los.

Existem inovações vindas de outras áreas, com especial ênfase aos projetos de IOT (Internet das Coisas) que, na sua natureza, baseia-se a obter o máximo de dados possível dos sensores. Isso implica de fato em estratégias de armazenamento, compactação, tipos de análise, segurança e ainda velocidade de transmissão.

Neste mesmo assunto, comentamos anteriormente sobre as diferenças conceituais entre amostragem e recorte de dados.

Outra forma de subestimação de dados é a exploração combinatória dos registros que em alguns casos se tornam computacionalmente inviáveis ao processamento e/ou armazenamento. Assim, são imperativas técnicas apropriadas para cada caso.

05 – Analisar a necessidade do uso de índices

A criação de índices nos bancos de dados deve estar bem estruturados e não criados descontroladamente.

“Uso inapropriado e/ou excessivo de índices”

O uso de índices em bancos de dados é uma boa prática que visa aumentar a eficiência de consultas muito frequentes. Isso possibilita ao sistema gerenciador de bancos de dados (SGBD) fazer busca de menor complexidade, evitando as custosas buscas sequenciais. No entanto, índices ocupam espaço, podendo um índice muito facilmente chegar a corresponder a 25% do tamanho de uma tabela.

Em data lakes, o acesso não é repetitivo, não são necessárias consultas de alto desempenho. Portanto, utilizar índices além de chaves primárias para estabelecer as relações entre entidades pode vir a criar volumes desnecessários para atingir uma eficiência não-desejada.

“Lembre-se que nos livros os índices são menores do que o próprio conteúdo”.

06 – Manter a segurança da informação

É evidente que onde há informação valiosa há também riscos de segurança.

A segurança requer um nível de maturidade das estruturas de permissões que, por um lado permitam, acesso rápido e fácil aos analistas e máquinas de analytics sem comprometer regras de acesso que rompam com o sigilo de determinadas informações.

As soluções mais avançadas de governança de dados que conhecemos usam com maestria a teoria da identidade em seus sistemas, não permitindo assim que haja usuários utilizando acessos de terceiros.

Toda a engenharia de software do projeto deve estar em constante comunicação com os times da gestão e do negócio para garantir o nível correto de permissão de cada usuário a cada dataset (O que são datasets?)

Atualmente, com a entrada em vigor da Lei Geral de Proteção Dados (LGPD), o fator segurança se torna ainda mais crítico, caso em que os dados armazenados são dados pessoais.

Data Lake – Conclusões e recomendações

Projetos relacionados à estruturação de data lake, big data, analytics de grande escala são complexos por natureza e com grandes riscos de se tornarem pântanos de dados (Data Swamps) inacessíveis e com alta complexidade.

Os pontos apresentados aqui não são exaustivos, mas pontos de vista que minimamente devem ser levados em consideração para mitigação do risco do projeto de montagem de lagos de dados.

Não existem soluções mágicas ou prontas devido ao alto grau de customização dos dados para cada negócio, setor e estratégia empresarial.

A contratação (terceirização) de empresas especializadas no processo é um caminho que pode ser mais seguro e eficiente. Contudo, a terceirização de analytics merece alguns cuidados. Pensando nisso, separamos estes dois artigos:

– Como escolher o melhor fornecedor de Data Analytics?

– Quanto investir em Analytics e Inteligência Artificial?

Finalizando, a transformação digital está se tornando real em várias empresas e indústrias. Os data lakes serão, cada dia mais, um ponto central na estratégia empresarial digital. O tema é relevante e deve ser abordado de forma irrestrita entre os vários departamentos.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial Corporativa na indústria e em grandes empresas. Por meio da plataforma Vorteris, da metodologia DCM e o Canvas Analítico (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania, Mercedes-Benz, Grupo Randon (automotivo), SolarBR Coca-Cola (varejo alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Auren, SPIC Brasil (energia), Telefônica Vivo (telecomunicações), dentre outros.

Acompanhe os novos conteúdos da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autores

Joni Hoppen

Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.

Thiago Sant Helena

Experiência em gestão de conhecimento, integração de dados e arquitetura de sistemas. Graduado em Ciências da Computação pela UFSC, entusiasta de software livre e amante de Python.