Um fato importante que aconteceu nos últimos anos foi a fusão das empresas Cloudera e Hortonworks, que juntas somam um capital de mais de 5.2 bilhões de dólares (Fusão Cloudera e Hortonworks). Esse movimento gerou impactos diretos no mercado de dados, o principal deles foi um aumento expressivo do custo do licenciamento dos clusters HDFS (o que é HDFS e qual seu impacto nos negócios?). Dessa forma, as organizações que utilizam clusters Hadoop da distribuição Cloudera/Hortonworks em sua infraestrutura, se veem obrigadas a decidir entre uma das seguintes estratégias de continuidade de seus negócios:
- Opção de Licença e Suporte:
- Compliance Licenciado: Investir no novo licenciamento para atualizações e suporte especializado (lista de funcionalidades da plataforma)
- Manutenção Limitada sem Compliance: Arriscar-se com sistemas desatualizados sem cumprir os requisitos de compliance (não recomendado).
- Transição para Open Source:
- Migração para Ecossistema Open Source: Realizar a migração para uma abordagem totalmente open source baseada no ecossistema Apache Hadoop e outras soluções de código aberto.
- Estratégia de Nuvem:
- Transição para Arquitetura em Nuvem: Transferir recursos para provedores de nuvem, como AWS, Azure, Oracle, Google Cloud , com consideração dos custos cambiais e riscos de latência.
O objetivo deste artigo é apresentar aos gestores e profissionais de TI, como reduzir os custos de licenças em infraestrutura focando no sistema de arquivos e arquitetura do HDFS. Neste sentido a pergunta chave é:
“ É possível criar ou migrar um datalake Hadoop Cloudera ou Hortonworks para um ambiente sem custo de licenças? “
A resposta é: Sim, é possível, uma vez que a estrutura das aplicações do ecossistema Hadoop são modularizadas e podem ser ajustadas conforme a necessidade do cliente desde que os requisitos mínimos de infraestrutura sejam atingidos. Por convenção, na Aquarela Analytics, buscamos realizar um projeto detalhado da arquitetura, visando garantir 100% de aderência às regras de negócio e suporte de hardware às soluções desenvolvidas. Dessa forma é possível acelerar o Retorno do Investimento (ROI) nos projetos de Data Lakes.
A seguir são apresentados os principais desafios e benefícios do cenário de migração de um cluster on-premise (o que é on premise?) baseado em licenças Cloudera ou Hortonworks para Apache Hadoop, livres dos custos de licenciamento. Custos esses, que quando existentes, podem inviabilizar, em alguns casos, o projeto de dados como um todo.
Ver também: 6 recomendações de gestão para projetos de Data Lake
Open source Data Lake
O stack tecnológico de dados Hadoop é bastante estável e consolidado, amplamente utilizado como parte integral da estratégia de desenvolvimento da cultura de dados ou cultura analítica. Muitos clientes de grande porte usam este stack em diferentes configurações há bastante tempo. Além de ser bastante estável e consolidada, neste contexto, significa ter uma baixa frequência de atualizações, muitos usuários e uma documentação que seja suficiente para que novas equipes possam trabalhar no projeto.
O Hadoop é uma plataforma construída baseada na linguagem JAVA, o que permite a sua utilização em computadores de diferentes tipos de hardware. Contudo as operações de Data Lakes são operações de grande porte, o que demanda recursos computacionais com bastante memória, disco rígido e conectividade. Por isso, componentes do ecossistema Hadoop são geralmente “pesados” e isso requer conhecimento amplamente especializado e profissionais com anos de experiência.
É importante notar que, as modelagens de arquitetura de data lake open source não precisam obrigatoriamente ficar presas somente aos componentes do Hadoop. Atualmente está se consolidando o conceito de Data Lakehouse utilizando “Trino“, “Presto“, “Iceberg“, “Delta“, “Spark” e outras ferramentas com comunidades bem ativas e que podem impactar positivamente na qualidade da infraestrutura de dados.
Benefícios de uma arquitetura Hadoop de Data Lake 100% open source
Existem diversos fatores que influenciam a decisão de migrar uma plataforma Data Lake on-premise totalmente open source. Essa migração inclui diversos benefícios, tais como:
- Redução de custos vinculados à flutuação do dólar (muito presente em estratégias de operação em nuvem)
- Ganho de autonomia em relação aos dados e recursos de dados;
- Maior agilidade na resposta (baixa latência) e
- Maior segurança estratégica da informação.
Para uma análise mais detalhada desses fatores, elaboramos a tabela a seguir:
Fator de Impacto | Hadoop Data Lake (Open Source) | Hadoop Cloudera (Licenciado) |
Custo | – Geralmente, custo mais baixo, pois as ferramentas são gratuitas e não há licenças a serem adquiridas. | – Custos mais altos devido às licenças de software e suporte pago. |
Flexibilidade | – Maior flexibilidade para escolher e personalizar as ferramentas que melhor se adequam às necessidades da empresa. | – Restrito às ferramentas oferecidas pela Cloudera, com menos flexibilidade para personalização. |
Comunidade e Inovação | – A comunidade open source é grande, ativa e inovadora, o que pode resultar em atualizações frequentes e novos recursos. | – Dependência da Cloudera para atualizações e inovações, que podem não ser tão ágeis quanto as comunidades open source. |
Suporte e Manutenção | – Pode depender de recursos internos ou de fornecedores de suporte open source. | – Suporte profissional disponível da Cloudera, o que pode ser vantajoso para empresas que valorizam o suporte técnico profissional e dedicado. |
Integração com Ecossistema | – Elevada capacidade de integração com outras ferramentas e sistemas open source. | – Integração simplificada com produtos Cloudera, podendo ser mais difícil integrar com ferramentas externas. |
Escalabilidade | – Escalabilidade potencialmente maior, pois pode-se dimensionar as ferramentas de acordo com suas necessidades sem preocupações com licenças adicionais. | – Escalabilidade limitada pelas licenças e custos associados à aquisição de mais capacidade. |
Comunidade de Desenvolvedores | – Maior pool de talentos disponíveis para desenvolvimento e manutenção, devido à popularidade das ferramentas open source. | – Talento especializado em produtos Cloudera pode ser mais restrito e caro. |
Independência do Fornecedor | – Menos dependência de um único fornecedor, o que pode reduzir riscos a longo prazo. | – Dependência contínua da Cloudera, o que pode aumentar os riscos de interrupção dos serviços se a relação com o fornecedor for interrompida. |
Segurança | – Possibilidade de auditar e personalizar as configurações de segurança de acordo com as necessidades da empresa. | – Cloudera oferece recursos de segurança, mas a customização pode ser limitada. |
Desafios da migração
A migração de sistemas e dados, sejam eles transacionais e/ou analíticos (Diferença entre sistemas transacionais e analíticos) é um desafio que pode gerar grande impacto na organização uma vez que não tenha sido bem definido, projetado e executado. Diversos elementos devem ser considerados no processo de migração como: paralelismo, latência, segurança, velocidade de comunicação, curva de aprendizagem de novas tecnologias, dentre outros.
Apesar de todos os componentes do ecossistema Hadoop estarem disponíveis para uso, isso não significa que serão de fácil instalação e customização. No caso, da migração de um ecossistema de Data Lake licenciado Cloudera já em produção para uma solução totalmente open source com componentes do ecossistema Hadoop, o desafio e a complexidade podem ser mitigados dependendo do nível de maturidade analítica, de processo e de infraestrutura da empresa.
Aqui estão alguns dos desafios e dificuldades que consideramos importantes a serem considerados antes e durante o processo de migração:
- Componentes chave: A Cloudera é conhecida por seus diversos componentes proprietários e pelo seu envolvimento na contribuição para a comunidade open source a nível mundial. No entanto, um dos maiores desafios enfrentados ao considerar uma migração é a substituição do Cloudera Manager, que atua como um administrador de cluster e substitui o Ambari. Fazer uma análise detalhada de uso dos componentes do cluster Cloudera para compreender como e pelo o que podem ser trocados. Nesses casos, versões de distribuições Cloudera/Hortonworks podem também ser um desafio, principalmente para planejar a migração de aplicações e usuários para a nova infra estrutura.
- Integração de Dados e Ferramentas: A Cloudera fornece um ecossistema integrado com ferramentas que funcionam bem juntas. Migrar para uma solução open source pode exigir uma reestruturação significativa para integrar várias ferramentas de diferentes projetos e comunidades open source. A interoperabilidade pode ser um problema, porém pode ser contornada com equipes especializadas de integração.
- Requalificação da Equipe: A equipe que está familiarizada com a tecnologia da Cloudera pode precisar adquirir novas habilidades e conhecimentos para lidar com ferramentas e tecnologias open source. Isso pode exigir treinamento extensivo e tempo para a equipe se adaptar.
- Perda de Suporte Técnico Específico: A Cloudera oferece suporte técnico dedicado aos seus clientes. Ao migrar para uma solução open source, a empresa pode perder esse suporte específico e precisará confiar em recursos de suporte da comunidade ou contratar suporte externo.
- Customização e Configuração: A flexibilidade das soluções open source pode ser uma vantagem, mas também pode ser desafiadora. A empresa precisará personalizar e configurar as ferramentas para atender às suas necessidades específicas, o que pode ser demorado e complexo.
- Segurança e Governança: A Cloudera fornece recursos de segurança e governança integrados. Ao migrar para uma solução open source, a empresa precisa planejar e implementar esses recursos por conta própria. Nós recomendamos, Apache Ranger que integra perfeitamente com o Active Directory, e que permite uma boa gestão de segurança e governança dos dados. O sucesso dessa implementação vai depender do nível de envolvimento da empresa.
- Desafios de Escala: A escala de um Data Lake pode ser um desafio significativo. Ao migrar para uma solução open source, a empresa deve garantir que a nova arquitetura possa lidar com o volume crescente de dados de maneira eficaz.
Conclusões e Recomendações
Resumidamente, embora a Cloudera ofereça um ecossistema robusto, se bem planejado é viável realizar uma transição completa para uma abordagem de código aberto, optando por ferramentas alternativas que atendam às necessidades específicas da sua empresa. Essa mudança demandará um planejamento detalhado e minucioso, porém proporcionará maior flexibilidade e controle sobre o seu ambiente de Data Lake.
A estratégia que sugerimos é que seja realizada a migração em paralelo, ou seja, mantendo o sistema de produção em ambiente Claudera, enquanto um Data Lakehouse é preparado.. Isso possibilitaria uma sinergia de economia de custos e modernização das infraestruturas, mitiga impactos na produção e garante uma transição suave entre tecnologias.
O processo pode ser custoso em termos de tempo e recursos financeiros, normalmente ultrapassando seis meses. É essencial alinhar os processos e funções dependentes do Data Lake, pois isso pode afetar os requisitos não funcionais do sistema, como disponibilidade, usabilidade, segurança, compatibilidade e portabilidade, entre outros.
Tanto manter o ambiente Claudera/Hortonworks quanto iniciar um processo de migração para tecnologias Open Source terá seus custos. De um lado, o pagamento das licenças e o investimento recorrente em suporte dedicado, de outro os investimentos na migração de ambiente e dados. O que deve ser considerado como fator primordial de decisão é a estratégia de modernização a médio e longo prazo da organização. Certamente, a migração para sistemas Open Source será uma boa escolha para redução de custos no longo prazo.
Portanto, é fundamental compreender os diferentes cenários e as opções de ferramentas disponíveis para cada etapa do processo de integração de dados, escolhendo aquelas que melhor se adequam às necessidades específicas do seu projeto.
Evitar ficar preso a padrões específicos da indústria, escolher ferramentas com boa adesão da comunidade, considerar a possibilidade de interconexão entre ambientes on-premise e na nuvem, e priorizar a federalização da segurança são aspectos a serem considerados.
Ao projetar a nova arquitetura, é necessário envolver técnicos de migração/instalação, equipes de TI e gestão para garantir a conformidade com todos os requisitos e a utilização eficaz do novo cluster pelos usuários finais e possuir um período de “hypercare” de três a seis meses para garantir a identificação e correção de quaisquer erros ou comportamentos indesejados, bem como para realizar treinamentos necessários.
Em resumo, a migração de uma solução de Data Lake Cloudera licenciada para uma abordagem totalmente open source pode oferecer benefícios, mas também envolve desafios significativos. É fundamental que a empresa avalie cuidadosamente suas necessidades, recursos e capacidades antes de prosseguir com essa transição e esteja preparada para enfrentar os obstáculos ao longo do caminho. A Aquarela Analytics está à disposição para auxiliar nessa transição e garantir que atenda às necessidades específicas de sua indústria 4.0 de dados.
Quem é a Aquarela Analytics?
A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial Corporativa na indústria e em grandes empresas. Por meio da plataforma Vorteris, da metodologia DCM e o Canvas Analítico (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania, Mercedes-Benz, Grupo Randon (automotivo), SolarBR Coca-Cola (varejo alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Auren, SPIC Brasil (energia), Telefônica Vivo (telecomunicações), dentre outros.
Acompanhe os novos conteúdos da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
Ph.D. em Ciência da Computação pela Sapienza Università di Roma (Itália). Doutor em Engenharia e Gestão do Conhecimento pela UFSC. Mestre em Engenharia Elétrica – ênfase em Inteligência Artificial. Especialista em Redes de Computadores e Aplicações para Web, Especialista em Metodologias e Gestão para EaD, Especialista em Docência no Ensino Superior e Bacharel em informática.
Possui experiência acadêmica como Professor, Coordenador, Palestrante e é Avaliador ad hoc do Ministério da Educação (INEP) bem como da Secretaria de Educação Profissional e Tecnológica (MEC) e do Conselho Estadual de Educação (SC).
Nas suas atividades profissionais, atua com de projetos nas áreas de: Ciência de Dados, Inteligência de Negócios, Posicionamento Estratégico, Empreendedorismo Digital e Inovação. Atua como Consultor na área de Projetos para Inovação e Soluções Computacionais Inteligentes utilizando Data Science e Inteligência Artificial.