Aquarela

Prometheus em produção: checklist simples para manter o monitoramento sempre no ar

Prometheus em produção

Quando tudo está estável, observabilidade parece “só mais uma ferramenta”. Mas em momentos de pico, incidentes ou mudanças de infraestrutura, é ela que separa decisões rápidas de tentativas no escuro. 


O problema é que o monitoramento também é parte do sistema. E em Kubernetes, componentes como o Prometheus dependem de duas coisas que costumam dar dor de cabeça em produção: armazenamento (storage) e permissões (security). Quando algo sai do lugar, o sintoma aparece rápido: CrashLoopBackOff, reinícios em cadeia e aquela sensação de que o time ficou ”cego” bem na hora que mais precisava enxergar. 

Neste post, a proposta é simples: explicar, de forma leve e aplicada, porque Prometheus em produção cai, quais cenários são mais comuns e como criar um processo que reduz drasticamente esse tipo de ocorrência. 

O que o CrashLoopBackOff está tentando te dizer

CrashLoopBackOff não é “um erro do Prometheus”. Na prática, é o Kubernetes repetindo o ciclo “sobe > falha > tenta de novo”, geralmente porque algo essencial para o processo iniciar não está ok (disco, permissão, configuração básica).

Por que isso impacta o negócio? 

  • Métricas ficam incompletas (ou somem)
  • Alertas deixam de disparar (ou viram ruído)
  • Incidentes demoram mais para serem resolvidos


O ponto cego mais comum: storage


Prometheus escreve dados em disco em tempo real. Em produção, mudanças pequenas podem quebrar isso: 

  • Troca de StorageClass
  • Volume com política/limitação diferente
  • Comportamento “funciona em um ambiente, falha em outro”

Sinal clássico: o serviço “até tenta”, mas não consegue manter a operação porque não consegue ler/escrever do jeito que precisa. 

O segundo campeão: permissões e segurança


Conforme o cluster amadurece, entram controles: rodar como usuário não-root, restringir permissões, políticas de segurança e padronizações internas. 

Essas melhorias são ótimas – mas, se não forem alinhadas com a necessidade do Prometheus de gravar em volume, viram o gatilho para reinícios. 

Ou seja: em produção, observabilidade precisa ser segura e funcional ao mesmo tempo. 

O que muda o jogo: processo, não heroísmo


Um time maduro não depende de “alguém que sabe o comando certo”. Depende de processo:

identificar rapidamente se o problema é “infra” (storage/permissões) ou “config”.

  • reduzir mudanças arriscadas direto em produção
  • garantir rollback fácil quando algo foge do esperado

Demonstrações em diferentes cenários


Cenário A: “Subiu ontem, caiu hoje” após uma mudança “pequena”

Exemplo típico: atualização de chart/valores, ajuste de política de segurança, troca de storage.

Como pensar: o Prometheus é o mesmo; o contexto ao redor mudou.

Cenário B: “Funciona na homologação, mas não em produção”

Diferenças comuns:

  • storage diferente (mais rígido, mais lento, com regras diferentes)
  • políticas de segurança mais restritivas
  • padrões de acesso a volume não equivalentes

Cenário C: “Ele sobe, mas fica instável”

Às vezes o pod inicia, mas não aguenta: disco perto do limite, retenção mal ajustada, ou variação de carga.
Lição: “estar no ar” não é o mesmo que “estar saudável”.

Aqui vai um checklist antes de promover alterações:

  • Storage está consistente em produção? 
  • Permissões e políticas foram consideradas?
  • Rollback está simples (e testado)? 

Dicas e abordagens diferentes: 

  • Mudanças via GitOps (controle e rastreabilidade).
  • Histórico claro do que mudou. 
  • Rollback rápido.
  • Menos “ajustes manuais” difíceis de reproduzir. 
  • Além de monitorar a aplicação, monitore a própria camada de observabilidade. 
  • Uso de disco. 
  • Reinícios do Prometheus. 
  • Falhas de coleta. 
  • Tempo sem métricas críticas. 

Conclusão – Prometheus em produção

Prometheus em produção não é só “instalar um chart”. É garantir que o monitoramento tenha base sólida: storage adequado, permissões alinhadas e um processo de mudanças que evita surpresas. 

Quando isso entra como padrão, o resultado aparece rápido: menos instabilidade, menos tempo de resposta em incidentes e mais confiança para evoluir o cluster sem perder visibilidade.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial Corporativa na indústria e em grandes empresas. Por meio da plataforma Vorteris, da metodologia DCM e o Canvas Analítico (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania, Mercedes-Benz, Grupo Randon (automotivo), SolarBR Coca-Cola (varejo alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Auren, SPIC Brasil (energia), Telefônica Vivo (telecomunicações), dentre outros.

Acompanhe os novos conteúdos da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Send this to a friend