Prometheus em produção: checklist simples para manter o monitoramento sempre no ar

Quando tudo está estável, observabilidade parece “só mais uma ferramenta”. Mas em momentos de pico, incidentes ou mudanças de infraestrutura, é ela que separa decisões rápidas de tentativas no escuro.

O problema é que o monitoramento também é parte do sistema. E em Kubernetes, componentes como o Prometheus dependem de duas coisas que costumam dar dor de cabeça em produção: armazenamento (storage) e permissões (security). Quando algo sai do lugar, o sintoma aparece rápido: CrashLoopBackOff, reinícios em cadeia e aquela sensação de que o time ficou ”cego” bem na hora que mais precisava enxergar.

Neste post, a proposta é simples: explicar, de forma leve e aplicada, porque Prometheus em produção cai, quais cenários são mais comuns e como criar um processo que reduz drasticamente esse tipo de ocorrência.

O que o CrashLoopBackOff está tentando te dizer

CrashLoopBackOff não é “um erro do Prometheus”. Na prática, é o Kubernetes repetindo o ciclo “sobe > falha > tenta de novo”, geralmente porque algo essencial para o processo iniciar não está ok (disco, permissão, configuração básica).

Por que isso impacta o negócio?

Métricas ficam incompletas (ou somem)
Alertas deixam de disparar (ou viram ruído)
Incidentes demoram mais para serem resolvidos

O ponto cego mais comum: storage

Prometheus escreve dados em disco em tempo real. Em produção, mudanças pequenas podem quebrar isso:

Troca de StorageClass
Volume com política/limitação diferente
Comportamento “funciona em um ambiente, falha em outro”

Sinal clássico: o serviço “até tenta”, mas não consegue manter a operação porque não consegue ler/escrever do jeito que precisa.

O segundo campeão: permissões e segurança

Conforme o cluster amadurece, entram controles: rodar como usuário não-root, restringir permissões, políticas de segurança e padronizações internas.

Essas melhorias são ótimas – mas, se não forem alinhadas com a necessidade do Prometheus de gravar em volume, viram o gatilho para reinícios.

Ou seja: em produção, observabilidade precisa ser segura e funcional ao mesmo tempo.

O que muda o jogo: processo, não heroísmo

Um time maduro não depende de “alguém que sabe o comando certo”. Depende de processo:

identificar rapidamente se o problema é “infra” (storage/permissões) ou “config”.

reduzir mudanças arriscadas direto em produção
garantir rollback fácil quando algo foge do esperado

Demonstrações em diferentes cenários

Cenário A: “Subiu ontem, caiu hoje” após uma mudança “pequena”

Exemplo típico: atualização de chart/valores, ajuste de política de segurança, troca de storage.

Como pensar: o Prometheus é o mesmo; o contexto ao redor mudou.

Cenário B: “Funciona na homologação, mas não em produção”

Diferenças comuns:

storage diferente (mais rígido, mais lento, com regras diferentes)
políticas de segurança mais restritivas
padrões de acesso a volume não equivalentes

Cenário C: “Ele sobe, mas fica instável”

Às vezes o pod inicia, mas não aguenta: disco perto do limite, retenção mal ajustada, ou variação de carga.
Lição: “estar no ar” não é o mesmo que “estar saudável”.

Aqui vai um checklist antes de promover alterações:

Storage está consistente em produção?
Permissões e políticas foram consideradas?
Rollback está simples (e testado)?

Dicas e abordagens diferentes:

Mudanças via GitOps (controle e rastreabilidade).
Histórico claro do que mudou.
Rollback rápido.
Menos “ajustes manuais” difíceis de reproduzir.
Além de monitorar a aplicação, monitore a própria camada de observabilidade.
Uso de disco.
Reinícios do Prometheus.
Falhas de coleta.
Tempo sem métricas críticas.

Conclusão – Prometheus em produção

Prometheus em produção não é só “instalar um chart”. É garantir que o monitoramento tenha base sólida: storage adequado, permissões alinhadas e um processo de mudanças que evita surpresas.

Quando isso entra como padrão, o resultado aparece rápido: menos instabilidade, menos tempo de resposta em incidentes e mais confiança para evoluir o cluster sem perder visibilidade.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial Corporativa na indústria e em grandes empresas. Por meio da plataforma Vorteris, da metodologia DCM e o Canvas Analítico (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania, Mercedes-Benz, Grupo Randon (automotivo), SolarBR Coca-Cola (varejo alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Auren, SPIC Brasil (energia), Telefônica Vivo (telecomunicações), dentre outros.

Acompanhe os novos conteúdos da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Luiz Fernando Carvalho

DevOps Engineer na Aquarela Advanced Analytics. Estudante em Análise e Desenvolvimento de Sistemas pela UniCV e músico de 4 acordes.