- Cloudflare confirma que atualização fez com que perdesse dados de registro de clientes
- O incidente durou 3,5 horas no total, levando a uma perda de 55% dos registros
- Apesar de uma correção de cinco minutos, o bug causou problemas indiretos
A Cloudflare confirmou que uma atualização de software incorreta causou a perda de dados de registro de seus clientes recentemente. O incidente, que durou cerca de 3,5 horas, resultou na perda de mais da metade (55%) dos registros.
Envergonhada com a ocorrência do erro, a empresa californiana pediu desculpas aos clientes em uma postagem no blog, prometendo que um problema semelhante não deveria acontecer novamente.
A Cloudflare também observou que as falhas nos sistemas em escala são inevitáveis, mas os subsistemas devem ser construídos para se protegerem no caso de problemas mais amplos.
Cloudflare admite ter perdido logs de dados
O problema teve origem no serviço Logpush da Cloudflare, que agrupa e envia logs de sua rede global aos clientes para conformidade, depuração e análise. Uma atualização de rotina para suportar um novo conjunto de dados acabou configurando incorretamente o serviço, causando o problema.
A empresa afirma que um bug de configuração disse efetivamente a um de seus servidores internos, Logfwdr, que nenhum de seus clientes configurou o envio de logs, levando à perda. Embora os engenheiros tenham identificado e corrigido o bug em cinco minutos, o problema desencadeou um bug mais profundo.
Um dispositivo à prova de falhas integrado, que envia logs para todos os clientes, e não apenas para aqueles com trabalhos Logpush ativos, acabou sobrecarregando o sistema. O sistema de buffer, Buftee, teve que gerenciar 40 vezes sua capacidade normal, deixando o sistema sem resposta.
“Aceitamos que erros e configurações incorretas são inevitáveis. Todos os nossos sistemas na Cloudflare precisam responder a isso de maneira previsível e elegante”, escreveu a empresa.
Olhando para o futuro, a Cloudflare se comprometeu a realizar testes regulares de sobrecarga para simular esse erro, proporcionando confiança de que seus sistemas podem lidar com futuros bugs de natureza semelhante.