Co sledovat při monitorování infrastruktury SRE?
Když mluvíme o monitoring SRE (Site Reliability Engineering), tak se mi honí hlavou tolik otázek, že už nevím, kde začít. Je jasné, že monitorování je klíčové pro udržení zdraví a výkonnosti naší infrastruktury, ale co vlastně sledovat? Měli bychom se zaměřit na latenci, dostupnost nebo nějaké specifické metriky jako je počet chyb? A co třeba sledování systémových prostředků jako CPU, paměť a disky? To všechno může mít vliv na výkon našich aplikací. Jaké nástroje jsou nejlepší na tyto úkoly? Existuje něco jako ideální kombinace metrik, které by měly být vždy v hledáčku, nebo je to spíš situace od situace? Zvlášť mě zajímá, jestli existují nějaké best practices ohledně nastavení alertů. Jak často bych měl dostávat upozornění - denně, týdně nebo jen při významných událostech? Jaké metriky jsou signály pro to, že něco není v pořádku? Je dobré mít dashboardy s vizualizacemi, nebo stačí čistě textové logy? A co bezpečnostní aspekty monitorování? Jak se vyhnout slepému sledování a nezapomínat na související problémy jako je ochrana dat? Co všechno bych měl mít na paměti při definování SLA a SLO ve vztahu k monitorování? Myslíte si, že byste měli mít oddělené monitorovací nástroje pro produkční a vývojová prostředí? Jaké zkušenosti máte vy s tímto tématem?