Serverovny.cz/Fórum/Co všechno zahrnout do alertingu pro problémy se serverem?

Co všechno zahrnout do alertingu pro problémy se serverem?

Zajímalo by mě, co všechno byste měli mít na paměti, když nastavujete alerting pro problémy se serverem. Je jasné, že v dnešní době je důležité mít pod kontrolou všechny možné výpadky a problémy, které mohou nastat. Ale co přesně by měl váš alerting zahrnovat? Myslíte, že byste měli sledovat pouze základní metriky jako CPU a paměť, nebo byste měli jít ještě dál a zahrnout i další faktory jako diskové I/O, síťovou latenci nebo dostupnost služeb? A co třeba specifické aplikace běžící na serverech? Je dobré mít alerty na konkrétní aplikace, nebo je lepší zaměřit se na celkovou infrastrukturu? Jak často byste měli dostávat notifikace – pokud je vše v pořádku, tak proč ne třeba jednou za den? Nebo je lepší dostávat upozornění hned, jakmile dojde k nějakému potenciálnímu problému, i když to může znamenat spoustu hluku? A co nástroje na monitoring – máte nějaké osvědčené tipy na software, který by mohl pomoci s alertingem? Jakým způsobem byste měli tyto notifikace dostávat? E-mailem, SMSkou nebo přes nějakou aplikaci? A co uživatelská role – jak nastavovat alerty pro různé úrovně administrátorů, aby každý dostával jen to, co potřebuje vědět? Tohle všechno mě zajímá a rád bych slyšel vaše názory a zkušenosti ohledně toho, jak nejlépe nastavit alerting pro servery. Co vy na to?

211 slov
2.1 minut čtení
10. 1. 2023
Jarmila Koudelková

Takže co se týče alertingů pro servery, určitě bys měl mít pokryté základní věci jako CPU, paměť a diskový prostor. Ale to není vše, co bys měl sledovat. Je dobré mít i monitorování diskového I/O, síťové latence a dostupnosti služeb. Když máš aplikace běžící na serverech, tak je fajn mít alerty i na tyhle specifické aplikace, aby ses dozvěděl o problémech hned, jak nastanou.

Co se týče frekvence notifikací, já bych šel do toho, že chci vědět o problémech hned – lepší mít trochu hluku než přehlédnout něco důležitého. Existuje spousta nástrojů na monitoring, třeba Prometheus nebo Grafana, které ti můžou pomoct s alertingem. Notifikace bych doporučil posílat e-mailem nebo přes nějakou chatovací aplikaci, to je rychlé a přehledné.

A co se týče uživatelských rolí, tak určitě nastavuj alerty podle toho, kdo co potřebuje vědět. Ne každý administrátor potřebuje stejné informace. Takže shrnuto, zaměř se na klíčové metriky, zahrň aplikace a nastav to tak, aby to bylo efektivní pro tým.

159 slov
1.6 minut čtení
19. 1. 2025
Filip Řezáč

Takže co se týče alertingu pro servery, určitě se vyplatí sledovat víc než jen CPU a RAM. Diskový I/O, latence sítě a dostupnost služeb jsou fakt důležitý. Když máš nějaký aplikace, tak je dobrý mít i alerty přímo na ně, protože problém může být v aplikaci a ne na serveru. Co se týče notifikací, já bych šel spíš do real-time alertů. Je lepší dostat hned vědět, když je něco špatně, než čekat na denní reporty. Ale zase pozor na to, aby to nebylo moc hlučný. O nástrojích – hodně lidí používá Zabbix nebo Prometheus, ale taky záleží na tom, co ti sedí víc. Notifikace bych posílal různě – e-mail, Slack nebo SMSka, podle toho, co mají lidi rádi. A ohledně rolí – určitě rozdělit alerty podle úrovně administratorů, ať každý ví, co potřebuje. Tak to vidím já.

137 slov
1.4 minut čtení
19. 1. 2025
Bohuslav Toman
Serverovny.cz/Články/DevOps praktiky
Monitorování a alerting pro serverovou infrastrukturu v DevOps prostředí: Jak nastavit efektivní systém detekce problémůKompletní průvodce pro nastavení monitorovacích systémů a notifikací v DevOps prostředí. Naučte se, jak detekovat problémy na serverech a optimalizova...
1000 slov
10 minut čtení
9. 1. 2022
Lucie Černá
Přečíst článek
Podobné otázky