Co všechno zahrnout do alertingu pro problémy se serverem?
Zajímalo by mě, co všechno byste měli mít na paměti, když nastavujete alerting pro problémy se serverem. Je jasné, že v dnešní době je důležité mít pod kontrolou všechny možné výpadky a problémy, které mohou nastat. Ale co přesně by měl váš alerting zahrnovat? Myslíte, že byste měli sledovat pouze základní metriky jako CPU a paměť, nebo byste měli jít ještě dál a zahrnout i další faktory jako diskové I/O, síťovou latenci nebo dostupnost služeb? A co třeba specifické aplikace běžící na serverech? Je dobré mít alerty na konkrétní aplikace, nebo je lepší zaměřit se na celkovou infrastrukturu? Jak často byste měli dostávat notifikace – pokud je vše v pořádku, tak proč ne třeba jednou za den? Nebo je lepší dostávat upozornění hned, jakmile dojde k nějakému potenciálnímu problému, i když to může znamenat spoustu hluku? A co nástroje na monitoring – máte nějaké osvědčené tipy na software, který by mohl pomoci s alertingem? Jakým způsobem byste měli tyto notifikace dostávat? E-mailem, SMSkou nebo přes nějakou aplikaci? A co uživatelská role – jak nastavovat alerty pro různé úrovně administrátorů, aby každý dostával jen to, co potřebuje vědět? Tohle všechno mě zajímá a rád bych slyšel vaše názory a zkušenosti ohledně toho, jak nejlépe nastavit alerting pro servery. Co vy na to?