Jak mohu snížit latenci API při vysokém zatížení?
Když se podívám na naše API, tak jsem si všiml, že jakmile dojde k vyššímu zatížení, latence letí nahoru jako raketa. Přesněji řečeno, když máme více uživatelů, kteří se snaží přistupovat k našim službám současně, zpoždění v odpovědích se stává stále více frustrujícím. Zkoušel jsem různé věci jako optimalizaci dotazů na databázi nebo caching, ale pořád to nevypadá na 100 % efektivní. Také mluvím o nějakých timeout chybách a občas se zdá, že server prostě nestíhá. Četl jsem něco o load balancerech a microservices architektuře, ale nejsem si jistý, jestli by nám to mohlo pomoct a jak přesně to implementovat. Můžete mi prosím poradit, co všechno bych měl zvážit při snaze o snížení latence API? Jaké metody nebo technologie byste doporučili? A co třeba horizontální škálování? Je to vůbec reálné řešení pro nás? Odpovědí bude spousta, ale potřeboval bych trochu namotivovat a nasměrovat, co vlastně dělat dál. Děkuji!