Jak správně nastavit Apache Spark pro velká data?
Zdravím všechny, chtěl bych se zeptat, jak se vlastně nastavení Apache Spark pro zpracování velkých dat? Mám pár zkušeností s Hadoopem a chtěl bych přejít na Spark, ale nejsem si úplně jistý, co všechno je potřeba udělat pro to, aby to správně fungovalo. Slyšel jsem, že Spark je mnohem rychlejší a efektivnější, ale co je potřeba udělat na začátku? Jaké jsou nejlepší praxe pro konfiguraci Spark clusteru? Mám se zaměřit na nějaké specifické parametry při instalaci? A co s těmi různými režimy běhu jako je Standalone, YARN nebo Mesos? Který je podle vás nejlepší pro práci s velkými datovými sadami? Mám také obavy ohledně škálovatelnosti a výkonu. Jak to vlastně funguje, když přidáte více uzlů do clusteru? Musím upravit nějaké nastavení nebo to všechno probíhá automaticky? Jaké nástroje a knihovny byste doporučili pro integraci s Sparkem? Je dobré použít Spark SQL nebo MLlib pro analýzu dat? Jak se vlastně nastavují zdroje dat jako HDFS nebo jiné databáze? Budu rád za každou radu nebo tip, jak se do toho celého správně dostat. Díky moc!