Jak mám začít s nastavením Hadoop clusteru pro mé velké datové projekty?
Mám v plánu spustit nějaké velké datové projekty a přemýšlím o tom, jakým způsobem začít s nastavením Hadoop clusteru. Zatím jsem v tomhle ohledu docela nováček a nevím, kde začít. Mám pár serverů, které bych rád využil, ale jak správně nakonfigurovat tento cluster? Jaký hardware je vlastně nejlepší pro Hadoop? Myslíte, že je lepší použít virtuální stroje nebo fyzické servery? A co takhle síťová infrastruktura? Musím mít něco speciálního, aby to všechno fungovalo hladce? Slyšel jsem něco o HDFS a MapReduce, ale nejsem si jistý, jak tyto komponenty v praxi fungují. Jakým způsobem by měl vypadat proces instalace a co všechno bych měl mít na paměti při nastavování clusteru? Jaké nástroje nebo aplikace doporučujete pro monitorování výkonu a správy dat v Hadoopu? Bude mi stačit základní znalost Linuxu, nebo bych měl mít hlubší znalosti o administraci serverů? A co bezpečnost, jak se dá zabezpečit takový cluster s ohledem na citlivá data? Omlouvám se za tolik otázek, ale opravdu bych uvítal jakékoli rady nebo tipy od zkušenějších kolegů. Díky moc!