Hadoopとの違い、アーキテクチャ、使うべきケースとダメなケース – 初心者のためのSparkイントロダクション

Apache Sparkとはどんなソフトウェアなのか – このシンプルな問いに、初心者でもわかりやすいように解説してる記事が「KDnuggets」に掲載されていたのでご紹介します。とくにHadoopとSparkの違いにフォーカスして書かれているので、HadoopかSparkかを選択する際にも参考になるかと思います。

【KDnuggets】Apache Spark Introduction for Beginners

Sparkが登場した背景、なぜSparkが使われているのか、Sparkのアーキテクチャおよび実装の方法、Sparkエコシステムのコンポーネント、Sparkのコンセプト、特徴、Sparkが向いているケースと向いていないケースなど、Sparkの全体像を非常にわかりやすくまとめています。表現もシンプルで、たとえばSparkとHadoopとの関係についても

Hadoop is one of the approaches to implementing Spark, so they are not the competitors they are compensators.
(HadoopはSparkの実装へのアプローチのひとつであり、この2つは競合する存在ではなく、補完し合う存在)
–Vikash Kumar, Tatvasoft

と実に的確にポイントをついた書き方をしています(英文ライティングのお手本にしたい…)。

AIやデータアナリティクス、ビッグデータなどのコンテンツが豊富な「KDnuggets」には、データサイエンティストなどのエキスパートに向けた記事だけではなく、このSparkの紹介のように初心者や非エンジニアでも読みやすい記事が数多く掲載されています。ビッグデータ関連のトレンドを追いかけるなら、ぜひ定期的にチェックすることをおすすめします。