Sparkが未来のビッグデータプラットフォームである理由

コンテンツ

Apache Sparkとは
SparkがHadoopよりも重要な理由
Sparksのユニークな機能とは何ですか？
SparkがHadoopの代替品ではない理由
企業がSparkとHadoopについて考えるもの
実用的な実装
結論

ソース：Snake3d / Dreamstime.com

取り除く：

Apache Sparkは、Hadoopに忍び寄る（ある意味ではそれを超える）ビッグデータを処理するためのオープンソースツールです。

Apache Hadoopは、長い間ビッグデータアプリケーションの基盤であり、すべてのビッグデータ関連製品の基本的なデータプラットフォームと考えられています。ただし、パフォーマンスの高速化と結果の迅速化により、インメモリデータベースと計算の人気が高まっています。 Apache Sparkは、メモリ内機能を利用して高速処理（Hadoopのほぼ100倍）を実現する新しいフレームワークです。そのため、Spark製品は、ビッグデータの世界で、主に高速処理のためにますます使用されています。

Apache Sparkとは

Apache Sparkは、膨大な量のデータ（ビッグデータ）を迅速かつ簡単に処理するためのオープンソースフレームワークです。ビッグデータに基づく分析アプリケーションに適しています。 Sparkは、スタンドアロンまたはクラウドのHadoop環境で使用できます。カリフォルニア大学で開発され、その後Apache Software Foundationに提供されました。したがって、それはオープンソースコミュニティに属し、非常に費用対効果が高く、さらにアマチュア開発者が簡単に作業できるようになります。（Hadoopsオープンソースの詳細については、Apache Hadoopエコシステムに対するオープンソースの影響とはを参照してください。）

Sparkの主な目的は、中心となるデータ構造を回避するアプリケーションフレームワークを開発者に提供することです。また、Sparkは非常に強力であり、短時間で大量のデータを迅速に処理する固有の機能を備えているため、非常に優れたパフォーマンスを提供します。これにより、最も近い競合他社であると言われているHadoopよりもはるかに高速になります。

SparkがHadoopよりも重要な理由

Apache Sparkは、いくつかの機能でHadoopを圧倒することが常に知られています。これが、なぜそれがそれほど重要なままであるのかを説明しています。これの主な理由の1つは、処理速度を考慮することです。実際、既に述べたように、Sparkは同じ量のデータに対してHadoopのMapReduceよりも約100倍高速な処理を提供します。また、Hadoopと比較して使用するリソースが大幅に少ないため、費用対効果が高くなります。

Sparkが優位を占めるもう1つの重要な側面は、リソースマネージャーとの互換性の面です。 Apache Sparkは、MapReduceと同様にHadoopで実行されることが知られていますが、現在、後者はHadoopとのみ互換性があります。ただし、Apache Sparkについては、YARNやMesosなどの他のリソースマネージャーと連携できます。データ科学者は、これをSparkがHadoopを実際に凌ぐ最大の分野の1つとしてしばしば引用しています。

使いやすさに関しては、SparkはHadoopよりもはるかに優れています。 Sparkには、Spark SQLのようなもののほかに、Scala、Java、Pythonなどのいくつかの言語用のAPIがあります。ユーザー定義関数を記述するのは比較的簡単です。また、コマンドを実行するための対話モードを誇っています。一方、HadoopはJavaで記述されており、プログラムを作成するのがかなり難しいという評判を得ていますが、プロセスを支援するツールはあります。（Sparkの詳細については、Apache Sparkが迅速なアプリケーション開発にどのように役立つかを参照してください。）

Sparksのユニークな機能とは何ですか？

Apache Sparkには、データ処理ビジネスの競合他社の多くと真に区別するいくつかのユニークな機能があります。これらのいくつかを以下に簡単に概説しました。

誰もソフトウェアの品質を気にしない場合、プログラミングスキルを向上させることはできません。

Sparkには、機械学習アルゴリズムの助けを借りて、必要な情報をコアにロードする固有の機能もあります。これにより、非常に高速になります。

Apache Sparkには、グラフや、本質的にグラフィカルな情報を処理する機能が備わっているため、非常に正確に簡単に分析できます。

Apache SparkにはMLibがあります。これは、構造化された機械学習用のフレームワークです。また、Hadoopよりも実装が圧倒的に高速です。 MLibは、統計読み取り、データサンプリング、前提テストなど、いくつかの問題を解決することもできます。

SparkがHadoopの代替品ではない理由

SparkにはHadoopに勝るいくつかの側面があるという事実にもかかわらず、Hadoopを実際に置き換えることができない理由がいくつかあります。

まず、Hadoopは、Sparkと比較した場合に、より多くのツールセットを提供するだけです。また、業界で認められているいくつかのプラクティスもあります。ただし、Apache Sparkはまだドメイン内で比較的若く、Hadoopに匹敵するまでしばらく時間がかかります。

HadoopのMapReduceは、本格的な運用の実行に関して、特定の業界標準も設定しています。一方、Sparkは完全な信頼性で動作する準備が完全には整っていないと考えられています。多くの場合、Sparkを使用する組織は、一連の要件に対応できるように、Sparkを微調整する必要があります。

HadoopのMapReduceは、Sparkよりも長く使用されていたため、設定も簡単です。ただし、Sparkがラフなパッチを実際にテストしていないまったく新しいプラットフォームを提供することを考えると、これはSparkには当てはまりません。

企業がSparkとHadoopについて考えるもの

多くの企業がすでにデータ処理のニーズにSparkを利用し始めていますが、話はこれで終わりではありません。それは確かに驚くべきデータ処理プラットフォームにするいくつかの強力な側面を持っています。ただし、修正が必要な欠点もかなりあります。

Apache Sparkは今後も存続し、データ処理のニーズの将来である可能性さえあるというのが業界の考え方です。ただし、その潜在能力を本当に活用できるようにするためには、多くの開発作業と洗練を行う必要があります。

実用的な実装

Apache Sparkは、データ処理要件に適した多くの企業に採用され、現在も採用されています。最も成功した実装の1つは、Shopifyによって実行されました。Shopifyは、ビジネスコラボレーションに適格な店舗を選択しようとしていました。しかし、同社のデータウェアハウスは、顧客が販売している製品を理解したいときにタイムアウトし続けました。 Sparkの助けを借りて、同社は数百万のデータレコードを処理し、数分で6,700万のレコードを処理することができました。また、どの店舗が適格かを判断しました。

PinterestはSparkを利用して、開発トレンドを特定し、それを使用してユーザーの行動を理解します。これにより、Pinterestコミュニティの価値がさらに高まります。 Sparkは、世界最大の旅行情報サイトの1つであるトリップアドバイザーでも使用されており、訪問者への推奨をスピードアップしています。

結論

Apache Sparkの現在の能力と、Apache Sparkがテーブルにもたらす独自の機能セットを疑うことはできません。その処理能力と速度、およびその互換性により、今後いくつかのことが行われるようになります。ただし、その潜在能力を完全に実現するためには、改善が必要な領域もいくつかあります。現在のところHadoopが支配しているが、Apache Sparkには明るい未来があり、多くの人がデータ処理要件の将来のプラットフォームであると考えています。