Kudu：Hadoopエコシステムのゲームチェンジャーですか？

コンテンツ

Kuduとは
Kudusの現在のステータスは何ですか？
KuduはHDFS / HBaseをどのように補完できますか？
Kuduフレームワークの機能
KuduはHadoopエコシステムをどのように変えることができますか？
バグやストレスなし-あなたの人生を破壊することなく人生を変えるソフトウェアを作成するためのステップバイステップガイド
結論

ソース：Agsandrew / Dreamstime.com

取り除く：

Kuduは、ストレージをより効率的に管理するのに役立つオープンソースプロジェクトです。

Kuduは、更新可能なストレージを提供する新しいオープンソースプロジェクトです。これは、順次および読み取り専用ストレージを提供するHDFS / HBaseを補完するものです。 Kuduは、現在ビジネスの需要である高速データの高速分析により適しています。そのため、Kuduは単なるHadoopエコシステムプロジェクトではなく、市場を変える可能性を秘めています。（Hadoopの詳細については、知っておくべき10の最も重要なHadoop用語を参照してください。）

Kuduとは

Kuduは、構造化されたデータをテーブルの形式で保存する特別な種類のストレージシステムです。各テーブルには、事前定義された列数があります。それらのすべてに、実際にはそのテーブルの1つ以上の列のグループである主キーがあります。この主キーは、制限を追加し、列を保護するために作成されます。また、インデックスとして機能するため、簡単に更新および削除できます。これらのテーブルは、タブレットと呼ばれる一連のデータサブセットです。

Kudusの現在のステータスは何ですか？

Kuduは本当によく開発されており、すでに多くの機能と結合されています。ただし、ユーザーがいくつかの変更を提案し、行う場合は、さらに簡単に磨くことができます。

Kuduは完全にオープンソースであり、Apache Software License 2.0を持っています。また、Apache Incubatorプロジェクトとして開発できるように、Apacheに提出することも意図しています。これにより、開発がさらに速く進行し、視聴者をさらに増やすことができます。一定の時間が経過すると、Kuduの開発は公開され、透過的に行われます。 AtScale、Xiaomi、Intel、Splice Machineなどの多くの企業が、Kuduの開発に貢献するために協力しました。また、Kuduには大きなコミュニティがあり、多数の視聴者がすでに提案や貢献を提供しています。ですから、Kuduの開発を推進しているのは人々です。

KuduはHDFS / HBaseをどのように補完できますか？

Kuduは、HDFS / HBaseに代わるものではありません。実際には、HBaseとHFDSの両方をサポートし、それらを一緒に実行して機能を強化するように設計されています。これは、HBaseとHDFSが特定のマシンでKuduよりも強力にする多くの機能をまだ持っているためです。全体として、そのようなマシンはこれらのシステムからより多くの利益を得るでしょう。

Kuduフレームワークの機能

Kuduフレームワークの主な機能は次のとおりです。

テーブルの列の非常に高速なスキャン– ParquetやORCFileのような最適なデータ形式には、Kuduが完全に対処する最適なスキャン手順が必要です。このような形式には、カラムナーデータが適切にエンコードされている場合にのみ発生するクイックスキャンが必要です。
パフォーマンスの信頼性– Kuduフレームワークは、Hadoopに存在する多くの抜け穴とギャップを埋めることにより、Hadoopの全体的な信頼性を高めます。
Hadoopとの簡単な統合– Kuduは、Hadoopおよびそのさまざまなコンポーネントと簡単に統合して、効率を高めることができます。
完全にオープンソース– KuduはApache 2.0ライセンスを備えたオープンソースシステムです。さまざまな企業やバックグラウンドの開発者の大規模なコミュニティがあり、定期的に更新して変更の提案を行っています。

KuduはHadoopエコシステムをどのように変えることができますか？

Kuduは、Hadoopのエコシステムに適合し、その機能を強化するために構築されました。 MapReduce、HBase、HDFSなどのHadoopの主要コンポーネントの一部と統合することもできます。 MapReduceジョブは、データを提供するか、Kuduテーブルからデータを取得できます。これらの機能はSparkでも使用できます。特別なレイヤーにより、Spark SQLやDataFrameなどの一部のSparkコンポーネントがKuduからアクセス可能になります。 Kuduはこれらの機能を置き換えるほど開発されていませんが、数年後には十分に開発されると推定されています。それまでは、HadoopとKuduの統合は非常に便利であり、Hadoopのエコシステムの大きなギャップを埋めることができます。（Apache Sparkの詳細については、Apache Sparkが迅速なアプリケーション開発にどのように役立つかを参照してください。）

Kuduはさまざまな場所に実装できます。そのような場所の例を以下に示します。

バグやストレスなし-あなたの人生を破壊することなく人生を変えるソフトウェアを作成するためのステップバイステップガイド

誰もソフトウェアの品質に関心がない場合、プログラミングスキルを向上させることはできません。

ほぼリアルタイムでの入力のストリーミング–入力をできるだけ早く受信する必要がある場所では、Kuduは驚くべき仕事をすることができます。そのような場所の例は、さまざまなソースから大量の動的データがあふれるビジネスであり、リアルタイムで迅速に利用可能にする必要があります。
さまざまなアクセスパターンを持つ時系列アプリケーション– Kuduは、時系列ベースのアプリケーションに最適です。テーブルをセットアップし、それを使用してスキャンする方が簡単だからです。そのような使用例はデパートであり、古いデータをすばやく見つけて処理し、製品の将来の人気を予測する必要があります。
レガシーシステム–さまざまなソースからデータを取得し、それらを異なるワークステーションに保存する多くの企業は、Kuduに慣れているでしょう。 Kuduは非常に高速で、Impalaと効果的に統合して、すべてのマシンでデータを処理できます。
予測モデリング–モデリングのための優れたプラットフォームを必要とするデータサイエンティストはKuduを使用できます。 Kuduは、供給されたすべてのデータセットから学習できます。科学者は、モデルを繰り返し実行して再実行し、何が起こるかを確認できます。

結論

Kuduはまだ開発段階ですが、HDFSやHBaseなどの標準Hadoopコンポーネントの優れたアドインになる可能性が十分にあります。すべてのギャップを埋め、さらにいくつかの機能を追加することで、Hadoopエコシステムを完全に変更するのに十分な可能性があります。また、非常に高速で強力であり、大きなデータテーブルを迅速に分析および保存するのに役立ちます。ただし、より効率的に使用するためにはまだ作業が残っています。