次世代データアーキテクチャの運用Hadoop

著者: Roger Morrison
作成日: 20 9月 2021
更新日: 1 J 2024
Anonim
【B-6】事例でみるAgile型次世代データプラットフォームの構築と運用
ビデオ: 【B-6】事例でみるAgile型次世代データプラットフォームの構築と運用

コンテンツ



ソース:Romeo1232 / Dreamstime.com

取り除く:

Hadoopは、膨大な量のデータを処理できるため、次世代のデータアーキテクチャのキープレーヤーになります。

Hadoopのユーティリティは、業界がより多くを要求するようになるにつれて、ビッグデータの処理と分析を超え始めています。 Hadoopは、エンタープライズデータアーキテクチャに関連するさまざまな要件に着実に対応しながら、元の長所を維持しています。 Hadoopが実行できること、および現在実行していることのリストは非常に長いです。 Hadoopは、従来は従来のテクノロジーで期待されていた大量のトランザクションワークロードを処理できるようになりました。今後、Hadoopには多くの可能性があります。たとえば、SQLに基づくトランザクションシステムはHadoop SQLエンジンを利用でき、Hadoopは多くのRDBMS機能も追加します。 Hadoopは、データ処理および分析機能とエンタープライズアーキテクチャ機能のハイブリッドになっていると言えます。

次世代データアーキテクチャとは

簡単に言えば、次世代のデータアーキテクチャは進化した形式のデータアーキテクチャです。データの収集、保存、配置、分析、処理、統合、使用、分配の方法を管理するデータモデル、データポリシー、ルール、標準など、すべてが次世代データアーキテクチャの下で進化しています。

初期のデータアーキテクチャと次世代データアーキテクチャの主な違いは、ビッグデータとも呼ばれる膨大な量のデータをリアルタイムで収集、保存、処理する後者の機能です。このアーキテクチャは、プライバシー、セキュリティ、およびデータガバナンスの標準を損なうことなく、これらすべての複雑なタスクを実行します。

次世代のデータアーキテクチャは多くの課題に直面しています。ビッグデータの量、速度、多様性を扱うのは簡単ではありません。さらに、システムワークロードの最適化、パフォーマンス、速度と精度の改善、およびコスト削減の要件を追加します。言うまでもなく、前述のデータアーキテクチャはそのような要求を管理する必要がありませんでした。


そのため、CIOと情報アーキテクトは、目標を達成するのに役立つソリューションを見つけたいと考えています。運用Hadoopは、このconでしばらく焦点を当てています。以下のセクションでは、運用Hadoopが問題を解決する方法について説明します。

次世代アーキテクチャの欠点におけるHadoopからの期待

企業は、より良い結果を提供するというプレッシャーにさらされており、その効果はテクノロジーに期待されるものにまで及んでいます。そのため、Hadoopはもはやデータを処理するだけではありません。 CIOとCTOは、Hadoopにさらに多くを求めています。以下は、Hadoopからの期待のリストです。実際、Hadoopはこれらの期待のいくつかをすでに実現しています。

Hadoopは、SQLに基づいており、作成、読み取り、更新、および削除機能を備えたトランザクションシステムで動作することが期待されています。トランザクションシステムはSQLエンジンを活用します。システムには、POSIX(Portable Operating System Interface)に完全に準拠し、大量のトランザクションを処理する機能もあります。

Hadoopは、バックアップ、フォールトトレランス、リカバリ、災害復旧などの機能をサポートする予定です。 HadoopがRDBMS機能を備えたシステムに進化するには、既存のITツールとの互換性が必要です。

一部の開発から明らかなように、Hadoopはすでに期待に応えるべく取り組んでいます。 Hadoopは、YARNが提供するリソース管理サポートに基づいて、リアルタイム分析と高速応答を提供できます。 YARNは、リソースマネージャーであることに加えて、ビッグデータアプリケーション用の大規模で分散型のオペレーティングシステムです。 Apache Stormのような他の開発、Apache Spark、Apache Hive、Drill、MapR-FS(高性能HDFSの代替)などの分散インメモリアーキテクチャは、さまざまな完全なデータベース機能を提供するために機能することが知られています。バックアップ、災害復旧、フォールトトレランスなど。(YARNの詳細については、Hadoop 2.0(YARN)フレームワークの利点をご覧ください)


Hadoopが次世代のデータアーキテクチャに追加できる値は何ですか?

運用Hadoopが次世代データアーキテクチャに追加できる値は、2つの観点から見ることができます。1つは、上記の期待を満たしているかどうか、もう1つは追加のことを行っているかどうかです。以下に、運用Hadoopがもたらす顕著な値を示します。

Hadoopは、HDFSを介してプラットフォーム内のデータのスケーラビリティと管理性を向上させることができます。また、データオペレーティングシステムは、HadoopのYARNアプリケーションを介して有効化されています。この戦略は、基本レベルでのデータアーキテクチャの変化を表しています。現在、Hadoopは、トランザクション指向のデータベース、グラフデータベース、ドキュメントデータベースなどのさまざまなタイプのデータを格納でき、これらのデータにはYARNアプリケーションを介してアクセスできます。データを他の場所に複製または移動する必要はありません。

エンタープライズデータアーキテクチャとしてのパフォーマンスの向上

Operational Hadoopは、エンタープライズデータアーキテクチャの中核システムになることを目指しています。 Hadoopがエンタープライズデータアーキテクチャをさらに活用するにつれて、データサイロは、それらの間の境界線が排除されるにつれて排除されるでしょう。ほとんどすべての面で急速な改善が見込まれます。改善は、より効率的なファイル形式、より優れたSQLエンジンパフォーマンス、改善されたファイルシステム、およびエンタープライズアプリケーションのニーズを満たす堅牢性という形で行われます。

Hadoopと他のテクノロジーの違い

過去において、Hadoopとデータエンタープライズテクノロジーの主な違いは、Hadoopのビッグデータ処理、レポート、および分析機能でした。現在、運用中のHadoopがますますエンタープライズデータアーキテクチャの一部になるにつれて、エンティティ間の違いはますます曖昧になっています。そのため、運用可能なHadoopは、既存のエンタープライズデータアーキテクチャに代わる優れた選択肢として浮上しています。

結論

期待と進歩を考えると、Hadoopはかなり長い間、業界に焦点を当てるでしょう。ただし、Hadoopに集中しすぎず、他のテクノロジーを単に無視することは理にかなっています。これは、他のテクノロジーが同じパラメーターで進歩を遂げ、Hadoopを追い抜く可能性があるためです。市場で独占権を持つことは決して良いことではありません。 Hadoop以外のテクノロジーのメーカーが、Hadoopのパフォーマンスを向上させるのに役立つより良い製品やプラグインを提供する動機付けになるのは良いことです。