知っておくべき10の最も重要なHadoop用語

ビデオ: 5分でHadoop | Hadoopとは何ですか？ | Hadoopの概要| Hadoopの説明| Simplilearn

コンテンツ

しかし、まず、Hadoopの仕組みを見てみましょう
Hadoop Common
Hadoop分散ファイルシステム（HDFS）
MapReduce
HBase
ハイブ
バグやストレスなし-あなたの人生を破壊することなく人生を変えるソフトウェアを作成するためのステップバイステップガイド
アパッチピッグ
Apache Spark
Apache Cassandra
さらに別のリソースネゴシエーター（YARN）
インパラ

ソース：Trueffelpix / Dreamstime.com

取り除く：

ビッグデータを本当に理解するには、Hadoopとその周辺の言語について少し理解する必要があります。

大量の構造化データ、非構造化データ、または半構造化データのキャッチーな名前であるビッグデータは、少なくとも従来のデータベースおよびソフトウェアアプリケーションを使用して、キャプチャ、保存、管理、共有、分析、視覚化することは難しいことで有名です。そのため、ビッグデータテクノロジーには、大量のデータを効果的かつ効率的に管理および処理できる可能性があります。また、Apache Hadoopは、分散した方法でコンピューターのクラスター全体で大規模なデータセットを処理するためのフレームワークと関連テクノロジーを提供します。そのため、ビッグデータを本当に理解するには、Hadoopについて少し理解する必要があります。ここでは、Hadoopに関してよく耳にする最高の用語とその意味を見てみましょう。

しかし、まず、Hadoopの仕組みを見てみましょう

Hadoopエコシステムに入る前に、2つの基本的なことを明確に理解する必要があります。 1つ目は、Hadoopでのファイルの保存方法です。 2つ目は、保存されたデータの処理方法です。 Hadoop関連の技術はすべて、主にこれら2つの領域で機能し、より使いやすいものになっています。（Hadoopがビッグデータ問題の解決にどのように役立つかで、Hadoopの仕組みの基本を学んでください。）

次に、条件について説明します。

Hadoop Common

Hadoopフレームワークには、機能ごとに異なるモジュールがあり、これらのモジュールはさまざまな理由で相互に対話できます。 Hadoop Commonは、Hadoopエコシステムでこれらのモジュールをサポートするための共通ユーティリティライブラリとして定義できます。これらのユーティリティは、基本的にJavaベースのアーカイブ（JAR）ファイルです。これらのユーティリティは、主に開発時にプログラマーと開発者が使用します。

Hadoop分散ファイルシステム（HDFS）

Hadoop分散ファイルシステム（HDFS）は、Apache Software Foundationの下のApache Hadoopのサブプロジェクトです。これは、Hadoopフレームワークのストレージのバックボーンです。これは、Hadoopクラスターと呼ばれる複数の汎用ハードウェアにまたがる、分散型でスケーラブルでフォールトトレラントなファイルシステムです。 HDFSの目的は、アプリケーションデータへの高スループットアクセスで膨大な量のデータを確実に保存することです。 HDFSはマスター/スレーブアーキテクチャに従います。マスターはNameNode、スレーブはDataNodeとして知られています。

MapReduce

Hadoop MapReduceは、Apache Software Foundationのサブプロジェクトでもあります。 MapReduceは、実際には純粋にJavaで記述されたソフトウェアフレームワークです。その主な目的は、（コモディティハードウェアで構成される）分散環境で大規模なデータセットを完全に並行して処理することです。このフレームワークは、ジョブのスケジューリング、監視、実行、再実行（失敗したタスクの場合）などのすべてのアクティビティを管理します。

HBase

Apache HBaseはHadoopデータベースとして知られています。これは、円柱状の分散型のスケーラブルなビッグデータストアです。また、リレーショナルデータベース管理システムではないタイプのNoSQLデータベースとしても知られています。 HBaseアプリケーションもJavaで記述され、Hadoopの上に構築され、HDFS上で実行されます。 HBaseは、リアルタイムの読み取り/書き込みとビッグデータへのランダムアクセスが必要な場合に使用されます。 HBaseは、GoogleのBigTableの概念に基づいてモデル化されています。

ハイブ

Apache Hiveは、オープンソースのデータウェアハウスソフトウェアシステムです。 Hiveは、Apache Software Foundationの前に開発され、オープンソースになりました。分散Hadoop互換ストレージ上の大規模なデータセットの管理とクエリを容易にします。 Hiveは、HiveQLとして知られるSQLに似た言語を使用して、すべてのアクティビティを実行します。（Apache HiveとPigの簡単な紹介で詳細をご覧ください。）

バグやストレスなし-あなたの人生を破壊することなく人生を変えるソフトウェアを作成するためのステップバイステップガイド

誰もソフトウェアの品質に関心がない場合、プログラミングスキルを向上させることはできません。

アパッチピッグ

Pigは当初、大量の分散データでMapReduceジョブを開発および実行するためにYahooによって開始されました。現在、Apache Software Foundationの下でオープンソースプロジェクトになっています。 Apache Pigは、非常に大きなデータセットを効率的な方法で分析するためのプラットフォームとして定義できます。 Pigsインフラストラクチャレイヤーは、実際の処理を行うためのMapReduceジョブのシーケンスを生成します。 Pigs言語レイヤーはPig Latinとして知られ、分散データセットでクエリを実行するSQLのような機能を提供します。

Apache Spark

Sparkは元々、UCバークレーのAMPLabによって開発されました。 Apache Sparkは、2014年2月にApacheのトップレベルプロジェクトになりました。ApacheSparkは、データ分析をより高速にするオープンソースの汎用クラスターコンピューティングフレームワークとして定義できます。 Hadoop分散ファイルシステム上に構築されていますが、MapReduceフレームワークとはリンクされていません。 Sparksのパフォーマンスは、MapReduceに比べてはるかに高速です。 Scala、Python、Javaで高レベルAPIを提供します。

Apache Cassandra

Apache Cassandraは、もう1つのオープンソースのNoSQLデータベースです。 Cassandraは、複数のデータセンターとクラウドストレージにまたがる大量の構造化、半構造化、非構造化データを管理するために広く使用されています。 Cassandraは「マスターレス」アーキテクチャに基づいて設計されています。つまり、マスター/スレーブモデルをサポートしていません。このアーキテクチャでは、すべてのノードが同じであり、データはすべてのノードに均等に自動的に分散されます。 Cassandrasの最も重要な機能は、継続的な可用性、線形のスケーラビリティ、組み込み/カスタマイズ可能なレプリケーション、単一障害点のないこと、および操作のシンプルさです。

さらに別のリソースネゴシエーター（YARN）

さらに別のリソースネゴシエーター（YARN）はMapReduce 2.0としても知られていますが、実際にはHadoop 2.0に該当します。 YARNは、ジョブスケジューリングおよびリソース管理フレームワークとして定義できます。 YARNの基本的な考え方は、JobTrackerの機能を、リソース管理とスケジューリング/監視を担当する2つの別個のデーモンに置き換えることです。この新しいフレームワークには、グローバルResourceManager（RM）とApplicationMaster（AM）として知られるアプリケーション固有のマスターがあります。グローバルResourceManager（RM）およびNodeManager（ノードスレーブごと）は、実際のデータ計算フレームワークを形成します。既存のMapReduce v1アプリケーションもYARNで実行できますが、これらのアプリケーションはHadoop2.x jarで再コンパイルする必要があります。

インパラ

Impalaは、大規模な並列処理（MPP）能力を備えたSQLクエリエンジンとして定義できます。 Apache Hadoopフレームワーク上でネイティブに実行されます。 Impalaは、Hadoopエコシステムの一部として設計されています。他のHadoopエコシステムコンポーネントで使用されるのと同じ柔軟なファイルシステム（HDFS）、メタデータ、リソース管理、およびセキュリティフレームワークを共有します。最も重要な点は、ImpalaはHiveと比較してクエリ処理がはるかに高速であることに注意することです。ただし、Impalaは小さなデータセットに対するクエリ/分析を目的としており、主に処理および構造化されたデータで機能する分析ツールとして設計されていることも覚えておく必要があります。

HadoopはITの重要なトピックですが、その長期的な実行可能性に懐疑的な人もいます。 Hadoopとはをご覧ください。 Cynics理論。