Hadoop Analytics：データの結合にはソースに依存しないアプローチが必要

ビデオ: 大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuokaエディション - 2020-11-28 B-6

ソース：Agsandrew / Dreamstime.com

取り除く：

ソースに依存しない方法は、Hadoop分析のデータ処理に最適です。

Hadoopでのデータソースの結合は複雑なビジネスです。これには次のような理由があります。

データソースを組み合わせたカスタムのソース固有のスクリプトには問題があります。
データ統合ツールまたはデータサイエンスツールを使用すると、不確実性が高まりすぎます。
外部ソースからデータを追加することはほとんど不可能です。

今日は、内部データソースと外部データソースを簡単に組み合わせることができるソースに依存しないテクノロジーによって、Hadoop分析がどのように強化されるかについて説明します。ソースに依存しない方法の仕組みの説明に加えて、Hadoop分析に組み込みのインテリジェンスと知識転送機能が必要な理由、関係とデータ特性の理解、スケーラブルで高性能なアーキテクチャについても説明します。

ソースに依存しない方法 統計的に健全で再現可能なデータサイエンスプロセスを使用して、新しいデータソースを追加できる柔軟なエンティティ解決モデルを含めます。これらのプロセスは、アルゴリズムを活用してデータから知識を収集し、それを評価、分析して、最適な統合アプローチを決定します。
元のソースレコードが断片化または不完全であっても、Hadoop分析テクノロジーはソースに依存せず、ソースデータを変更または操作せずにデータを統合できる必要があります。また、これらのテクノロジーは、データコンテンツに基づいてエンティティインデックスを作成し、個人に関する属性とそれらが世界にどのように存在するかを作成する必要があります。これを達成するには、データの内容、構成、構造、およびコンポーネントの相互関係を理解する必要があります。
組み込みのデータサイエンスおよびデータ統合の専門知識 データをクレンジング、標準化、および高い精度と精度で関連付けることができます。視覚化ツールとレポートは、アナリストがデータを評価して学習し、プロセス内のさまざまなステップから得られた知識に基づいてシステムチューニングを実行するのに役立ちます。
関係を理解する エンティティ間では、エンティティ解決プロセスがより正確になります。実世界のエンティティは属性の合計だけでなく、その接続でもあるため、レコードが同じであるときを検出するには関係の知識を使用する必要があります。これは、コーナーケースとビッグデータの処理に特に重要です。
データの特徴付け データソース内の情報を特定して詐欺を提供することにより、データの分析、解決、リンクを改善します。構造化情報の列内のデータのコンテンツ、密度、および分布を検証するのに役立ちます。データの特性評価を使用して、構造化ソースとの相関のために、非構造化ソースおよび半構造化ソースから重要なエンティティ関連データ（名前、住所、生年月日など）を識別および抽出することもできます。
スケーラブルな並列アーキテクチャ 数百の構造化、半構造化、非構造化データソース、および数百億件のレコードをサポートする場合でも、迅速に分析を実行します。

Hadoopは、世界が分析を実行する方法を変えています。新しいソースに依存しない分析がHadoopエコシステムに追加されると、組織は多くの内部および外部のデータソースにわたってドットを接続し、これまで不可能だった洞察を得ることができます。

この記事はもともとNovetta.comに投稿されました。ここでは許可を得てリードされています。 Novettaはすべての著作権を保持しています。