データカタログと機械学習市場の成熟

著者: Roger Morrison
作成日: 28 9月 2021
更新日: 21 六月 2024
Anonim
機械学習デザインパターン(ML Design Patterns)の解説, 鷲崎 弘宜 (早稲田大学 / NII / システム情報 / エクスモーション)
ビデオ: 機械学習デザインパターン(ML Design Patterns)の解説, 鷲崎 弘宜 (早稲田大学 / NII / システム情報 / エクスモーション)

コンテンツ


ソース:Nmedia / Dreamstime.com

取り除く:

MLDC市場は成長しており、機械学習でビッグデータを効果的に活用しようとする企業は、この分野のトップネームと個々のランキングに注意する必要があります。

これはビッグデータの時代です。私たちは情報にあふれており、企業はそれを管理し、そこから価値を引き出すことが難しいと感じています。

今日のビッグデータの流れには、量、種類、速度だけでなく、複雑さも伴います。 SASのBig Data History and Current Considerationsで特定されているように、「複数のソースからのストリームの要因であり、システム間でデータをリンク、マッチング、クレンジング、変換することが困難です」。 (ビッグデータの詳細については、(Big)Datas Big Futureをご覧ください。)

貴重な洞察を見つけることは、単にできるだけ多くのデータを収集することではなく、適切なデータを見つけることの問題です。すべてを手動プロセスで処理することは不可能です。これが、ますます多くの企業が「データへのアクセスを民主化し、部族のデータ知識が情報をキュレートし、データポリシーを適用し、ビジネス価値のためにすべてのデータを迅速にアクティブ化するためにデータカタログに頼る」理由です。

これは、データカタログ(情報カタログとも呼ばれる)が画像に入力される場所です。ここで定義されているように、彼らは「ユーザーが必要なデータソースを探索し、探索されたデータソースを理解し、同時に組織が現在の投資からより多くの価値を達成するのを支援します」。それを行う方法の1つは、さまざまなタイプのユーザーがデータを利用または貢献できるように、データへのアクセスを大幅に拡大することです。

情報の命題

2017年末にデータカタログの需要が劇的に増加したことに注目して、ガートナーはそれらを「新しい黒」と呼びました。 「急速に経済的なソリューションとして認識されるようになり、「ますます組織化されたデータ資産のインベントリと分類を行い、データ資産を整理し、情報サプライチェーンをマッピングします」。この必要性は、他のビジネス資産を管理するのと同じ細心の情報を追跡情報に適用することを要求する「情報学」の台頭により生じました。 (サプライチェーンの詳細については、機械学習がサプライチェーンの効率を改善する方法をご覧ください。)


ガートナーは、The Forrester Wave™:Machine Learning Data Catalogs、2018年第2四半期に参加します。このレポートの調査参加者の半数以上は、データカタログの実装を構築する予定であると述べています。おそらく、それぞれが組織内に少なくとも7つのデータレイクを持っているという事実に主に動機付けられていたようです。 Gartnerがデータカタログを取り上げているように、データカタログは、データレイクに通常分類されていない形で残される「データの短所、意味、および価値」を引き出すのに特に役立ちます。

Forresterは、データおよび分析の意思決定者の3分の1以上が2017年に1,000 TB以上のデータを扱っていたと報告しています。その量は前年の10〜14%に過ぎません。その規模でデータを管理することは、大きな課題です。具体的には、2つの課題です。

「1)既存のビジネスプロセスをソースデータにマージして分析し、洞察を実装します。2)データの成長に合わせて、データを調達、収集、管理、管理します。」

バグやストレスなし-あなたの人生を破壊することなく人生を変えるソフトウェアを作成するためのステップバイステップガイド

誰もソフトウェアの品質を気にしない場合、プログラミングスキルを向上させることはできません。

ビジネス向けのデータカタログでできること

ガートナーは、データカタログが組織の情報フローと生産性を向上させる特定の方法を特定しています。

  • 組織で利用可能な最新の情報資産インベントリの照合と伝達。

  • 組織データのセマンティックな解釈と意味を定義するビジネス用語の共通用語集を作成することにより、定義の不整合を調整および解決する手段を提供します。

  • ダイナミックで俊敏なコラボレーション環境を実現し、ビジネスおよびITの同僚がデータについてコメント、文書化、共有できるようにします。

  • 系統および影響分析によるデータ使用の透明性の提供。

  • 情報ガバナンスプロセスをサポートするデータの監視、監査、およびトレース。


  • メタデータをキャプチャして、データの使用と再利用、クエリの最適化、データ認証の内部分析を強化します。

  • 存在するデータ、データの由来、データの用途、データが必要な理由、プロセスとシステム間の流れ、責任の所在、意味そしてそれが持つ価値。

Gartnerのレポートでは、データを適切に識別し、組織の主要な人々がアクセスできるようにすることが重要であると述べています。健康保険の携行性と責任に関する法律(HIPAA)のように、または一般データ保護規則(GDPR)のようなより一般的な性質のもの。

機械学習の追加

しかし、欠点がないわけではありません。データカタログの場合、問題は、配置する必要のあるすべてのメタデータを使用して手動でカタログを構築するのに伴う、時間のかかる退屈なプロセスでした。これが機械学習コンポーネントの出番です。

Forresterが評価したデータカタログは、AIのコンポーネントの1つである機械学習の力を利用するため、MLDCと呼ばれます。 Podium Dataのブログで説明されているように、それは「メタデータの永続的なリポジトリを構築し、ML / AIを適用してフェレットアウトし、基礎となるデータ資産に関する潜在的に有用な洞察を公開する」ことを可能にします。

選び方

企業がどのビジネスを選択すべきかを評価するために、Forresterは上位12のMLDCに29ポイントの評価を適用しました。この市場のリーダーは、IBM、Relito、Unifi Software、Alation、Collibraであると特定されました。見つかった強力なパフォーマーは、Informatica、Oracle、Waterline Data、Infogix、Cambridge Semantics、Clouderaです。 Hortonworksは「競争相手」の地位に単独で存在します。

しかし、全体的なランキングだけで行くべきではありません。レポートは、それぞれの特定の長所と短所を分解します。したがって、研究開発などの特定の機能が組織にとって最も重要なものである場合、Hortonworksは、その面でIBMとColilbraと同等であると見なすことができます。 AlationとColouderaより2ポイント、Cambridge Semanticsより4ポイント優れています。

したがって、Forresterのレポートは、そのレポートをガイダンスとして使用する場合、トップランクの企業が誰にとっても最良の選択であると想定しないようにアドバイスしています。彼らは、評価の内訳に細心の注意を払って、特定の要件を満たすものを見つける必要があります。