データはどのように構造化されていますか？構造化データ、非構造化データ、および半構造化データの調査

コンテンツ

構造化データとは
非構造化データとは
バグやストレスなし-あなたの人生を破壊することなく人生を変えるソフトウェアを作成するためのステップバイステップガイド
間に収まる：半構造化データ
非構造化データを構造化データに変換できますか？

ソース：monsitj / iStockphoto

取り除く：

構造化データ、非構造化データ、および半構造化データについて学習します。

歴史的に、データアナリストは、構造化データという1種類のデータのみから情報を解読および抽出できました。このタイプのデータは、その明確なパターンのために簡単に検索できましたが、使用可能な合計データのわずかな割合を表していました。

非構造化データには、ビデオ、オーディオ、ソーシャルメディア、モバイルデバイスからのデータも含まれます。これは、生の情報の最大の埋蔵量であり、まだ誰もこのリソースを確実に利用することができませんでした。

しかし、ストレージの可用性の向上と優れた処理機能により、非構造化データ分析（新しい、したがって未熟な技術）が生まれたため、状況は変わりました。優れたビジネスインテリジェンスはこの機会を最大限に活用しており、構造上のデータ分析と構造化されていないデータ分析を集約して、この無限の情報の宝庫にアクセスするための多大な投資が行われています。

これらの2つのデータ形式を見て、違いを理解し、すべてのデータアナリストの将来を見てみましょう。

構造化データとは

構造化データは、リレーショナルデータベース（RDB）と呼ばれる行データベース構造に簡単に保存できる、人間または機械で生成され、高度に組織化された情報です。これは、後で分析するためにRDB構造に簡単にキャプチャ、保存、および整理できる形式で存在するものです。（データベースの詳細については、データベースの概要をご覧ください。）

例には、郵便番号、電話番号、年齢や性別などのユーザー層が含まれます。これらのデータベースで見つかったデータは、Excelスプレッドシート内の構造化照会言語（SQL）またはVLOOKUP関数を使用して照会できます。インデックスを使用してさまざまなフィールドで見つかったデータ、または数値データとアルファベットデータをすばやく検索するアルゴリズムも作成できます。ただし、すべてのデータはフィールドのタイプと名前に関して厳密に定義されているため、データを保存、クエリ、分析する機能はある程度制限されています。

構造化データを使用する典型的なアプリケーションには、病院管理ソフトウェア、顧客関係管理（CRM）アプリケーション、航空会社予約システムが含まれます。整理された組織と簡単なアクセス性により、構造化されたデータは、大量の情報を扱う場合に便利で効率的です。しかし、人類が毎日生成する無限の量のデータに隠されている黒い油を掘り起こすとき、構造化されたデータを探すことは表面を傷つけることに他なりません。

非構造化データとは

組織で見つかったデータの大部分は構造化されておらず、一部のデータは、現在利用可能な総データの最大80パーセントと推定しています。定義上、非構造化データは、識別可能な内部構造を持たないすべてのものです。ただし、このカテゴリに分類されるデータの種類 確かに持ってます 何らかの形式のあいまいな内部構造ですが、データベースまたはスプレッドシートに準拠していません。

バグやストレスなし-あなたの人生を破壊することなく人生を変えるソフトウェアを作成するためのステップバイステップガイド

誰もソフトウェアの品質を気にしない場合、プログラミングスキルを向上させることはできません。

顧客サービスのやり取り、ファイル、Webログ、ビデオ、その他のマルチメディアコンテンツ、セールスオートメーション、ソーシャルメディアの投稿など、ほとんどのビジネスデータは構造化されていません。このデータをマイニング、整理、分析できる場合、このデータがどれほど価値があるかを説明する必要はありません。

ほとんどの非構造化データは人間によって生成されるため、他の人間が理解できるようになっています。これは、機械語や構造化データベースの線形性からあまりにも遠いため、より洗練されたコンピューターインテリジェンスはこのタイプの情報を理解しないことを意味します。

間に収まる：半構造化データ

半構造化データは、パイ全体のはるかに小さい部分（5〜10％）を表す3番目のタイプのデータです。文字通り両方の世界に挟まれた半構造化データには、個別の要素を識別する内部セマンティックタグとマーキングが含まれていますが、リレーショナルデータベースに適合するために必要な構造がありません。

たとえば、sは、日付、ファイルサイズ、または時間で分類できるため、構造化されたデータのように見える場合があります。ただし、最も価値のある情報は比較的単純なラベルではなく、それらの中にあるので、そうではありません。人間は、機械がそれらを明確に理解できるようにそのような厳密なパターンで話すことはないため、コンテンツと主題によって真にアレンジすることはできません。半構造化データの他の例には、NoSQLデータベース、オープンスタンダードJSON、マークアップ言語XMLが含まれます。

通常、半構造化データは、メタデータ分析を使用して、分析のためにクエリおよびカタログされます。たとえば、X線スキャンは、画像を形成する膨大な数のピクセルで構成されます。これらのピクセルは、アクセスできない本質的に構造化されていないデータです。ただし、スキャンファイルには、注釈やユーザーIDなどの情報を提供するメタデータ部分が含まれます。

非構造化データを構造化データに変換できますか？

すべてのデータアナリストが直面しなければならない基本的な課題は、手元の情報をきちんと整然と整理して、アクセスして理解できるようにすることです。通常、データマイニングツールには、定義上、人間の言語に似ている情報を解析する機能がありません。つまり、情報を収集して分類できるのは他の人間だけです。

ただし、構造化されていないデータの膨大な量は、それを保存または整理しようと非常に面倒で高価です。たとえば、Webベースの検索エンジンからの情報のプールは非常に大きいため、ほとんどの要素は、最も基本的なものを抽出するためだけに、作業とリソースの点で莫大な投資を必要とします。最も効率的なデータマイニング手法でさえ、ウェブ上、さらに悪いことに、ディープウェブ内で見つかった大量の情報を見逃しています。

しかし、テクニックは存在します。そして、彼らは驚くべきスピードで開発されています。たとえば、メタデータを使用して、構造化データと非構造化データを接続できます。収集された情報は、ユーザーとアルゴリズムの両方でフィルタリングおよびインデックス付けでき、関連データを分析することもできます。他のソリューションには、「データラングリング」が含まれます。これは、非技術ユーザーが段階的に複雑なデータを段階的に編成するプロセスです。（データを処理する一般ユーザーの詳細については、セルフサービス分析でビッグデータがどのように役立つかを参照してください。）

ある時点で、これらの非常に組織化されていない量の情報を、より組織化され再構成された形式に効率的に変換できるようになります。おそらく今日ではなく、明日でもないかもしれませんが、人類史上最大の保管庫であるビッグデータをすぐに襲撃できるでしょう。