クラウドのビッグデータ-データの安全性は？

ビデオ: 金融ビッグデータのためのクラウドネイティブAI分析プラットフォーム構築のすべて | AWS Summit Tokyo 2019

コンテンツ

分散プログラミングフレームワークのセキュリティ問題
ほとんどのクラウドベースのデータフレームワークは、NoSQLデータベースを使用します。 NoSQLデータベースは、構造化されていない巨大なデータセットの処理には役立ちますが、セキュリティの観点からは設計が不十分です。 NoSQLは元々、セキュリティに関する考慮事項をほとんど考慮せずに設計されました。 NoSQLの最大の弱点の1つは、トランザクションの整合性です。認証メカニズムが不十分であるため、中間者攻撃やリプレイ攻撃に対して脆弱です。さらに悪いことに、NoSQLは認証メカニズムを強化するためのサードパーティのモジュール統合をサポートしていません。認証メカニズムはかなり緩いため、データはインサイダー攻撃にもさらされます。ロギングとログ分析のメカニズムが不十分なため、攻撃は気付かれず追跡されない可能性があります。

データとトランザクションログの問題
データ検証の問題
リアルタイムのビッグデータセキュリティ監視
バグやストレスなし-あなたの人生を破壊することなく人生を変えるソフトウェアを作成するためのステップバイステップガイド
セキュリティの脅威に直面する戦略
分散プログラミングフレームワークの信頼性の向上
強力なデータ保護ポリシー
分析
データ収集中に異常値を検出する
結論

ソース：Cuteimage / Dreamstime.com

取り除く：

クラウド内のビッグデータに対する最大の脅威を調査し、それらから保護する方法を学びます。

ビッグデータの量は日々大きく増加しています。 2012年の2,500エクサバイトから、2020年にはビッグデータが40,000エクサバイトに増加すると予想されます。したがって、データストレージはクラウドインフラストラクチャのみが処理できる深刻な課題です。クラウドは、主にその膨大なストレージ容量と、サブスクライバーに義務を課さない使用条件によって、人気のあるオプションになりました。クラウドストレージは、サブスクリプションとサービスの形で所定の期間にわたって提供されます。その後、クライアント側で更新する義務はありません。

ただし、クラウドにビッグデータを保存すると、通常の静的データに採用されているセキュリティ対策では対処できない新しいセキュリティ上の課題が生じます。ビッグデータは新しい概念ではありませんが、その収集と使用は最近になってペースを上げ始めました。これまで、ビッグデータの保存と分析は、データの保存とマイニングに必要なインフラストラクチャを購入できる大企業と政府のみに限定されていました。このようなインフラストラクチャは独自のものであり、一般的なネットワークには公開されていません。ただし、パブリッククラウドインフラストラクチャを介して、あらゆる種類の企業がビッグデータを安価に利用できるようになりました。その結果、新しく洗練されたセキュリティの脅威が発生し、それらは増え続け進化し続けています。

分散プログラミングフレームワークのセキュリティ問題

分散プログラミングフレームワークは、並列計算およびストレージ技術を使用してビッグデータを処理します。このようなフレームワークでは、認証されていない、または変更されたマッパー（巨大なタスクを小さなサブタスクに分割し、タスクを集約して最終出力を作成する）がデータを侵害する可能性があります。障害のある、または変更されたワーカーノード—マッパーからの入力を受け取ってタスクを実行します—は、マッパーと他のワーカーノード間のデータ通信を盗むことでデータを危険にさらす可能性があります。不正なワーカーノードは、正当なワーカーノードのコピーも作成できます。このような巨大なフレームワークで不正なマッパーやノードを識別することは非常に難しいという事実により、データのセキュリティを確保することはさらに困難になります。

ほとんどのクラウドベースのデータフレームワークは、NoSQLデータベースを使用します。 NoSQLデータベースは、構造化されていない巨大なデータセットの処理には役立ちますが、セキュリティの観点からは設計が不十分です。 NoSQLは元々、セキュリティに関する考慮事項をほとんど考慮せずに設計されました。 NoSQLの最大の弱点の1つは、トランザクションの整合性です。認証メカニズムが不十分であるため、中間者攻撃やリプレイ攻撃に対して脆弱です。さらに悪いことに、NoSQLは認証メカニズムを強化するためのサードパーティのモジュール統合をサポートしていません。認証メカニズムはかなり緩いため、データはインサイダー攻撃にもさらされます。ロギングとログ分析のメカニズムが不十分なため、攻撃は気付かれず追跡されない可能性があります。

データとトランザクションログの問題

データは通常、多層ストレージメディアに保存されます。ボリュームが比較的小さく静的である場合、データを追跡するのは比較的簡単です。しかし、ボリュームが指数関数的に増加すると、自動階層化ソリューションが採用されます。自動階層化ソリューションは、データを異なる階層に保存しますが、場所を追跡しません。これはセキュリティの問題です。たとえば、組織にはめったに使用されない機密データがある場合があります。ただし、自動階層化ソリューションでは、機密データと非機密データを区別せず、アクセス頻度の低いデータを最下層に保存します。最下層では、使用可能なセキュリティが最も低くなります。

データ検証の問題

組織では、ソフトウェアアプリケーションやハードウェアデバイスなどのエンドポイントデバイスを含むさまざまなソースからビッグデータが収集される場合があります。収集されたデータが悪意のないことを保証することは大きな課題です。悪意を持った人はだれでも、データを提供するデバイスまたはデータを収集するアプリケーションを改ざんする可能性があります。たとえば、ハッカーはシステムにシビル攻撃を仕掛け、偽造されたIDを使用して、悪意のあるデータを中央の収集サーバーまたはシステムに提供します。この脅威は、ユーザーが企業ネットワーク内で個人用デバイスを使用できるため、Bring Your Own Device（BYOD）シナリオで特に適用されます。

リアルタイムのビッグデータセキュリティ監視

ビッグデータインフラストラクチャと処理中のデータの両方を監視する必要があるため、データのリアルタイム監視は大きな課題です。先に指摘したように、クラウド内のビッグデータインフラストラクチャは常に脅威にさらされています。悪意のあるエンティティは、システムに変更を加えてデータにアクセスし、容赦なく誤検知を生成することができます。誤検知を無視することは非常に危険です。さらに、これらのエンティティは、回避攻撃を構築することで検出を回避しようとすることも、データポイズニングを使用して処理中のデータの信頼性を低下させることもできます。

バグやストレスなし-あなたの人生を破壊することなく人生を変えるソフトウェアを作成するためのステップバイステップガイド

誰もソフトウェアの品質を気にしない場合、プログラミングスキルを向上させることはできません。

セキュリティの脅威に直面する戦略

ビッグデータのセキュリティ戦略はまだ初期段階ですが、急速に進化する必要があります。セキュリティの脅威に対する答えは、ネットワーク自体にあります。ネットワークコンポーネントには絶対的な信頼性が必要であり、これは強力なデータ保護戦略で実現できます。緩いデータ保護対策にはゼロトレランスが必要です。イベントログを収集および分析するための強力で自動化されたメカニズムも必要です。

分散プログラミングフレームワークの信頼性の向上

前に指摘したように、信頼できないマッパーとワーカーノードはデータセキュリティを危険にさらす可能性があります。そのため、マッパーとノードの信頼性が必要です。これを行うには、マッパーは定期的にワーカーノードを認証する必要があります。ワーカーノードがマスターへの接続要求を送信すると、信頼プロパティの定義済みセットを持つワーカーを条件として、要求が承認されます。その後、労働者は、信頼およびセキュリティポリシーへの準拠について定期的にレビューされます。

強力なデータ保護ポリシー

分散フレームワークとNoSQLデータベースのデータ保護が本質的に弱いため、データに対するセキュリティの脅威に対処する必要があります。パスワードは、安全なハッシュアルゴリズムでハッシュ化または暗号化する必要があります。保管中のデータは常に暗号化され、パフォーマンスへの影響を考慮した後でも、公開されたままにされるべきではありません。ハードウェアおよびバルクファイルの暗号化は本質的に高速であり、パフォーマンスの問題にある程度対処できますが、ハードウェアアプライアンスの暗号化も攻撃者によって侵害される可能性があります。状況を考慮すると、SSL / TLSを使用して、クライアントとサーバー間の接続を確立し、クラスターノード間の通信を行うことをお勧めします。さらに、NoSQLアーキテクチャでは、プラグ可能なサードパーティ認証モジュールを許可する必要があります。

分析

ビッグデータ分析を使用して、クラスターノードへの疑わしい接続を監視および識別し、ログを絶えずマイニングして潜在的な脅威を識別できます。 Hadoopエコシステムには組み込みのセキュリティメカニズムはありませんが、特定の基準を満たすこれらのツールを条件として、疑わしいアクティビティを監視および識別するために他のツールを使用できます。たとえば、このようなツールは、Open Web Application Security Project（OWASP）ガイドラインに準拠する必要があります。いくつかの開発がすでに行われているため、イベントのリアルタイム監視が改善されると予想されます。たとえば、セキュリティコンテンツオートメーションプロトコル（SCAP）は徐々にビッグデータに適用されています。 Apache KafkaとStormは、優れたリアルタイム監視ツールになると約束しています。

データ収集中に異常値を検出する

データ収集時の不正な侵入を完全に防ぐ侵入防止システムはまだありません。ただし、侵入を大幅に減らすことができます。まず、データ収集アプリケーションは、アプリケーションが複数の信頼できないデバイスで実行される可能性があるBYODシナリオを念頭に置いて、できるだけ安全になるように開発する必要があります。第二に、決心した攻撃者は、中央の収集システムに対する最も強力な防御策や悪意のあるデータさえも侵害する可能性が高い。そのため、このような悪意のある入力を検出して除外するアルゴリズムが必要です。

結論

クラウド内のビッグデータの脆弱性は独特であり、従来のセキュリティ対策では対処できません。リアルタイムモニタリングなどの特定のベストプラクティスがまだ開発中であり、利用可能なベストプラクティスまたは手段が厳密に使用されていないため、クラウドのビッグデータ保護はまだ初期段階です。それでも、収益性の高いビッグデータを考えると、セキュリティ対策は近い将来に追いつくはずです。