Firehoseの活用:Streaming Analyticsからビジネス価値を得る:ウェビナートランスクリプト

著者: Louise Ward
作成日: 5 2月 2021
更新日: 17 5月 2024
Anonim
Firehoseの活用:Streaming Analyticsからビジネス価値を得る:ウェビナートランスクリプト - 技術
Firehoseの活用:Streaming Analyticsからビジネス価値を得る:ウェビナートランスクリプト - 技術

取り除く: ホストRebecca Jozwiakは、業界トップの専門家とストリーミング分析について議論しています。




あなたは現在ログインしていません。ビデオを見るにはログインまたはサインアップしてください。

レベッカ・ジョズウィアック: ご列席の皆様、こんにちは。2016年のHot Technologiesへようこそ!今日のタイトルは「ファイアホースの活用:ストリーミング分析からビジネス価値を得る」です。これはレベッカ・ジョズウィアックです。親愛なるエリックカバナがここにいられないときはいつでも、私はウェブキャストホストの2番目の指揮官です。

このエピソードは、他のエピソードとは少し異なります。暑いものについて話しましたが、もちろん今年は暑いです。過去数年間は暑かった。常に新しいものが出てきます。今日は、ストリーミング分析について話します。ストリーミング分析は新しいものです。もちろん、ストリーミング、センターデータ、RFIDデータは、必ずしも新しいものではありません。しかし、データアーキテクチャの面では、私たちは何十年もの間、保存されているデータに焦点を当ててきました。データベース、ファイルシステム、データリポジトリ-すべてが主にバッチ処理を目的としています。しかし、今ではストリーミングデータ、データ感情から価値を生み出すシフトに伴い、一部はそれをリビングストリームと呼んでいますが、実際には、これまで使用してきたデータを保存するのではなく、ストリームベースのアーキテクチャが必要です。高速取り込み、リアルタイムまたはほぼリアルタイムの処理を処理します。モノのインターネットだけでなく、すべてのインターネットに対応できる必要があります。

もちろん、理想的には、2つのアーキテクチャを並べて、片手でもう片方を洗うのはいいことです。数日前のデータ、数週間前のデータ、数年前のデータにはもちろん価値、履歴分析、傾向分析がありますが、最近のライブインテリジェンスを推進しているのはライブデータであり、そのためストリーミング分析が非常に重要になっています。

今日はそれについてもっと話します。データサイエンティストのDez Blanchfieldがオーストラリアから電話をかけています。今は彼にとって早朝です。チーフアナリストであるロビンブロア博士がいます。 Impetus TechnologiesのStreamAnalytixのプロダクトヘッドであるAnand Venugopalが加わりました。彼らは本当にこの分野のストリーミング分析の側面に集中しています。


それで、先に進み、Dezに渡します。

デズ・ブランフィールド: ありがとうございました。ここで画面の制御を取得し、前に飛び出す必要があります。

レベッカ・ジョズウィアック: どうぞ。

デズ・ブランフィールド: スライドをつかんでいる間、コアトピックのみを説明します。

これをかなり高いレベルに保ち、約10分に保ちます。これは非常に大きなトピックです。私は、ストリーム処理とは何か、開発中の現在のフレームワーク、およびこれらの大容量ストリームで分析を行うことの意味の詳細に2〜3日間費やしたイベントに参加しました。

ストリーミング分析の意味を明確にし、ビジネスが求めているものであるため、ビジネス価値を引き出すことができるかどうかを掘り下げます。彼らは、人々に非常に迅速かつ簡潔に説明してもらいたいと考えています。ストリームデータに何らかの分析を適用することで、どこで価値を引き出すことができますか?

ストリーミング分析とは何ですか?

ストリーミング分析により、組織はさまざまな形態のビジネスを通じてビジネスから得られる大量かつ高速のデータから価値を引き出すことができます。ここでの大きな違いは、メインフレームが発明されてから何十年もの間、安静時に処理してきた分析とレンズとデータのビューを開発してきた長い歴史があることです。 「ウェブスケール」と呼ばれるこの3〜5年で見られた大規模なパラダイムシフトは、イベント相関を処理して検索するだけでなく、リアルタイムまたはほぼリアルタイムで着信するデータストリームを利用することです。イベントがトリガーされますが、これらのストリームに対して非常に詳細で詳細な分析を実行します。データの収集、ある種のリポジトリへの格納、現在は従来の大きなデータベース、Hadoopプラットフォームなどの大きなビッグデータフレームワークへの配置、およびバッチモード処理の実行、何らかの洞察。

私たちはそれを非常に迅速に行い、多くの重い鉄を試してみましたが、まだデータをキャプチャし、保存してから見て、何らかの洞察や分析を得ています。データのストリーミング中にこれらの分析を実行することへの移行は、ビッグデータの周辺で発生するさまざまな種類の非常に新しいエキサイティングな成長分野です。分析をキャプチャ、保存、処理、実行するためのまったく異なるアプローチが必要です。


ストリームで分析を実行することへの移行と集中の主な要因の1つは、情報がビジネスで利用可能になっているため、データが届くと、これらの洞察をより速く、より簡単に取得することで、大きなビジネス価値を獲得できることです。現在、一日の終わりの処理を行うという考えは、特定の業界ではもはや関係ありません。その場で分析を行えるようにしたいと考えています。一日の終わりには、一日の終わりに到達して24時間のバッチジョブを行い、それらの洞察を得るのではなく、何が起こったのかを既に知っています。

ストリーミング分析とは、そのストリームを直接タップすることです。一方、データストリームは、通常、非常に大量のデータの複数のストリームであり、データが非常に迅速に移動し、それらのストリームに関する洞察や分析を取得します安静時にそれを可能にし、それらに対して分析を実行します。

私が言ったように、私たちはバッチ分析と呼んでいるものを何十年も実行してきました。ここに本当にクールな写真を載せました。これは、一生前にRAND Corporationによって作成されたモックアップされたコンピューターの前に立っている紳士の写真で、これは彼らが家の中でコンピューターをどのように見えるかを見たものです。おもしろいのは、そのときでも、これらすべての小さなダイヤルのコンセプトがあり、これらのダイヤルが家から来てリアルタイムで処理され、何が起こっているかを伝える情報を表していたことです。簡単な例は、大気圧と温度のセットです。これにより、どこで何が起こっているかをリアルタイムで確認できます。しかし、当時のRAND Corporationが小さなモックアップを作成したときでも、彼らは実際にデータを処理し、ストリーム形式でデータを分析することをすでに考えていたと思います。なぜ彼らがコンピューターにハンドルを置くのかはよくわかりませんが、それはかなりクールです。

erの発明以来、データをキャプチャし、そのデータに対してバッチ分析を実行するという視点がありました。私が今大きな変化で言ったように、私たちが知っているウェブスケールプレイヤーのような人からこれを見てきました、彼らはすべてのような家庭用ブランドであり、LinkedIn、それらのソーシャルプラットフォームで私たちが持っているインタラクティブな行動には必要ですバッチモードでキャプチャし、保存してから処理するだけでなく、実際に通過するデータのストリームからオンザフライで分析をキャプチャして実行します。何かをツイートするときは、後で何かをキャプチャして保存し、実行する必要があるだけでなく、すぐにストリームに戻し、自分をフォローしている他の人と共有できるようにする必要もあります。それがバッチ処理モデルです。

なぜこのルートを下るのでしょうか?なぜ組織は、ストリーム分析の道をたどるという挑戦を検討するのに時間、労力、お金を投資するのでしょうか?組織には、現在の業界の競合他社よりもパフォーマンスを向上させたいという大きな要望があり、シンプルなストリーム分析を通じてパフォーマンスの向上を迅速に実装でき、すでにリアルタイムデータを追跡するだけで開始できますに精通。 Google Analyticsの小さなスクリーンショットがありました。これはおそらく、実際に消費者レベルの分析を実際に手に入れた最初の1つです。人々があなたのウェブサイトを訪れていて、あなたのウェブサイトに埋め込まれたHTMLの小さなJavaScriptがあなたのウェブサイトに埋め込まれているこれらのヒットカウントを取得しているとき、これらの小さなコードはGoogleにリアルタイムで作られていましたウェブサイトのすべてのページ、ウェブサイトのすべてのオブジェクトからリアルタイムで送られてくるデータのストリームに対して分析を実行し、リアルタイムグラフ、キュートヒストグラム、ラインのダッシュボード内のこの非常にキュートなウェブページでそれらを返します過去にページにアクセスしたX人のユーザーを示すグラフですが、現在の人数は次のとおりです。

そのスクリーンショットでわかるように、現在25と表示されています。スクリーンショットがそのページにあった時点で、現在25人です。これが、私たちが消費者レベルの分析ツールでプレイした最初の本当のチャンスです。多くの人が本当にそれを手に入れたと思います。彼らは、何が起こっていて、どのようにそれに対応できるのかを知る力を理解しました。アビオニクスの規模、飛行機の飛行について考えると、米国だけでも1日あたり18,700の国内便があります。約6〜7年前の論文を読みましたが、これらの航空機で生成されていたデータの量は、古いエンジニアリングモデルで約200〜300メガバイトでした。今日の航空機の設計では、これらの航空機は1フライトあたり約500ギガバイトのデータまたは約半テラバイトのデータを生成しています。

頭のてっぺんからすぐに計算すると、米国の空域だけで24時間に1万8,700の国内便があり、すべての近代的な航空機が約0.5テラバイトを生成している場合、43から44ペタバイトのデータが通過し、飛行機が空中にいる間に起こっています。着陸してデータダンプを行うときに発生します。そのとき、彼らは店に入り、エンジニアリングチームから完全なデータダンプを取得して、ベアリング、ホイール、およびエンジン内部で何が起こっているのかを調べます。そのデータの一部はリアルタイムで処理する必要があるため、飛行機が空中にあるか地上にいる間に実際の問題があるかどうかを判断できます。バッチモードではできません。金融、健康、製造、エンジニアリングの分野で私たちが目にする他の産業では、彼らはまた、リアルタイムで何が起こっているのかという新しい洞察をどのように得ることができるかを検討しています。期間。

また、多くのデータが時間の経過とともに価値を失うという、私が生鮮商品または生鮮商品と呼ぶものとしてデータを扱うというこの概念もあります。モビリティアプリやソーシャルメディアツールでは、これがますます重要になっています。これは、人々が何を言っているのか、そして今何が流行しているのかが、あなたが答えたいことだからです。私たちの生活の他の部分について、物流や食料の輸送について考えるとき、その意味で腐りやすい商品の概念を理解します。しかし、組織を通過するデータとその価値について考えてください。誰かがあなたと今ビジネスをしていて、リアルタイムでやり取りできる場合は、データをキャプチャしてHadoopなどのシステムに入れてからこのボタンを押すまで1時間待つ必要はありません。すぐに対処できず、クライアントの要求に応じてすぐに対処できるようにしたいと考えています。あなたがパーソナライズを提供できるこのリアルタイムのデータストリームを持っていることについて人々が話す今、あなたは頻繁に現れる用語があります、そしてあなたがあなたの個人的な経験に使用しているシステムでそのパーソナライズの調整。たとえば、Google検索ツールなどのツールを使用した場合、クエリを実行して同じクエリを実行すると、常に同じデータが取得されるわけではありません。基本的に、私がセレブ体験と呼んでいるものが得られます。私は一度限りの扱いを受けています。私が収集したプロファイルとデータに基づいて、これらのシステムで起こっていることの個人的なバージョンを取得し、ストリームでリアルタイムに分析を行うことができました。

データが腐りやすい商品であるというこの考えは今のところ現実のものであり、データの価値が時間とともに低下することは、今日対処しなければならないものです。昨日のことではありません。ストリーミングアナリティクスで見ているものを正確に描画するので、川から飛び出すサーモンをつかむクマのこの写真が大好きです。この膨大な量のデータが私たちに届いており、必要に応じて消火ホースであり、クマは小川の真ん中に座っています。周囲の状況をリアルタイムで分析し、空中の魚を捕獲する機能を実際に設計できるようにします。それはただストリームに浸り、それをつかむようなものではありません。このことは空中で跳んでおり、その魚を捕まえるために適切なタイミングで適切な場所にいる必要があります。そうでなければ、彼は朝食も昼食も食べません。

組織は、データに対して同じことをしたいと考えています。彼らは、現在大量の移動中のデータから価値を引き出したいと考えています。彼らはそのデータと高速データの分析を実行したいので、データの量だけでなく、データの速度も向上します。たとえば、セキュリティでは、すべてのルーター、スイッチ、サーバー、ファイアウォール、およびそれらから発生するすべてのイベントと、数十万ではないにしても数万のデバイス、場合によっては腐りやすいデータです。モノのインターネットや産業用インターネットで考えるとき、最終的には数十億のセンサーではなく数百万のセンサーについて話し、分析を実行するデータが通過するにつれて、複雑なイベント処理を行うことを検討しています今まで見たこともないほどの規模と速度で、今日これに対処する必要があります。その周りにツールとシステムを構築する必要があります。組織にとっては大きな挑戦です。一方で、DIYを行う非常に大きなブランドがあり、それを行う能力とスキルセットとエンジニアリングを持っているときに、自分で焼くことができます。しかし、平均的な組織ではそうではありません。彼らにはスキルセットがありません。彼らはそれを理解するために投資する能力や時間、あるいはお金さえ持っていません。彼らは皆、ほぼリアルタイムの意思決定というこの概念を目指しています。

私が出会ったユースケースは、あなたが想像できるあらゆるセクターの幅広いスペクトルにわたっており、人々は座って注意を払っており、ストリームデータにいくつかの分析を適用するにはどうすればよいですか? Webスケールのオンラインサービスについて説明します。従来のソーシャルメディアプラットフォームと、オンラインのe-tailingおよび小売り(アプリなど)があります。彼らは皆、このリアルタイムの有名人体験を私たちに提供しようとしています。しかし、テクノロジースタックサービス、電話サービス、音声およびビデオの詳細に目を向けると、電話でFaceTimeを実行している人々が見かけます。ただ爆発しています。人々は自分の前で電話を持ち、それをもう耳に当てるのではなく、友人のビデオストリームと話しているのが私の心を揺さぶる。しかし、彼らはそれができることを知っており、適応し、彼らはその経験が好きでした。これらのアプリケーションとこれらを提供するプラットフォームの開発は、そのトラフィックとトラフィックのプロファイルでリアルタイム分析を実行する必要があるため、そのビデオを完全にルーティングして、あなたが得るビデオは、良い経験を得るのに十分です。そのようなデータをバッチ処理することはできません。リアルタイムのビデオストリームが機能的なサービスになるわけではありません。

金融取引にはガバナンスの課題があります。 1日の終わりにたどり着いて、個人データを場所を移動する法律に違反していることを知ることはできません。オーストラリアでは、プライバシーに関連するデータをオフショアに移動することを禁じる非常に興味深い課題があります。私の個人識別データであるPIDをオフショアで取得することはできません。オーストラリアにはそれを防ぐための法律があります。確かに金融サービスのプロバイダー、特に政府のサービスや代理店は、彼らが私に提供しているものが海岸を離れないことを確認するために、彼らのデータと指示の流れについてリアルタイム分析をしなければなりません。すべてのものはローカルに留まる必要があります。彼らはリアルタイムでそれをしなければなりませんでした。彼らは法律を破り、後で許しを求めることはできません。不正行為の検出–クレジットカードの取引で耳にすることは非常に明白です。しかし、金融サービスで行っている取引の種類は非常に急速に変化しているため、PayPalがリアルタイムで不正を検出する際に最初に行っている種類のものがあります。システム間の金融取引。 Ebay入札プラットフォーム、詐欺の検出は、ストリーミングオフィスでリアルタイムに実行する必要があります。

現在、ストリームでの抽出およびロードアクティビティの変換を実行する傾向があるため、ストリームに送られるものをキャプチャしたくない。本当にできません。すべてをキャプチャすると、データはすぐに壊れる可能性が高いことを人々は知っています。ここでのコツは、これらのストリームで分析を実行してETLを実行し、必要なもの、メタデータをキャプチャしてから、予測分析を実行して、実際に何が起こるかを少し先に伝えます私たちが実行した分析に基づいてストリームで見たばかりです。

エネルギーおよび公益事業者は、需要価格を設定したいという消費者からのこの大きな要望を経験しています。私は家にいるだけで、多くのデバイスを使用していないため、特定の時間帯にグリーン電力を購入したいと思うかもしれません。ただし、ディナーパーティーを開催する場合は、すべてのデバイスをオンにして、安価な電力を購入して電力が供給されるのを待ちたくはありませんが、その電力を得るためにより多くの費用を支払うことを望みます。特に電力会社やエネルギー分野でのこの需要価格設定はすでに行われています。たとえば、Uberは毎日できることの典型的な例であり、それはすべて需要価格によって決まります。オーストラリアでは大people日の需要が非常に大きいため、10,000ドルの運賃を受け取っている古典的な例があります。彼らはその問題に対処したと思いますが、車の中でリアルタイムで実行されるストリーミング分析は、いくら支払うべきかをあなたに伝えます。

モノのインターネットとセンサーストリーム–これについてはほんの一面をかき集めただけで、実際に基本的な会話が行われただけですが、テクノロジーの扱い方に興味深い変化が見られるでしょう。わずか数千または数万ですが、数十万、潜在的には数十億のデバイスがストリーミングされますが、現在私たちが持っている技術スタックはほとんどそれに対処するように設計されていません。

セキュリティやサイバーリスクのような場所については、非常に注目すべきトピックがいくつかあります。それらは私たちにとって非常に現実的な課題です。 WebにはNorthと呼ばれるすてきなツールがあり、そこに座ってリアルタイムで発生するさまざまなサイバー攻撃をWebページで見ることができます。見てみると、「すてきなかわいいWebページだ」と思うかもしれませんが、約5分後には、システムが世界中のさまざまなデバイスのさまざまなストリームで分析を行っているデータ量に気付きます。それらに供給されています。その記録の端で彼らがそれをどのように実行しているのかという心を揺さぶり始め、それをリアルタイムで攻撃する対象または他の何かがどのような種類の攻撃であるかを示すシンプルな小さな画面を提供します。しかし、このページを見て、ストリームを取得し、分析クエリを処理するだけのボリュームと挑戦の感覚を得るだけで、リアルタイムでストリーム分析があなたに潜在的にできることの良い味を得るための本当にすてきな小さな方法ですそれらをリアルタイムで表します。

セッションの残りの部分での会話は、私の視点から、これらのタイプのすべてを1つの興味深い視点で取り上げることになると思います。それがDIYの挑戦であり、自分で焼いて、これらの種類のものを構築する余裕がある古典的なユニコーン。これらのエンジニアリングチームを構築し、データセンターを構築するのに数十億ドルを費やしています。しかし、ストリーム分析のビジネスで価値を高めたいと考えている組織の99.9%には、既製のサービスを取得する必要があります。すぐに製品を購入する必要があり、一般に、それを実装するのに役立つコンサルティングサービスと専門サービスが必要です。ビジネスでその価値を取り戻し、実用的なソリューションとしてビジネスに販売します。

それで、私はあなたに、レベッカに引き渡すつもりです。なぜなら、それが私たちが今詳細にカバーしようとしていることだと思うからです。

レベッカ・ジョズウィアック: 優れた。ありがとう、デズ。それは素晴らしいプレゼンテーションです。

さて、ボールをロビンに渡します。奪って

ロビン・ブロア: はい。 Dezはストリーム処理の要点に取り組んでいるので、もう一度説明するのは意味がありませんでした。だから私は完全に戦略的な見方をするつもりです。地獄が何をしているのかを非常に高いレベルから見下ろし、それを配置するのは、人々、特に以前は非常に深いストリーム処理に従事していない人々に役立つと思うからです。

ストリーム処理は長い間使用されてきました。以前はCEPと呼んでいました。それ以前にはリアルタイムシステムがありました。元のプロセス制御システムは、実際に情報の流れを処理していました。もちろん、今日まで、何も進行していませんでした。ここのスライドに表示されるこのグラフィック。実際には多くのことを指し示していますが、それは他の何よりも上を指し示しています。ここには、さまざまな色で表示されるレイテンシーのスペクトルがあります。 1960年頃に到来したコンピューティングまたは商用コンピューティングの発明以来実際に起こったことは、すべてがますます高速になったことです。以前は、波のように見える場合、実際にこれがどのように出力されるかに依存することができました。これは実際にそれに依存しています。それはすべてムーアの法則に基づいており、ムーアの法則は約6年間で約10倍の速度をもたらすからです。その後、実際に2013年頃に到達すると、すべてが壊れ、突然、今までにない速度で加速し始めました。これは奇妙に前例のないことです。速度の向上という点で約10倍になっていたため、約6年ごとに待ち時間が短縮されました。 2010年頃から6年間で、少なくとも1000の倍数を獲得しました。 1桁ではなく3桁。

それが起こっていることであり、それが業界が何らかの形で素晴らしい速度で動いているように見える理由です。この特定のグラフィックの意味だけを見てみると、応答時間は実際には垂直軸に沿ってアルゴリズム的に縮小されています。リアルタイムとはコンピューターの速度であり、人間よりも高速です。インタラクティブな時間はオレンジ色です。あなたが本当に10分の1秒から1秒程度のレイテンシーが必要なのは、コンピューターを操作しているときです。上記では、コンピューターで何をしているのかを実際に考えているトランザクションがありますが、約15秒で消えると耐えられなくなります。人々は実際にはコンピューターを待たないでしょう。すべてがバッチで行われました。バッチで行われた多くのことが、トランザクション空間、インタラクティブ空間、さらにはリアルタイム空間にまで流れています。以前は非常に少量のデータで波状でしたが、これのいくつかを行うことができましたが、非常にスケールアウトされた環境を使用して非常に大量のデータで行うことができます。

基本的に、これらはすべてトランザクションと対話型の人間の応答時間です。現在ストリームで行われていることの非常に多くは、物事について人間に知らせることです。それのいくつかはそれより速く進んでいて、それはリアルタイムにリアルタイムで情報を伝えています。それから、私たちはただの石のように落とすためのライセンスを取得し、インスタント分析を実行可能にし、偶然にかなり手頃な価格にします。速度が下がっただけでなく、トップも崩壊しただけではありません。おそらく、これらすべてのさまざまなアプリケーションの中で最も大きな影響を与えるのは、これらすべての予測分析を実行できることです。理由をすぐに説明します。

これは単なるハードウェアストアです。並列ソフトウェアを入手しました。 2004年に話しました。スケールアウトアーキテクチャ、マルチコアチップ、メモリの増加、構成可能なCPU。 SSDは、回転するディスクよりもはるかに高速になりました。さようなら、ディスクを回転させることができます。 SSDも複数のコアに含まれているため、さらに高速になっています。すぐに、HPからメモリスタを入手しました。 IntelとMicronから3D XPointを入手しました。それらの約束は、それがすべてとにかく速くなるということです。実際に2つの新しいメモリテクノロジーを考えている場合、どちらも基本的な小片全体を構成し、個々の回路基板ははるかに高速になりますが、その終わりさえ見ていません。

次に実際にあるStreamsテクノロジーは、これからも続きます。新しいアーキテクチャが必要になります。私は、Dezがプレゼンテーションのいくつかのポイントでこれについて言及していることを意味します。何十年もの間、私たちはアーキテクチャをデータヒープとデータパイプの組み合わせと考えていました。ヒープを処理する傾向があり、ヒープ間でデータをパイプする傾向がありました。現在、基本的に、データフローの処理とデータヒープを組み合わせたLambdaデータアーキテクチャと呼ばれるものに向かっています。履歴データに対してデータフローまたはデータヒープとして入ってくるイベントストリームを実際に処理しているとき、それがLambdaアーキテクチャの意味です。これはまだ初期段階です。それは写真の一部にすぎません。 Dezが言及したInternet of Everythingのような複雑なものを考えると、あらゆる種類のデータの場所の問題、つまりストリームで何を処理するかについての決定があることを実感するでしょう。

ここで本当に言っているのは、バッチで処理しているとき、実際にストリームを処理しているということです。一度に1つずつできませんでした。大きなものが山になるまで待ってから、すべてを一度に処理します。ストリーム内のコンテンツを実際に処理できる状況に移行しています。ストリーム内のデータを処理できる場合、保持するデータヒープは、ストリーム内のデータを処理するために参照する必要がある静的データになります。

これは、この特定のことを示しています。これについては、生物学的な類推でのプレゼンテーションで以前に言及しました。私があなたに考えてほしいのは、私たちが人間である瞬間です。リアルタイム予測処理のための3つの異なるネットワークがあります。それらは、体性、自律性および腸溶性と呼ばれます。腸溶性はあなたの胃です。自律神経系は戦いと飛行の面倒を見ます。実際には、環境への素早い反応を考慮しています。体の動きを管理する体。これらはリアルタイムシステムです。それについての興味深いこと-​​または私はちょっと面白いと思う-それの多くはあなたが想像するよりも予測的です。実際に顔から約18インチの画面を見ているようです。あなたがはっきりと見ることができるすべて、あなたの体がはっきりと見ることができるすべては、実際には8×10の長方形についてです。それ以外のすべては実際にはあなたの体に関する限りぼやけていますが、あなたの心は実際に隙間を埋めてぼやけていないようにしています。ぼかしはまったくありません。はっきりと見えます。あなたの心は、あなたがその明瞭さを見るために、データストリームの予測方法を実際にやっています。それはちょっと奇妙なことですが、実際に神経系がどのように動作するか、そして私たちがどうやって動き回り、合理的に振る舞うのか(少なくとも私たちの何人か)を合理的に正気で、常に物にぶつからないかを見ることができます。

すべては、ここにある一連のニューラル分析スケールによって行われます。起こることは、組織が同じ種類のものを持ち、同じ種類のものを構築し、それが組織の内部ストリームを含むストリームの処理であるということです。それ、それの外で起こること、実際になされなければならない即時の応答は、もちろん決定を下し、これらすべてを起こすために人間を養うことです。私が見る限り、私たちはそこに行きます。

その結果の1つは、ストリーミングアプリケーションのレベルがうまくいっていることです。私たちが今見ている以上に恐ろしいことがたくさんあります。今、私たちは自明なことをすることの簡単な成果を選んでいます。

とにかく、それがここでの結論です。ストリーミング分析はかつてはニッチですが、それが主流になりつつあり、まもなく一般的に採用されます。

それで、私はそれをレベッカに返します。

レベッカ・ジョズウィアック: どうもありがとう、ロビン。いつものように素晴らしいプレゼンテーション。

アナンド、次はあなたです。床はあなたのものです。

アナンド・ヴェヌゴパル: 素晴らしい。ありがとうございました。

私の名前はアナンドヴェヌゴパルで、StreamAnalytixの製品責任者です。カリフォルニア州ロスガトスにあるImpetus Technologiesが提供する製品です。

Impetusは、実際に大企業向けのビッグデータソリューションプロバイダーとして素晴らしい歴史を持っています。そのため、実際にサービス会社として多くのストリーミング分析の実装を行い、多くの教訓を学びました。また、ここ数年で製品会社およびソリューション主導型企業への転換を果たし、ストリーム分析はImpetusを主に製品主導型の企業に変身させる責任を担っています。企業に対するエクスポージャーのおかげでImpetusがクリアした重要な非常に重要な資産がいくつかあり、StreamAnalytixもその1つです。

私たちは20年間ビジネスに携わっており、製品とサービスの素晴らしい組み合わせが私たちに大きな利点をもたらしています。 StreamAnalytixは、ストリーミングの最初の5つまたは6つの実装から学んだすべての教訓から生まれました。

いくつかの点に触れますが、アナリストのDezとRobinは、スペース全体をカバーするのに素晴らしい仕事をしているので、重複する多くのコンテンツをスキップします。おそらく早く行きます。企業で文字通り非常に非常に重要なバッチプロセスが存在する、バッチアクセラレーションの多くを使用する真のストリーミングケースを確認します。ご覧のように、大企業ではイベントを検知して分析し、それに対処するこのサイクル全体が実際に数週間かかる可能性があり、彼らはすべてそれを数分、時には秒とミリ秒に縮小しようとしています。したがって、これらすべてのバッチプロセスよりも高速なものは、企業買収の候補であり、データの価値は年齢とともに劇的に減少するため、発生した数秒で最初の部分の価値が大きくなります。理想的には、何が起こるかを予測できた場合、それが最高値になりますが、それは精度に依存します。次に高い値は、それが起こっているときにすぐそこにあるときであり、それを分析して応答することができます。もちろん、その後、値は劇的に減少します。これは、私たちがいる主な制限付きBIです。

それは面白いです。ストリーミング分析の理由に対する劇的な科学的答えを期待するかもしれません。多くの場合、私たちが見ているのは、それが可能になったことと、誰もがバッチが古く、バッチが退屈で、バッチがクールではないことを知っているからです。ストリーミングが可能であり、誰もがHadoopを持っているという事実について、誰もが今持っている十分な教育があります。現在、Hadoopディストリビューションには、ストームまたはスパークストリーミングであるかどうかにかかわらず、Kafkaなどのストリーミングテクノロジーが組み込まれています。

私たちが見ている企業はそれに飛び込んで、これらのケースで実験を始めており、私たちは2つの広いカテゴリーを見ています。 1つは、顧客分析と顧客エクスペリエンス、および2つ目の運用インテリジェンスと関係があります。これについては、少し後で詳しく説明します。 Impetus StreamAnalytixのカスタマーサービスとカスタマーエクスペリエンス全体の角度は、さまざまな方法でこれを実現しています。これは、消費者のマルチチャネルエンゲージメントをリアルタイムで真にキャプチャし、非常に敏感なエクスペリエンスを提供することです。今日では一般的ではありません。 Bank of AmericaのWebサイトでWebを閲覧していて、いくつかの製品を調査していて、コールセンターに電話するだけの場合。 「ねえ、ジョー、銀行の商品を研究しているのを知っているので、それを埋めてくれませんか?」と言うでしょうか。今日はそんなことは期待していませんが、それはストリーミング分析で本当に可能な経験です。多くの場合、特に顧客があなたのウェブサイトで早期終了条項または早期終了の契約条件を調べてからあなたと契約から抜け出す方法を調査し始めてから電話をかければ、それは大きな違いになりますシステムはこの人が早期解約を検討していることを知っているので、間接的に何らかの最初のプロモーションについてオファーを提供し、その時点でそのオファーを行うと、その顧客を保護し、資産を保護することができます。

それは一例であり、多くの顧客サービスはすべて非常に良い例です。私たちは今日、コールセンターのコストを削減するだけでなく、劇的な楽しい顧客体験を提供しています。 Dezは、ユースケースのいくつかを要約するのに素晴らしい仕事をしました。このチャートを数分間見つめることができます。私はそれを垂直、水平、コンボエリア、IoT、モバイルアプリ、コールセンターに分類しました。それらはすべて垂直および水平です。それはあなたの見方によって異なります。結論として、業界の業種全体でかなり一般的な水平方向の使用がかなりあり、金融​​サービス、医療、通信、製造などを含む垂直的な特定の使用例があります。それは、「ああ、どんなユースケースがあるのか​​わかりません。私にとって、または私たちの企業にとって、ストリーミング分析にビジネス上の価値があるのか​​どうかはわかりません」と考え直してください。今日、あなたの会社には関連性のあるユースケースがあるため、より多くの人々と話してください。ビジネス価値の正確な導出方法について、ビジネス価値について説明します。

ここのピラミッドの下部には、予測保守、セキュリティ、解約保護などがあります。これらの種類のユースケースは、収益と資産の保護を構成します。 Targetが数時間および数週間にわたって発生したセキュリティ侵害を保護した場合、CIOは仕事を救うことができたでしょう。数千または数億ドルの節約などが可能です。リアルタイムストリーミング分析は、これらの資産の保護と損失の保護に役立ちます。それはすぐにビジネスに付加される価値です。

次のカテゴリは、収益性を高め、コストを削減し、現在の運用からより多くの収益を得ています。それが現在の企業の効率です。これらはすべて、ネットワークがどのように動作しているのか、顧客の動作がどのように動作しているのか、ビジネスプロセスがどのように動作しているかを詳細に把握しているリアルタイム運用インテリジェンスと呼ばれるユースケースのカテゴリですフィードバックを受け取ったり、アラートを受け取ったりするので、そのすべてがリアルタイムで行われます。リアルタイムで逸脱、差異を取得し、範囲外のプロセスを迅速に行動および分離できます。

高価な資本のアップグレードや、ネットワークサービスを最適化した場合には必要ないかもしれないと思われるものでも、多額のお金を節約できる可能性があります。大手の電話会社が現在のトラフィックを管理するのに十分な容量があることがわかったため、ネットワークインフラストラクチャで4,000万ドルのアップグレードを延期した事例を耳にしました。これは、トラフィックなどのインテリジェントルーティングを最適化および改善することによるものです。これらはすべて、これらの洞察にリアルタイムで作用するいくつかのリアルタイム分析およびアクションメカニズムでのみ可能です。

次のレベルの付加価値はアップセル、クロスセルであり、現在の製品からより多くの収益と利益を得る機会があります。これは私たちの多くが彼らが経験したことを知っている古典的な例です。あなたはあなたの人生であなたが実際にあなたに提供されていない製品を実際に購入したいと考えています。多くの場合、多くの場合、それは実際に起こります。購入したいこと、購入したいことがわかっていること、ToDoリストなどを持っていること、妻から言われたこと、妻がいないが本当に購入したいことを心に留めているウェブサイトで買い物をするか、小売店でやり取りしている場合、店頭には詐欺がなく、必要なものを計算するためのインテリジェンスがありません。したがって、彼らはビジネスを安全にできません。実際に正確な予測を行うためにストリーミング分析を展開でき、この特定の詐欺に最も適したもので実際に可能な場合、この顧客はこの場所で、多くのアップセルとクロスセルがあります。ストリーミング分析–機会があれば、その瞬間にこの顧客が購入または対応する可能性の高い傾向を判断できます。だから、その魚を食べようとしているクマとデズが見せた写真が大好きです。それはほとんどそれです。

また、顧客の行動の観察に基づいて、すべて別の企業の行動の観察に基づいて、まったく新しい製品とサービスを提供するという企業の劇的な変革的変化という大きなカテゴリーがあると思います。たとえば、通信会社やケーブル会社が、市場のどのセグメントで、どのプログラムをいつ視聴しているかなどの顧客の使用パターンを実際に観察している場合、実際には、ほとんど頼まれている製品やサービスを作成することになります何らかの方法で。したがって、モバイルアプリでテレビやケーブルのコンテンツを見ることができるようになった現在、マルチスクリーン動作のコンセプト全体はほぼ当然のことと考えています。これらの例の一部は、当社に提供されている新しい製品およびサービスからのものです。

「ストリーミング分析のアーキテクチャに関する考慮事項は何ですか?」に取り組みます。それが最終的に私たちがやろうとしていることです。これは、履歴データとリアルタイムの洞察をブレンドして同時に表示するLambdaアーキテクチャです。それがシグマが可能にするものです。今日、私たちは皆、バッチアーキテクチャと企業像を持っています。ある種のBIスタックと使用率スタックを収集し、Lambdaアーキテクチャを追加しました。スピードレイヤーまたは必要性とラムダは、これら2つの洞察をマージし、両方の洞察を組み合わせた豊かな方法でそれらを組み合わせた方法で見ることです。

Kappaアーキテクチャと呼ばれる別のパラダイムが提案されており、速度層が長期的に持続する唯一の入力メカニズムであるという推測があります。すべてがこのスピードレイヤーを通過します。オフラインのETLメカニズムもありません。すべてのETLが発生します。クレンジング、データクレンジング、高品質のETL –すべてのデータがリアルタイムで生成されたことを念頭に置いて、これらすべてを有線で実行します。ある時点で、それはリアルタイムでした。私たちはこれを湖、川、海に置き、静的解析でそれを行うことに慣れてきたので、データがリアルタイムである時点で生まれたことを忘れていました。すべてのデータは実際にその時点で発生したリアルタイムイベントとして生成され、今日の湖のほとんどのデータは後の分析のためにデータベースに置かれただけであり、ラムダおよびカッパアーキテクチャの実際の利点それを見て、分析し、前処理し、到着したときに反応します。それがこれらのテクノロジーによって可能になったものです。全体像として見ると、内部にHadoopがあり、MPPがあり、データウェアハウスがすでにあるこのようなものに見えます。

島の新しい技術について話すだけではないことが重要だからです。統合する必要があります。彼らは現在のエンタープライズ詐欺の中で意味をなす必要があり、企業にサービスを提供するソリューションプロバイダーとして、私たちはこれに非常に敏感です。企業が全体を統合するのを支援します。左側にはデータソースがあり、Hadoopレイヤーとデータウェアハウスレイヤーの両方、および最上位のリアルタイムレイヤーの両方にデータが送られます。これらの各エンティティは、ご覧のとおりストックコンピューターであり、データ消費レイヤーは右側にあります側。現在利用可能なコンプライアンス、ガバナンス、セキュリティ、ライフサイクル管理などの大部分をこの新しいテクノロジーにすべて集約しているため、絶え間ない努力が行われています。

ストリーム分析がやろうとしていることの1つは、今日の展望を見ると、ストリーミングテクノロジーの展望に多くのことが起こっていることであり、企業顧客の観点からは、理解すべきことがたくさんあります。追いつくべきことがたくさんあります。左側には、NiFi、Logstash、Flume、Sqoopのデータ収集メカニズムがあります。明らかに、網羅的ではないという免責条項を付けました。キューに入ってから、オープンソースのストリーミングエンジン(Storm、Spark Streaming、Samza、Flink、Apex、Heron)に入ります。 Heronはおそらくまだオープンソースではありません。かどうかはわかりません。これらのストリーミングエンジンは、複雑なイベント処理、機械学習、予測分析、アラートモジュール、ストリーミングETL、エンリッチメント統計操作フィルターなどのセットアップ分析アプリケーションコンポーネントにつながるか、サポートします。これらはすべて、私たちが現在演算子と呼んでいるものです。これらの演算子のセットは、一緒にストリング化された場合、必要に応じて大体結論付けられたカスタムも潜在的にストリーミングエンジンで実行されるストリーミングアプリケーションになります。

コンポーネントのチェーンの一部として、データをお気に入りのデータベース、お気に入りのインデックスに格納してインデックスを作成する必要もあります。また、キャッシュを配布する必要がある場合がありますが、これは上部の右側のデータ視覚化レイヤーにつながり、商用製品またはオープンソース製品につながりますが、最終的には、そのデータをリアルタイムで視覚化する何らかの種類の製品が必要です。また、時には他のアプリケーションを考える必要があります。私たちは皆、あなたが洞察に対して取るアクションによってのみ導き出される値を見ました。そのアクションは、分析スタックから別のアプリケーションスタックへのトリガーになり、IVR側の何かであるか、コールセンターをトリガーしますアウトバウンドコールなど。これらのシステムを統合し、ストリーミングクラスターがデータダウンストリームの他のアプリケーションをトリガーするための何らかのメカニズムが必要です。

これが、左から右への全体的なスタックです。次に、サービスレイヤー、中間監視、セキュリティ一般サービスレイヤーなどがあります。顧客が目にしているエンタープライズスペースにある製品は、私が言ったようにストリーミングがあり、コマーシャルまたはシングルがあります。 -明らかに競合他社にあるベンダーソリューション。ランドスケープには、ここで言及しなかった可能性のあるものがさらに多くあります。

そこに表示されているものは、エンタープライズユーザーに広く表示されています。ご覧のように、ストリーム処理のための複雑で急速に進化している技術ランドスケープ。選択とユーザーエクスペリエンスを簡素化する必要がありました。企業が本当に必要と考えるのは、すべての機能を抽象化して、ワンストップショップで使いやすいインターフェイスを構築することです。劣化の問題、パフォーマンスの問題、ライフサイクルのメンテナンスの問題が企業に与えられます。

機能の抽象化は1つです。 2番目の部分は、ストリーミングエンジンの抽象化です。ストリーミングエンジンとオープンソースドメインは、3、4、6か月ごとに1回登場しています。長い間ストームでした。 Samzaが登場し、今はSpark Streamingです。 Flinkは注目を集め始めています。 Spark Streamingのロードマップでさえ、Sparkはバッチ用に設計されていることを認識しており、アーキテクチャのビジョンと異なる可能性があるためのロードマップを作成しているため、純粋なイベント処理に異なるエンジンを潜在的に使用する方法を作成していますSpark Streamingの現在のマイクロバッチパターンに加えて、ストリーム処理用のエンジン。

多くの進化があることを争う必要があるのは現実です。あなたは本当にその技術の変化から身を守る必要があります。なぜなら、デフォルトでは、どれか1つを選択してからそれと一緒に暮らす必要があるからです。これは最適ではありません。別の方法で見ている場合は、「ロックインがなく、オープンソースのレバレッジがなく、非常に高いコストと制限のあるプロプライエタリなプラットフォームを購入する必要があります。繰り返しますが、私が言ったように、それは多くのコストと市場投入までの遅れです。 StreamAnalytixは、エンタープライズクラス、信頼性の高い単一ベンダー、サポートされるプロフェッショナルサービスを統合する優れたプラットフォームの一例です。これらはすべて、企業として本当に必要であり、オープンソースエコシステムの柔軟性の力です。インジェスト、CEP、分析、視覚化など、単一のプラットフォームがそれらを統合します。

また、非常にユニークな機能も備えており、1つのユーザーエクスペリエンスの下にさまざまなテクノロジーエンジンが統合されています。ユースケースが異なればストリーミングアーキテクチャも異なるため、将来は複数のストリーミングエンジンを使用できるようになると考えています。ロビンが言ったように、レイテンシーの全範囲があります。ミリ秒の遅延レベル、数十または数百ミリ秒について本当に話している場合は、この時点でストームが本当に必要です4、5秒、その範囲、Spark Streamingを使用できます。潜在的に、両方を行うことができる他のエンジンがあります。結論として、大企業では、あらゆる種類のユースケースがあります。 1つのユーザーエクスペリエンスで複数のエンジンを使用し、アクセスと汎用性を実現したいのです。それがStreamAnalytixで構築しようとしていることです。

アーキテクチャの簡単な概要。これを少し手直ししますが、本質的には、左側に複数のデータソースがあります。Kafka、RabbitMQ、Kinesis、ActiveMQ、これらすべてのデータソース、およびストリーム処理プラットフォームに着信するキューアプリを組み立てましょう。ここで、ETLなどのオペレーターから、ドラッグアンドドロップできるようになりました。その下には、複数のエンジンがあります。現在、ストームストリーミングとスパークストリーミングは、複数のエンジンをサポートする業界唯一の最初のエンタープライズクラスのストリーミングプラットフォームです。これは、リアルタイムダッシュボードを持つ他のすべての柔軟性に加えて、私たちが提供する非常にユニークな柔軟性です。埋め込まれたCETエンジン。 HadoopおよびNoSQLインデックス、SolrおよびApacheインデックスとシームレスに統合されています。それが何であれ、お気に入りのデータベースにアクセスして、アプリケーションを本当に迅速に構築し、本当に迅速に市場に出て、将来の保証を守ることができます。これがStreamAnalytixのマントラです。

これで、私は発言を終えると思います。さらに質問がある場合は、お気軽にお問い合わせください。 Q&Aとパネルディスカッションのためにフロアを空けておきたい。

レベッカ、あなたに。

レベッカ・ジョズウィアック: いいですねどうもありがとうございます。デズとロビン、聴衆のQ&Aに引き渡す前に質問がありますか?

ロビン・ブロア: 質問があります。聞こえるようにヘッドフォンを付け直しますおもしろいことの1つは、もしあなたがこれを親切に私に言うことができれば、私がオープンソース空間で見てきた多くのことは私が未熟だと言うことのように見えます。ある意味では、はい、あなたはさまざまなことをすることができます。しかし、実際には最初または2番目のリリースでソフトウェアを検討しているように見えますが、組織としてのあなたの経験、Hadoop環境の未熟さをどれほど問題があると思いますか?問題が多すぎますか?

アナンド・ヴェヌゴパル: ロビン、それは現実です。あなたは絶対に正しいです。未熟さは、必ずしも機能的な安定性と物事の領域にあるとは限りませんが、そのいくつかの場合もあります。しかし、未熟なのは使用の準備が整っていることです。オープンソース製品であり、Hadoopディストリビューションで提供されているものでさえ、それらはすべて多くの異なる有能な製品であり、コンポーネントは一緒に平手打ちされています。これらはシームレスに連携せず、Bank of America、Verizon、AT&Tのようにスムーズなシームレスなユーザーエクスペリエンスを実現するようには設計されていません。確実に設計されているわけではありません。それが私たちが入る理由です。私たちはそれをまとめ、理解、展開などを本当に簡単にします。

その機能的な成熟度は、大部分はあると思います。今日、多くの大企業がStormなどを使用しています。今日、多くの大企業がSpark Streamingで遊んでいます。これらのエンジンにはそれぞれ実行できる機能に限界があるため、各エンジンで何ができるか、何ができないかを知ることが重要であり、壁に頭をぶつけて言って意味がないSpark Streamingを選択しましたが、この特定の業界では機能しません。」機能しません。 Sparkストリーミングが最適なオプションになるユースケースがあり、Sparkストリーミングがまったく機能しない場合があるユースケースがあります。そのため、複数のオプションが本当に必要です。

ロビン・ブロア: さて、あなたはこのほとんどのために専門家チームを乗せる必要があります。私はこれからどこから始めてもわからないということです。熟練した個人の賢明な共同行動。エンゲージメントがどのように関与し、どのように発生するかに興味があります。それは、特定の企業が特定のアプリケーションを求めているからなのか、それともプラットフォーム全体で多くのことをしたいのか、私が戦略的採用と呼ぶようなものを見ているからでしょうか。

アナンド・ヴェヌゴパル: ロビン、両方の例を見ています。誰もが知っているトップ10ブランドのいくつかは、非常に戦略的な方法でそれについて進んでいます。彼らは、さまざまなユースケースがあることを知っているので、そのニーズに合うプラットフォームを評価しています。これは、企業に展開されるマルチテナント方式のさまざまなユースケースです。同様に開始されている単一のユースケースストーリーもあります。私たちが取り組んでいる住宅ローン会社には特定のビジネスアクティビティ監視タイプのユースケースがあり、これは最初のユースケースとしては想像できないが、それは彼らが思いついたビジネスソリューションまたはユースケースであり、その後、ドットをストリーミングに接続しました。私達は言いましたこれは、ストリーミング分析の優れた事例であり、これを実装する方法です。」次に、そのプロセスで、彼らは教育を受けて、「ああ、これができて、これが一般的なプラットフォームなら、アプリケーションを分離し、プラットフォームにレイヤー化し、この上に多くの異なるアプリケーションを構築できます」と言います。プラットフォーム。」

ロビン・ブロア: デズ、質問がありますか?

アナンド・ヴェヌゴパル: Dezはおそらくミュートになっています。

デズ・ブランフィールド: 謝罪、ミュート。私は自分自身で良い会話をしました。ロビンの最初の観察に続いて、あなたは絶対に正しいです。今の課題は、企業がエコシステムと、フリーでオープンソースのソフトウェアが彼らに知られているものであり、ブラウザとしてFirefoxのようなツールを使用することができ、それがまともなものである文化的および行動的環境を持っていることだと思います安定して安全になるまでの寿命。しかし、彼らが使用するこれらの非常に大きなプラットフォームの一部は、エンタープライズグレードのプロプライエタリプラットフォームです。したがって、私がオープンソースプラットフォームと考えるものを採用することは、必ずしも文化的または感情的に理解しやすいとは限りません。これは、ローカルプロジェクトである小さなプログラムを採用するだけで、ビッグデータと分析を基本的な概念として利用するだけで見ました。重要な課題の1つは、あなたが組織全体でそれらを見たことがあると確信していることです。結果を得たいという願望であると同時に、それを購入できる古い缶に片足を刺すことです。 「大きなブランドを挿入する」Oracle、IBM、Microsoft。これらの新しいブランドと既知のブランドは、Hadoopプラットフォームなどで実現しています。ストリームのような最先端のテクノロジーを備えた、よりエキサイティングなブランドが登場しています。

そのようなやり取りをしたりカットしたりした会話はどのようなものですか?今朝は大勢の出席者がいることを知っていますが、誰もが心に留めておくべきことの1つは、「ボードから管理レベルに至るまで、やりがいのある層全体を切り開くにはどうしたらいいですか? 「クライアントとの会話はどのように進み、StreamAnalytixのようなものを採用することを検討するために、こうした種類の恐怖を和らげるところまでどのように切り抜けますか?

アナンド・ヴェヌゴパル: 顧客は当然、優先オプションとしてオープンソースに移行しているため、価値提案を販売することはかなり簡単です。彼らは簡単にあきらめて「オーケー、オープンソースに行く」と言っているだけではありません。彼らは実際に主要製品の非常に献身的な評価を行っています。これらのベンダー関係。彼らは私たちやその製品に対するオープンソースエンジンを扱わないでしょう。彼らは6〜8〜12週間の評価を受けます。彼らは、ここにある程度のパフォーマンスと安定性があることを確信し、「うわー、あなたは何を知っていますか、実際にこれを行うことができます」と心に決めます。

今日では、多くのスタック上で運用中にストリーム分析を実行している主要なティア1の電話会社があり、非常に大きな有名な別のベンダーに対してそれを評価しており、すべてを証明して初めて確信しましたパフォーマンス、安定性、およびこれらすべてのもの。彼らはそれを当たり前だとは思わない。彼らは評価を通じてオープンソースが有能であることを発見し、最悪の場合、「たぶん私にはできない2つのユースケースがあるかもしれませんが、今日のビジネス加速ユースケースのほとんどはオープンソースで非常に可能です」そして、その使用を有効にします。そこが大きなスイートスポットです。彼らはオープンソースを望んでいました。彼らは、長年使用されてきたベンダーのロックイン状態から抜け出すことを本当に望んでいます。それからここに来て、「あなたは何を知っているのか、私たちはあなたのためにオープンソースをはるかに、はるかに簡単で使いやすいものにするでしょう」と言います。

デズ・ブランフィールド: 企業が見つける他の課題は、従来の現職を取り込むことであると思います。多くの場合、彼らはここで話しているエキサイティングなものの最先端のいくつかの背後にある世代であり、私は負のわずかなことではありません。現実には、安定したプラットフォーム、古い学校の開発、UATNの統合サイクル、テストとドキュメント、マーケティングと販売を検討するための世代と道のりがあります。あなたがやっているタイプでは、私が考えているのは、昨夜の最新リリースのいくつかを調べて、ある種の研究作業をしているということです。先行コンサルティングの観点からのコンピテンシーと実装だけでなく、ロールインできるスタックも手に入れました。これは、現職者がしばらく苦労するところだと思います。私は市場で見たようにそれらの多くを見てきました。彼らは私がキャッチアップノードと呼んでいるものであることが多いのに対し、あなたがそこにいるときにあなたが私たちに話していることから、それらの会話を行い、あなたはそこに実装しています。

採用されている国境のいくつかの例をいくつか教えてください。たとえば、ロケット科学や宇宙に衛星を配置し、火星からデータを収集するような、本当に素晴らしい環境があります。地球上でそれをしている人はほんの一握りです。しかし、例えば、航空学、海運とロジスティクス、製造とエンジニアリングなど、健康のような大きな垂直産業があります。採用?

アナンド・ヴェヌゴパル: Telcoは大きな例です。

ここでスライドをすぐに修正します。ここでスライドを見ることができますか?

これは、大規模な電話会社がセットトップボックスデータを取り込み、それを使用して複数の処理を行う場合です。彼らは顧客が実際に何をしているのかをリアルタイムで見ています。彼らは、セットトップボックスでリアルタイムにエラーが発生している場所を見ています。彼らはコールセンターに通知しようとしています。この顧客がすぐに電話をかけた場合、この顧客のセットトップボックスからのコードリンク情報、メンテナンスチケット情報は、この特定の顧客のセットトップボックスに問題があるかどうかをすばやく関連付けます顧客は一言話す。すべてのケーブル会社、すべての主要な電話会社がこれを試みています。彼らはセットトップボックスデータを取り込み、リアルタイム分析を行い、広告を掲載できるようにキャンペーン分析を行います。巨大なユースケースがあります。

先ほど言ったように、この住宅ローン会社は、大規模なシステムがデータの処理に関与する一般的なパターンです。システムA、システムB、システムCを流れるデータは規制されたビジネスであり、すべてが一貫している必要があります。多くの場合、システムは互いに同期しなくなり、1つのシステムは「合計金額1,000万ドルで100件のローンを処理しています」と言っています。システムは「いいえ、他の110件のローンを処理しています」彼らは実際に同じデータを処理し、異なる解釈をしているため、彼らはそれを本当に迅速に解決しなければなりません。

クレジットカード、ローン処理、ビジネスプロセス、または住宅ローンのビジネスプロセスなどのいずれであっても、これらのビジネスプロセスの同期を確保するために、リアルタイムでの相関と調整を支援しています。もう1つの興味深い使用例です。異常検出を行うためにDNSトラフィックを調べている主要な米国政府の請負業者がいます。彼らが構築したオフライントレーニングモデルがあり、リアルタイムトラフィックでそのモデルに基づいてスコアリングを行っています。これらの興味深いユースケースのいくつか。セキュリティキューを見ている大手航空会社があり、彼らはあなたにその情報を提供しようとしています。「おい、それはあなたの飛行機の飛行機のゲートです。今日のTSAキューは約45分であり、2時間ではなく他の何かです。」彼らはまだそれに取り組んでいます。興味深いIoTユースケースですが、カスタマーエクスペリエンスに向かうストリーミング分析の素晴らしいケースです。

レベッカ・ジョズウィアック: これはレベッカです。ユースケースの主題については、「これらのケーススタディは、これらのイニシアチブが家の情報システム分析側から推進されているのか、それとももっと推進されているのか」と疑問に思う聴衆から大きな質問があります。特定の質問やニーズを念頭に置いているビジネスですか?」

アナンド・ヴェヌゴパル: 約60パーセント、50パーセントから55パーセント、主に非常に積極的で熱心なテクノロジーイニシアチブがあり、たまたまかなり精通していて特定のビジネス要件を理解していると思います。技術チームは、ビジネスユースケースの猛攻撃に備えて準備を整えており、機能を構築したら、それができることを知ってから、ビジネスに行き、積極的に販売します。 30%から40%のケースでは、ストリーミング分析機能を求めている特定のユースケースが既にビジネスにあることがわかります。

レベッカ・ジョズウィアック: それは理にかなっている。聴衆からもう少し技術的な質問があります。彼は、これらのシステムがリアルタイムのストリームまたはポストの堆積物のような構造化データストリームと非構造化データストリームの両方をサポートするのか、それとも最初にフィルタリングする必要があるのか​​疑問に思っています。

アナンド・ヴェヌゴパル: 私たちが話している製品と技術は、構造化データと非構造化データの両方を間近にサポートしています。それらは構成できます。すべてのデータは、XMLであろうとなかろうと、何らかの構造を持っています。タイムスタンプフィードがあるという点で、いくつかの構造があります。データ構造を解析するために解析をストリームに挿入できるように、解析が必要な別のblobがあるかもしれません。構造化されている場合は、システムに「わかりました。カンマ区切りの値があり、最初の値が文字列で、2番目が日付の場合」です。したがって、その解析インテリジェンスをアップスクリーンレイヤーに注入し、構造化データと非構造化データの両方を簡単に処理します。

レベッカ・ジョズウィアック: 聴衆から別の質問があります。 1時間を少し過ぎてしまいました。この参加者が知りたいのは、リアルタイムストリーミングアプリケーションが、トランザクションシステム、たとえば不正防止システムに統合する必要性と機会の両方を開発しているように思われることです。その場合、トランザクションシステムをそれに合わせて調整する必要がありますか?

アナンド・ヴェヌゴパル: マージですよね?トランザクションシステムの統合です。それらは時々トランザクションをリアルタイムで分析するデータのソースになります。多くの場合、アプリケーションフローがあるとしましょう。ここでは、静的なデータルックアップサイトを表示しようとしています。で、HBaseやRDBMSなどの静的データベースを検索して、ストリーミングデータと静的データを一緒に充実させて、決定または分析的洞察を行います。

また、OLAPとOLTPのコンバージェンスという業界の大きなトレンドも見られます。そのため、トランザクションと分析処理の両方を同時にサポートするKuduなどのデータベースとインメモリデータベースがあります。ストリーム処理レイヤーは完全にメモリ内にあり、これらのトランザクションデータベースの一部を調べたり、それらのデータベースとやり取りしたりします。

レベッカ・ジョズウィアック: 混合ワークロードは、ジャンプする最後のハードルの1つであると思います。ロビン、デズ、もう2つ質問がありますか?

デズ・ブランフィールド: 気にしない場合は、最後の1つの質問にジャンプしてまとめます。過去10年ほど私が取り組んできた組織がストリーム分析のこの刺激的な課題に導いた最初の課題は、この課題全体についての会話を始めたときに彼らがテーブルに戻す傾向がある最初のものですスキルを取得しますか?スキルセットをどのように再トレーニングし、その機能を内部でどのように取得しますか? Impetusが入って来て、私たちを旅に引き込み、それから素晴らしい最初のステップとして実装します。そうすることはとても理にかなっています。

しかし、中規模から大規模の組織の場合、これに備えるため、現在その能力を内部的に構築し、その周辺の基本的なボキャブラリーから何かを得るために、現在どのような種類のものを見ていますか?この種のフレームワークへの移行を取り巻く組織と、CEOのITから既存の技術スタッフを再編成して、構築して実装したらすぐに実行できるようにしますか?簡単に言えば、どのような課題とそれらをどのように解決しているのか、あなたが対処している顧客、彼らが見つけた課題の種類と、彼らがその再訓練と経験を取り戻すための経験と知識をどのように解決するのか運用的に回ることができますか?

アナンド・ヴェヌゴパル: 多くの場合、外出してストリーミング分析プラットフォームを購入しようとする少数の人々は、Hadoopを認識しており、Hadoop MapReduceのスキルを既に身につけており、Hadoopディストリビューションベンダーと密接に連携しているため、彼らはどちらかおなじみです。たとえば、すべてがKafkaを取得しています。彼らはそれを使って何かをしていて、StormまたはSparkのストリーミングがオープンソースドメインにあります。確かに、人々はそれに精通しているか、それを取り巻くスキルを構築しています。しかし、それは、十分なスキルを持ち、十分に賢い少数の人々から始まります。彼らは会議に参加しています。彼らは学んでおり、ベンダーにインテリジェントな質問をし、場合によってはベンダーとともに学びます。ベンダーは最初の会議に来て発表するので、彼らは何も知らないかもしれませんが、彼らは一緒に読んで、それから遊び始めます。

その小さな人々のグループが核となり、成長を始め、今では誰もが最初のビジネスユースケースが運用可能になっていることに気付きます。波が始まり、先週のSparkサミットで、Capital Oneのような大企業が全力を尽くしていたのを見ました。彼らはスパークを選んでいた。彼らはそれについて話していました。彼らは多くの場合、ユーザーとしてSparkにも貢献しているため、Sparkで多くの人々を教育しています。多くの大企業でも同じことが言えます。少数の非常に優秀な人々で始まり、その後、全体的な教育の波が始まります。上級VPまたは上級ディレクターが一同になり、このことに賭けたいと思っていることを知っています。それらはすべてこれらのスキルを習得し始めます。

デズ・ブランフィールド: あなたもそれらのチャンピオンを作る素晴らしい時間を過ごしていると確信しています。

アナンド・ヴェヌゴパル: はい。私たちは最初のチャンピオンと協力しながら多くの教育を行い、トレーニングコースを開催します。多くの大規模な顧客のために多くの人が戻ってきて、多くのユーザーを主流の使用段階に導くためのトレーニングの波と波がありましたHadoop MapReduceサイトで。私たちの顧客である大規模なクレジットカード会社で、少なくとも5〜8種類のトレーニングプログラムを提供していることがわかりました。また、当社の製品を含むこれらすべての製品の無料コミュニティエディションもあります。サンドボックスは、人々がダウンロードし、慣れ、その方法で自分自身を教育することができます。

デズ・ブランフィールド: 今朝はこれで全部です。どうもありがとうございました。今日のモデルの種類と使用事例を見るのは非常に興味深いです。ありがとうございました。

アナンド・ヴェヌゴパル: すばらしいです。どうもありがとうございます。

レベッカ・ジョズウィアック: これらのHot Technologies Webキャストにご参加いただき、ありがとうございます。 Dez Blanchfield博士、Robin Bloor博士、およびImpandus TechnologiesのAnand Venugopalからの話を聞くのは魅力的です。プレゼンターに感謝します。スピーカーに感謝し、聴衆に感謝します。来月は別のHot Technologiesがあるので、それを探してください。 Insideanalysis.comでアーカイブされたコンテンツをいつでも見つけることができます。また、SlideShareには多くのコンテンツを掲載し、YouTubeにもいくつかの興味深い情報を掲載しています。

それはすべての人々です。再びありがとう、良い一日を。バイバイ。