提案の力：データカタログがアナリストを強化する方法

取り除く： ホストRebecca Jozwiakが、Dez Blanchfield、Robin Bloor、David Crawfordとデータカタログの利点について説明します。

ビデオを見るには、このイベントに登録する必要があります。登録してビデオをご覧ください。

レベッカ・ジョズウィアック： ご列席の皆様、こんにちは。2016年のHot Technologiesにようこそ。今日は「提案の力：データカタログがアナリストに力を与える方法」を手に入れました。世界を旅しているので、ご参加いただきありがとうございます。今年は暑いです。テキサスの暑いだけでなく、あちこちで暑いです。あらゆる種類の新しいテクノロジーが爆発的に登場しています。 IoT、ストリーミングデータ、クラウドの採用により、Hadoopは成熟し、採用され続けています。自動化、機械学習があり、これらすべてはもちろんデータによって強調されています。そして、企業は日ごとにますます多くのデータ駆動型になっています。そしてもちろん、そのポイントは知識と発見につながり、より良い決定を下すことです。しかし、データから最大限の価値を引き出すには、簡単にアクセスできるようにする必要があります。企業内の数人の人々の脳内に閉じ込めたり、埋めたり、脳内に保管したりすると、企業全体にとってあまり良い結果が得られません。

そして、私はデータのカタログ化と図書館のコースについて考えていました。昔、何かを見つける必要がある場合、トピックを調査する必要がある場合、または情報を調べる必要がある場合はそこに行きました、そしてもちろん、あなたはカードカタログ、またはそこで働いていた汚い女性に行きました。ただ見回したいだけで、見事なものを見つけられるかもしれないし、知らなかった興味深い事実を見つけるかもしれないが、本当に何かを見つける必要があれば、あなたが探しているものを知っていて、カードカタログが必要でした。もちろん、エンタープライズ版はデータカタログです。これは、ユーザーがすべてのデータに光を当てて、人々を豊かにし、発見し、共有し、消費し、データをより速く簡単に。

今日、私たちは自分のデータサイエンティストであるDez Blanchfieldと私たちのチーフアナリスト、Robin Bloorがいます。AlationのDavid Crawfordがいます。彼は会社のデータカタログの話について話しますが、まずはデズとリードする。デズ、私はあなたにボールを渡しています、そして床はあなたのものです。

デズ・ブランフィールド： ありがとう、今日はありがとう。これは私が非常に興味を持っている問題です。日々の仕事で出くわすほとんどすべての組織で、ショー前の冗談で非常に簡潔に話したのとまったく同じ問題を見つけます。数年以上ビジネスに携わっているほとんどの組織は、さまざまな形式の組織に大量のデータが埋まっています。実際、Lotus Notesに戻るデータセットを持つクライアントがあります。擬似インターネットとしてのケース、そして彼らは、データがどこにあるのか、どのようにデータにアクセスするのか、誰にアクセスを提供するのか、いつアクセスするのか、そしてどのようにカタログ、および誰もができる場所にそれを取得する方法：A）そこにあるものとその中にあるものを認識し、B）それにアクセスして使用する方法。そしてもちろん、最大の課題の1つはそれを見つけることです。もう1つの大きな課題は、そこにあるものとそのアクセス方法を知ることです。

私は何十ものデータベースを持っていることをよく知っているかもしれませんが、何がそこにあるのか、何がそこにあるのかをどのように見つけるのか実際にはわかりません、そして私たちは常にショー前のデータで今発見しているので、あなたは歩く傾向がありますオフィスの周りで質問をして、立方体の壁を横切って叫んで、試してみてください。多くの場合、私の経験では、フロント、レセプションに行って、誰があなたを知っているかどうか尋ねています話をするつもりです。多くの場合、誰かが作成したばかりであるためデータセットを知らないため、常にIT担当者であるとは限りません。また、IT環境で立ち上がっているプロジェクトを見つけることもあります。プロジェクトマネージャーはすべてのもののスプレッドシートを使用し、資産や詐欺、名前に関する貴重な情報を大量に取得しました。そのプロジェクトを知っていて、その人を知っていなければ、その情報を見つけることはできません。利用できないだけで、元のファイルを取得する必要があります。

データに関してあちこちに散らばっているフレーズがあり、私は必ずしもそれに同意するわけではありませんが、私はそれはかわいいちょっとした使い捨てだと思います、そしてそれは特定の量の人々がデータが新しいオイルであると思うということです、そして私たちは確信しています本日後半に、何らかの側面でそれを取り上げます。しかし、私が気づいたのは、確かにその変革の一部であり、データを大切にすることを学んだ企業の組織が競合他社よりも大きな優位性を獲得したということです。

約5〜6年前のIBMによる興味深い論文があり、オーストラリアの約4,000の企業を調査し、すべての情報、すべてのパフォーマンスデータ、すべての財務データを取得し、沸騰した鍋にまとめてから、オーストラリアの経済学部にそれを送り、彼らは実際にここで共通の傾向を開始しました。それは技術を活用した企業が常に同業他社や競合他社よりも競争上の優位性を獲得し、競合他社が追い付かないことでしたデータがデジタルトランスフォーメーションと呼ばれるもので、データを見つけ、そのデータを利用可能にし、非常に簡単な消耗品で利用できるようにする方法を明確に理解している組織で見られます。必ずしも組織がそれを必要とする理由を常に把握せずに、組織にファッションを提供し、競合他社よりも大幅に有利になります。

このスライドにはいくつかの例があります。ご覧ください。私の1つのラインナップは、ほとんどすべての産業部門にわたる大規模な混乱は、私の見解では、データによって推進されているということです。現在の傾向がどうなるかというと、私の見解は本当に長年のブランドがようやくこれが意味するものに目覚めてゲームに参入すると、彼らは卸売りでゲームに参入するからです。データの山を抱える大手小売業者がデータの履歴分析を適用し始めたときに、データが存在することさえ知っていれば、一部のオンラインプレーヤーは少しばかり電話をかけます。

しかし、これらのブランドのほとんどで、世界最大のタクシー会社であるUberがいることを意味します。彼らはタクシーを所有していないので、彼らを魔法にしているのは何ですか、データは何ですか？最大の宿泊施設プロバイダーであるAirbnbには、世界最大の電話会社であるWeChatがありますが、実際のインフラストラクチャ、携帯電話、電話回線はありません。アリババは、地球上で最大の小売業者ですが、在庫を所有していません。、世界最大のメディア企業。最後の数で、彼らは現在14億人のアクティブなデータユーザーを持っていたと思います。これは気が遠くなるような数字です。それはどこにも近くない-地球の4分の1が毎日実際にそこにいると誰かが主張していると思うが、実際にコンテンツを作成しないコンテンツプロバイダーは、彼らが提供するすべてのデータは彼らによって作成されたのではなく、彼らによって作成された加入者、そして私たちは皆このモデルを知っています。

聞いたことがあるかもしれませんが、SocietyOneはローカルブランドです。いくつかの国では、実際にピアツーピアの融資を行う銀行であると考えています。つまり、お金がありません。トランザクションを管理するだけで、データはその下にあります。 Netflix、私たちは皆、非常によく知っています。ここには興味深いワンライナーがあります。 Netflixがオーストラリアで合法的に使用できるようになったとき、正式に発表されたとき、VPNを使用してアクセスする必要はありませんでした。世界中の多くの人々は、 Netfixはオーストラリアで発売され、インターネットリンクの国際的な帯域幅が40％増加しました。そのため、オーストラリアでのインターネット使用量は、データを操作するだけの1つのアプリケーション、クラウドでホストされるアプリケーション1つでほぼ2倍になりました。それはただ気が遠くなるような統計です。

そしてもちろん、私たちは皆AppleとGoogleに精通していますが、これらは地球上で最大のソフトウェアビジネスですが、実際にはアプリを作成していません。これらのすべての組織で一貫していることは何ですか？まあ、それはデータであり、彼らは自分のデータがどこにあるかを知らず、それをカタログ化する方法を知らなかったため、そこにたどり着きませんでした。

現在私たちが見つけているのは、データと呼ばれるこのまったく新しい資産クラスがあり、企業がそれに目覚めていることです。しかし、彼らは常にすべてのデータをマッピングし、すべてのデータをカタログ化して利用できるようにするためのツールとノウハウと理由を持っているわけではありませんが、物理的な資産がほとんどない企業は記録的な時間で高い市場価値を獲得していることがわかりましたこの新しいデータ資産クラス経由。私が言ったように、古いプレイヤーの一部は今これに目覚め、確かにそれを引き出しています。

私はちょっとした旅に人々を連れて行くのが大ファンなので、1800年代から1800年代後期にかけて、米国市場でこれに精通している人は多いでしょう。毎年かそこらで、彼らはその時点で10年ごとにそれらを実行したと思いますが、毎年国勢調査を実行する場合、実際にデータ分析を行うには最大8または9年かかる可能性があります。そのデータセットは、その後、紙の場所のボックスに残され、ほとんど誰もそれを見つけることができなかったことが判明しました。彼らはこれらのレポートを送り出し続けましたが、実際のデータを入手するのは非常に困難でした.1940年代頃、第二次世界大戦の別の世界の重要な瞬間と同様の状況があり、これはブレッチリーパークボンベスペルBOMBEです、そしてそれは小さなデータセットを通過し、その中のシグナルを見つけ、エニグマを通してコードをクラックするのを助けるために使用される巨大な数値計算分析ツールでした。

繰り返しますが、これは本質的には、カタログを作成するのではなく、データにタグを付けてマップし、パターンを取得してデータセット内で見つけることができるように設計されたデバイスでした。この場合、コードを破り、キーとフレーズを見つけて見つけますデータセットで定期的にそれらを使用しているため、データ内のデータを検索し、データのカタログ化に向けてこの道を歩んでいます。

そして、これらのものが登場しました、これらの巨大で低コストのマシンのラック、市販のマシンです。そして、私たちはいくつかの非常に興味深いことをしました。そして、私たちがそれらを使ってしたことの1つは、地球のインデックス作成を開始できる非常に低コストのクラスターを構築したことです。私たちが聞いたことがあるブランド-それは実際の動詞になり、あなたはあなたのブランドが動詞になったときにあなたが成功していることを知っています。しかし、Googleは、おそらくビジネスの世界で気付かないうちに私たちに教えたことは、惑星全体を特定のレベルにインデックス付けし、世界中のデータをカタログ化し、非常に簡単に利用できるようにしたことです。少し小さな1行の数式の便利なフォーム、ほとんど何も表示されていないWebページ、およびクエリを入力すると、既に惑星をクロールし、インデックスを作成し、簡単に利用できるようになったため、検索されます。

そして、私たちが気づいたのは、「しばらくお待ちください、私たちは組織でこれをやっていません。なぜですか？なぜ地球全体をマップしてインデックスを作成し、クロールしてインデックスを作成し、それを利用可能にする組織を持っているのか、それを検索してから、クリックして検索して検索できるのはなぜですか？世界中にこれらの小さなラックがたくさんあり、イントラネットのためにそれを行って物を見つけていますが、実際にはまだ伝統的なウェブページを超えていくという考えにちょうど近づいています。またはファイルサーバー。

この次世代のデータカタログをさまざまな方法で入力するのではなく、ポストイットノートやウォータークーラーの会話を介してデータアクセスを発見することは、データの発見とカタログ化にもはや適切な方法ではありません。。メモを渡したり、メモを投稿したり、それについてチャットしたりするだけの人々に、この課題全体を導くことはできなくなりました。私たちは、この次世代のデータカタログ化のアプローチが行き来した分野をはるかに超えています。私たちはそれを回避する必要があります。これが簡単な問題である場合、以前にさまざまな方法ですでに解決していましたが、簡単な問題ではなく、データのインデックス付けと呼び出しはその一部であり、データの内容を知り、メタデータを構築することです私たちが発見したものを中心に、簡単で消費可能な形式で、特にセルフサービスと分析で利用できるようにします。まだ解決中の問題ですが、5年間でパズルの多くの部分がうまく解決され、本当に利用可能になりました。

私たちが知っているように、人間のエラーはデータ処理で扱う最大の悪夢の1つであるため、人間のカタログデータは失敗のレシピであり、私は定期的にこのトピックについて話します。ビッグデータと分析で対処します。日付やフィールドなどの単純なものでさえ、間違った形式で入力することでさえ、彼らがすることを常に修正しなければなりません。

しかし、私が言ったように、インターネット検索エンジンは毎日世界をインデックス化するのを見てきました。そのため、今では発見プロセスのビジネスデータセットでそれを行うことができ、ツールとシステムは今日学習しようとしているのですぐに利用できます。私の考えでは、トリックは仕事に最適なツールを選択することです。そして、その上でより適切に、適切な部分を見つけて、このパスを開始するのに役立ちます。今日はそのことを聞くと思いますが、それをする前に、大学のロビン・ブロアに引き継いで、彼がこのトピックを取り上げるのを聞くつもりです。ロビン、私はあなたに渡すことができますか？

ロビン・ブロア： はい、確かにできます。これが機能するかどうかを見てみましょう、そうです。さて、私は実際にデズとは異なる方向から来ていますが、同じ場所に行き着きます。これはデータへの接続に関するものであるため、データに接続するという現実をポイントごとに実際に見ていきたいと思いました。

データはかつてないほど断片化されているという事実があります。データ量は驚異的に増加していますが、実際には、データのさまざまなソースも信じられないほどの速度で成長しているため、データは常に断片化されています。しかし、特に分析アプリケーション（これらは唯一のアプリケーションではない）のために、このすべてのデータに接続する非常に正当な理由があります。そのため、困難な場所に閉じ込められ、断片化されたデータの世界に閉じ込められています。そして、Dezがそれを新しいオイルと呼んでいたように、データには機会があります。

データについては、ファイルシステムまたはデータベースのいずれかの回転ディスク上に存在していました。現在では、はるかに多様な環境に存在し、ファイルシステムに存在していますが、最近ではHadoopインスタンス、またはSparkインスタンスにも存在しています。複数の種類のデータベースに存在します。少し前まで、いくつかのリレーショナルデータベースを標準化しましたが、ドキュメントデータベースが必要であり、グラフデータベースが必要なため、過去5年間にウィンドウがなくなったことがわかります。かわった。そのため、回転ディスク上に存在していましたが、現在はSSD上に存在しています。最新のSSD –間違いなく最新のSSDユニットがSamsungから出ています– 20ギガバイト、これは巨大です。現在では、データのプライムコピーをディスクではなくメモリに格納できるという意味で、メモリ内に存在します。そのようなシステムの構築には使用しませんでした。今やっています。そして、それはクラウドに住んでいます。つまり、これらはクラウドのどこにでも存在できることを意味します。クラウド内のどこにいるのかを必ずしも知る必要はありません。アドレスのみがあります。

要点を突き止めるために、Hadoopはこれまでのところ、拡張可能なデータストアとして失敗しました。拡張可能なスケールアウトデータストアになり、すべてのファイルシステムが1つになることを望んでいました。空に虹が現れ、基本的にはユニコーンが舞い上がり、それは起こりませんでした。つまり、データ転送の問題が発生し、時にはデータ転送の必要性はありませんが、それは困難でもあります。数テラバイトのデータを取得し、それを振り回すと、ネットワークにレイテンシーが発生したり、さまざまな場所に表示されたりする原因となります。データを転送したい場合、タイミングが要因です。最近では、ある場所から別の場所に1つのデータを取得するためにどれだけの時間を確保するかについて、ほとんど常に制限があります。マシンがアイドル状態のとき、以前はバッチウィンドウと考えていたものがありましたが、データがどれだけあったとしても、それを放り投げればすべてうまくいきました。さて、私たちははるかにリアルタイムの世界に住んでいます。したがって、タイミングが要因です。データを移動したいとすぐに、データに重力がある場合は、おそらく移動できません。

データ管理は、このすべてのデータを実際に管理しなければならないという意味での要因です。無料で取得することはできません。実際にデータを取得して必要なジョブを実行するには、レプリケーションが必要になる場合があります。どこに置いてもいけません。通常のデータ処理を行うために十分なリソースがない場合があります。したがって、データは複製され、データは想像以上に複製されます。昔、誰かが私に、平均的なデータが少なくとも2.5回複製されていると言ったと思います。 ESBまたはKafkaはデータフローのオプションを提供しますが、今日ではアーキテクチャが必要です。今日では、データを実際に投げることが実際に何を意味するかについて、何らかの形で考える必要があります。したがって、データにアクセスすることは、もちろん、実際にデータを取得するときに必要なパフォーマンスを得ることができ、それがconに依存している限り、通常は望ましいです。とにかく、それは難しい状況です。データクエリに関しては、以前はSQLの観点から考えることができましたが、今では本当にさまざまな形式のクエリ、SQLがありますが、隣接するグラフクエリも、Sparkはグラフを作成する1つの例にすぎませんまた、これまで以上に検索を行う必要があるため、パターンの本当に複雑な検索である正規表現タイプの検索、および本物のパターンマッチングも、これらのすべてが実際にバブリングしています。そして、彼らはあなたが探しているものを手に入れるか、あなたが探しているものを手に入れることができるので、すべてが便利です。

現在、クエリは複数のデータにまたがっているため、常にそうなるとは限りませんでした。そのため、状況によって異なりますが、人々は複数のデータソースからデータをクエリできるようになることを期待しているため、ある種のデータフェデレーションはますます最新になっています。データ仮想化は、パフォーマンスに応じて異なる方法で実行されることも非常に一般的です。データクエリは、実際にはプロセス全体ではなく、プロセスの一部です。分析のパフォーマンスを実際に見ている場合、実際の分析はデータ収集よりもかなり長い時間がかかることがありますが、それは状況によって異なりますが、データクエリは絶対に必要なことです。複数のデータソースに対する分析のようなものであり、実際には、実際にはさまざまな機能が必要です。

カタログについてです。カタログには理由があります。少なくとも、私たちは、ディレクトリがあり、データベースにスキーマがあり、各カタログがあり、どこに行っても、1つの場所を見つけることができると言っています。ある種のカタログがあり、統一されたグローバルカタログが非常に良いアイデアであることがわかります。しかし、そのようなものを持っている企業はほとんどありません。私は覚えている、2000年に– 2000年のパニック–私は共産主義者が彼らが持っていた実行可能ファイルの数をピン止めすることさえできなかったことを覚えている、彼らが持っている異なるデータストアの数を気にしないほとんどの企業は、どのようなデータを持っているかをグローバルな意味で積極的に知らないことを知ってください。しかし、実際にグローバルカタログを作成する必要性が明らかになりつつあります。または、少なくともデータソースの成長とアプリケーションの継続的な成長のために、進行中の状況をグローバルに把握する必要があります。また、ある意味では、データの系統や問題など、他の問題もあります。また、セキュリティ、データガバナンスの多くの側面、必要なデータが本当にわからない場合は、それを支配しようとしているのはばかげている。そのため、すべてのデータが何らかの方法でカタログ化されるのは事実です。問題は、カタログが一貫しているかどうか、実際にそれで何ができるかです。それで、レベッカに戻ります。

レベッカ・ジョズウィアック： はい、ロビンに感謝します。次に、AlationのDavid Crawfordがいます。David私は先に進み、ボールをあなたに渡します。あなたはそれを奪うことができます。

デビッド・クロフォード： どうもありがとうございます。このショーに参加してくれて本当にありがとう。私はこれを始めるつもりだと思うので、ここでの私の役割は、その理論の一部を取り、それが実際にどのように適用されているか、そして実際の顧客で運転できる結果を確認することだと思います。スライドのいくつかについて、分析で改善される可能性のある結果を確認したいと思います。そこで、議論の動機付けをするために、彼らがどうやってそこに着いたかについて話します。幸運なことに、これらの顧客の多くの本当に賢い人々とかなり密接に仕事をすることができ、実際に測定することができた少数の人々を指摘し、データカタログが彼らのアナリストにどのように影響したかについて話したいですワークフロー。そして、簡単に先頭に立つために、データカタログと以前の仲介されたソリューション、そして関係者が私たちがまとめたソリューションについて本当に考える方法の1つで、私たちが見るものの1つが変わると思います。後方に働きます。言うには、アナリストの生産性を有効にすることについてこれを作ってみましょう。単なるコンプライアンスとは対照的に、または単にインベントリを保持するのではなく、アナリストの生産性を高めるツールを作成しています。

そこで、金融サービス会社Squareのデータサイエンティストと話すと、Nickが、レポートを開始するために適切なデータセットを見つけるのに数時間かかっていた方法を教えてくれました。市場シェアで検索を使用して数秒でそれを実行し、Squareを使用していたアナリストを引き離したCTOに話を聞きました。生産性が向上し、世界のトップ小売業者の1つであるeBayには、定期的にSQL分析を行う1,000人以上の人々がいます。私はプロジェクトのDeb Saysとかなり密接に仕事をしていますデータツールチームのマネージャーである彼女は、クエリアがAlationを採用し、カタログを採用すると、データベースに対する新しいクエリの書き込み速度が2倍になることを発見しました。

したがって、これらは実際の結果であり、実際に組織にカタログを適用している人々です。セットアップに必要なことを説明します。カタログが会社でどのように確立されるか、そしておそらく最も重要なことは、その多くが自動的に行われるということです。そこで、Dezはシステムについて話し、システムについて学び、それがまさに最新のデータカタログの機能です。そのため、Alationをデータセンターにインストールし、それをデータ環境のメタデータのさまざまなソースに接続します。データベースとBIツールに少し焦点を当てます。これらの両方から、基本的に存在するものについて、技術的なメタデータを抽出します。そう、だからどんなテーブル？どのようなレポートですか？レポートの定義は何ですか？そのため、彼らはその技術的なメタデータを抽出し、それらのシステム内のすべてのオブジェクトに対してカタログページが自動的に作成されます。次に、その技術的なメタデータの上に抽出および階層化され、使用データの上に階層化されます。これは主にデータベースからクエリログを読み取ることで行われ、これは非常に興味深い情報源です。そのため、アナリストがクエリを作成するとき、レポートツールが自家成長であるか、既製であるか、レポートツールがダッシュボードを更新するためにクエリを実行するとき、アプリケーションが操作するデータを挿入するクエリを実行するときデータセット–これらすべてはデータベースクエリログにキャプチャされます。カタログがあるかどうかに関係なく、カタログはデータベースとともにクエリログにキャプチャされます。データカタログでできること、特にAlationsカタログでできることは、それらのログを読み取り、その中のクエリを尋ね、それらのログに基づいて非常に興味深い使用状況グラフを作成することです。データの過去のユーザーがどのように使用したかについてのデータ。

そのため、すべての知識をカタログにまとめます。これを実現するために、これらはすでにお客様に展開されている統合です。したがって、Oracle、Teradata、Redshift、Vertica、およびその他の多くのリレーショナルデータベース。 Hadoopの世界では、Hadoopに一連のSQL、Hadoopファイルシステム、Impala、Tez、Presto、Hiveの最上位にあるリレーショナルメタストアがあり、AltiscaleなどのクラウドHadoopプライベートプロバイダーでも成功を収めています。また、Tableauサーバー、MicroStrategyサーバーに接続してダッシュボードのインデックスを作成できるほか、Plotlyなどのデータサイエンスチャートツールとの統合も可能です。

したがって、これらすべてのシステムに接続し、これらのシステムを顧客に接続し、技術的なメタデータを取り込み、使用データを取り込み、データカタログを自動的に準備しましたが、そのようにして、知識を一元化しますが、データカタログに物事を一元化するだけでは、eBay、Square、市場シェアで話し合った本当に素晴らしい生産性の向上は得られません。そのためには、実際にアナリストに知識を提供することに対する考え方を変える必要があります。このために準備を求めている質問の1つは、「カタログが実際にアナリストのワークフローにどのような影響を与えるか」でした。

それが私たちが一日中考えていることであり、プッシュモデルとプルモデルの考え方のこの変化について話すために、Kindleを読む前後の世界がどのようなものであるかを簡単に類推したかったのです。物理的な本を読んでいるときに単語に出くわすと、その単語の定義を非常によく知っているかどうかわからない場合があります。ソファから立ち上がって本棚に行き、辞書を見つけてほこりを払い、単語のアルファベット順のリストの正しい場所に移動して、その定義が正しいことを確認します。それのニュアンス。したがって、実際には発生しません。だから、Kindleアプリを購入し、そこで本を読み始めると、あなたは完全に確信が持てない単語を見て、その単語に触れる。突然、同じ画面で、すべてのニュアンス、さまざまな使用例を含む単語の辞書定義があり、少しスワイプすると、そのトピックに関するウィキペディアの記事が表示され、もう一度スワイプします。それを他の言語または他の言語に翻訳できる翻訳ツールを手に入れると、突然言語の知識がはるかに豊かになり、行かなければならなかったときと比べて驚くべき回数になります自分でそのリソースを引き出します。

ですから、アナリストのワークフローとアナリストがデータ文書を処理する方法は、実際には、読者が物理的なものであろうとなかろうと、辞書と対話する方法に非常に似ているということです。 Kindle、つまりこの生産性の向上を実際に見た方法は、カタログをこぼすのではなく、アナリストのワークフローに接続しているので、ここでデモを行うように頼まれました。それをこのプレゼンテーションの焦点にします。しかし、私はデモの詐欺を設定したいだけです。ユーザーが必要なときにデータの知識をユーザーにプッシュすることを考えるとき、それを行う適切な場所、ユーザーが時間を費やし、分析を行う場所はSQLクエリツールだと思います。 SQLクエリを記述して実行する場所。そして、私たちはそれを構築し、それを構築しました。他のクエリツールと実際に異なるのは、データカタログとの深い統合です。

したがって、クエリツールはAlation Composeと呼ばれます。 Webベースのクエリツールであり、すぐに表示します。前のスライドで見たデータベースロゴすべてで機能するWebベースのクエリツール。特にデモしようとするのは、カタログ情報がユーザーにどのように伝わるかということです。そして、このような3つの異なる方法でそれを行います。それは介入によって行われ、データガバナー、データスチュワード、または何らかの方法で管理者、またはマネージャーの誰かが、「メモや警告を何らかの形で挿入したい」と言うことができます。それが適切なタイミングでユーザーに配信されることを確認してください。」

スマートな提案とは、ツールがカタログに関するすべての集約された知識を使用して、クエリを作成するときにオブジェクトやクエリの一部を提案する方法です。そこで知っておくべき最も重要なことは、クエリログを実際に活用して、使用法に基づいて提案したり、以前に記述されたクエリの一部を見つけたりすることです。それをよく示してください。

そしてプレビューします。プレビューは、オブジェクトの名前を入力すると、カタログが知っているすべてのもの、または少なくともカタログがそのオブジェクトについて知っている最も関連性の高いものを表示します。そのため、以前にデータを使用したデータのサンプル、そのオブジェクトの論理名と説明はすべて、あなたがデータを要求することなく作成している間にあなたの所に来ます。

したがって、これ以上話をせずにデモに行き、Imが表示されるのを待ちます。ここで紹介するのは、クエリツールです。その専用のSQL書き込みインターフェイス。ある意味で、カタログとは別のインターフェイスです。 DezとRobinはカタログについて話し、Imはカタログのインターフェースを少し飛び越えて、ワークフローを直接サービスに提供する方法に直接触れました。

ここでは、SQLを入力できる場所を示していますが、下部には、参照しているオブジェクトに関する情報が表示されていることがわかります。クエリの入力を開始するだけで、これらの介入の1つに到達すると停止します。「select」と入力すると、年が必要です。名前が欲しいそして、私はいくつかの給与データを調べます。これは教育データセットです。高等教育機関に関する情報があり、これらの表の1つにある平均的な教員の給与を調べています。

そのため、実際に「給与」という単語を入力しました。そのように列の名前に正確に入力したわけではありません。論理メタデータと物理メタデータの両方を使用して提案を行います。ここで指摘したいのは、ここに表示されるこの黄色のボックスです。このコラムには警告があると書かれています。私はそれを探しに行きませんでした。このデータを適切に使用する方法についての授業を受けませんでした。それは私に来ました、そしてそれはたまたまこのデータに関係する守秘義務契約についての警告です。そのため、いくつかの開示ルールがあります。私がこのデータを照会する場合、このテーブルからデータを取り出す場合、その開示方法に注意する必要があります。したがって、ここにガバナンスポリシーがあります。私がデータを見ている時点でこのポリシーを知っていると、このポリシーへの準拠が非常に簡単になる、いくつかのコンプライアンスの課題があります。

だから、私はそれを私のところに持ってきて、それから私も授業料を見るつもりだ。そして、ここでプレビューが登場します。この授業料の列では、教育機関の表に授業料の列があり、そのプロフィールが表示されています。 Alationはテーブルからサンプルデータを取得し、この場合、非常に興味深い何かを見せてくれます。値の分布が表示され、サンプルでゼロ値が45回、他のどの値よりも多く表示されたことがわかります。そのため、データが欠落している可能性があるという感覚が得られました。

私が上級アナリストなら、これはすでに私のワークフローの一部かもしれません。特にImが特に細心の注意を払っている場合は、事前に大量のクエリをプロファイリングします。 Imが新しいデータに近づいたときはいつでも、私たちのデータカバレッジについて常に考えています。しかし、Imがデータ分析を初めて使用する場合、Imがこのデータセットを初めて使用する場合、列がある場合は常にその列が埋められていると想定するかもしれません。または、その値が満たされていない場合、ゼロではない、ヌルである、またはそのようなものであると想定する場合があります。しかし、この場合、多くのゼロがあり、平均をした場合、それらのゼロが欠損データではなく実際にゼロであると仮定した場合、おそらく間違っています。

しかし、Alationは、このプレビューをワークフローに取り込むことで、この情報を確認するように求め、ある種の初心者のアナリストでも、そのデータについてここで注意すべきことがあることを確認する機会を与えます。プレビューがあります。

Imが次に行うことは、この情報を取得するテーブルを見つけることです。そのため、ここではスマートな提案をご覧ください。これは常に行われていますが、特にここでは何も入力していませんが、このクエリにどのテーブルを使用したいかを提案します。そして、これについて知っておくべき最も重要なことは、使用統計を活用することです。そのため、たとえばeBayのような環境では、単一のデータベースに数十万のテーブルがあり、aff殻から小麦を打つことができるツールを持ち、これらの使用統計を使用することは、これらを作成するために非常に重要です何か価値がある提案。

したがって、この表を提案します。プレビューを見ると、クエリで既に言及した3つの列が実際に強調表示されます。だから私はそれが3つを得たことを知っていますが、名前はありません。名前を取得する必要があるので、私は参加します。結合を行うと、名前のテーブルがどこにあるかを見つけるのに役立つこれらのプレビューがあります。だから、この名前にはきちんとフォーマットされた、ある種の適切に大文字の名前があることがわかります。各機関の名前を持つ行が1行あるように見えるので、私はそれをつかむつもりで、今は結合条件が必要です。

そのため、ここでAlationが行っていることは、クエリログを再度振り返り、これら2つのテーブルが結合された以前の時間を確認し、それらを結合するさまざまな方法を提案しています。もう一度、いくつかの介入があります。これらのいずれかを見ると、これは集計分析にのみ使用する必要があることを示す警告が表示されます。施設ごとに施設を介して何かを行おうとすると、おそらく間違ったものが生成されます。これに対して、大学レベルのデータが必要な場合は、OPE IDを使用して、これら2つのテーブルを結合する適切な方法として承認されます。そのため、私はそれを実行し、短いクエリを実行しましたが、データが何であるかについての洞察を本当に必要とせずにクエリを作成しました。私は実際にこのデータセットのER図を見たことはありませんが、関連する情報が私に届いているので、私はこのデータについてすでに多くのことを知っています。

したがって、これらは、統合されたクエリツールを使用してカタログがクエリを記述するワークフローに直接影響を与えることができる3つの方法の一種です。しかし、クエリツールをカタログに統合することのもう1つの利点は、クエリを終了して保存すると、「教育機関の授業料と教員の給与」などのタイトルを入力できることです。カタログに公開するだけです。これをフィードバックするのは非常に簡単になります。たとえそれを公開しなくても、それはクエリログの一部としてキャプチャされますが、実際に公開すると、すべてのデータ知識が存在する中央の場所の一部になります。

したがって、Alationの[すべてのクエリを検索]をクリックすると、Imが取得されます。カタログインターフェイスの詳細が表示されます。専用クエリ検索に移動すると、組織全体でクエリを検索できます。そして、新しく公開されたクエリが一番上にあることがわかります。ここで、クエリをキャプチャするとき、著者もキャプチャし、著者としての私と、現在わかっているこれらのデータオブジェクトとの間にこのような関係を確立することに気付くかもしれません。そして、このクエリとこれらのデータオブジェクトのエキスパートとして確立されています。それは、人々がデータについて学びに行く必要がある場合、本当に役立ちます。 Imが実際にデータを初めて使用する場合、Imが上級アナリストであるかどうかにかかわらず、上級アナリストとして、これを見て、新しいデータセットを開始する多くの例を見るかもしれません。 SQLに精通していないかもしれない人として、私は利用できるレポートである既成のクエリを見つけることができます。

SATスコアの中央値についてのPhil Mazanettによるものです。これをクリックすると、クエリ自体のカタログページが表示されます。このクエリを参照するように書かれた記事について説明しているので、使用方法を知りたい場合に読むべきドキュメントがいくつかあります。また、[作成]ボタンをクリックしてクエリツールで開くことができ、編集することなくここで実行できます。実際、軽量のレポート機能を少し見ることができます。クエリを作成するときに、このようなテンプレート変数をドロップすると、フォームに基づいてクエリを実行する簡単な方法が作成されます。パラメータのカップル。

これがデモ用です。スライドに戻ります。要約すると、クエリツールに表示されるオブジェクトに警告を配置することにより、データガバナーである管理者が介入する方法、Alationがデータオブジェクトの使用に関する知識を使用してスマートな提案を行う方法、もたらす方法を示しましたアナリストが特定のオブジェクトに触れたときのアナリストのワークフローを改善するためのプロファイリングやその他のヒント、および新しいクエリが作成されたときにその種のすべてがカタログにフィードバックされる方法。

明らかに、会社を代表してスポークスマンです。データカタログについて良いことを言うつもりです。顧客の1人から直接連絡を取りたい場合は、SafewayのKristie Allenがアナリストチームを運営しており、マーケティング実験を行うために本当に時間をかけなければならなかった時期と、彼女の全体がどのようにチームはAlationを使用して、そのプロジェクトで非常に迅速に協力し、好転しました。したがって、このbit.lyリンクをたどってそのストーリーを確認できます。また、Alationが組織にデータカタログをもたらす方法について少し聞きたい場合は、パーソナライズされたデモを設定できます。どうもありがとう。

レベッカ・ジョズウィアック： どうもありがとう、デビッド。オーディエンスQ＆Aに引き渡す前に、DezとRobinにいくつか質問があることを確認します。デズ、先に行きたい？

デズ・ブランフィールド： 絶対に。公開されたクエリのこの概念のアイデアが大好きで、それをオーサリングのソースにリンクします。私は社内のアプリストアというこのアイデアの長年のチャンピオンであり、これを構築するための本当に素晴らしい基盤だと思います。

私はあなたがこれをやっている組織のいくつかについての洞察を得るようになりました。そして、あなたのツールとプラットフォームを利用してデータを発見するだけでなく、内部の文化的および行動的特性を変化させます。ダウンロードするだけのこの種の社内アプリストア、それを見つけるだけでなく、その知識のキーパーと実際に小さなコミュニティの開発を開始できるというコンセプトがあります。

デビッド・クロフォード： ええ、私たちは驚いたと思います。私たちは、アドテックのプロダクトマネージャーとしての過去と、これまでに話し合ったすべての顧客の両方から、クエリを共有することの価値を信じていますが、顧客が最初に話したことの1つがどれほど頻繁にあるかにまだ驚いていますAlationから得られる価値。

私はInvoice2goという顧客の1人でクエリツールのユーザーテストを行っていましたが、比較的新しいプロダクトマネージャーがいて、ユーザーテスト中にプロンプトが表示されず、そして、もちろん、PMとして、私は、「どういう意味ですか、どうやってそれをしましたか？」と言いました。 SQLを使用して白紙状態から始めるのは非常に難しいことですが、既存のクエリを変更して、結果を確認して「ああ」と言うことができます。、この追加の列が必要なだけです」、または「特定の日付範囲にフィルタリングする必要がある」というのは、はるかに簡単なことです。

プロダクトマネージャー、営業担当者など、このカタログを使用してSQLを習得し、SQLを習得したいと常に考えていた補助的な役割のようなものを見てきました。また、多くの企業が一種のオープンソースを試みていることも確認しました。私はこれらの種類のものを内部で構築しようとしました。そこでクエリを追跡し、利用できるようにしました。彼らはHiPalと呼ばれる内部ツールを持っていて、Hiveで書かれたすべてのクエリをキャプチャしましたが、あなたが見つけたのは、正しい方法でユーザーを微調整しないと、非常に長いリストになるだけです選択ステートメントの。そして、クエリが私にとって有用であるか、それとも何か良いものであるかを理解しようとしているユーザーとして、selectステートメントの長いリストに目を通すだけで、そこから価値のあるものを得るのにはるかに長い時間がかかります最初から始めます。適切なものを前面に表示し、便利な方法で提供するクエリカタログを作成する方法について、慎重に検討しました。

デズ・ブランフィールド： 私たちは皆、非常に幼い頃から大人に至るまで、多くの点でこの旅を経験していると思います。一連のテクノロジー。私自身も、コードをカットすることを学ぶなど、まったく同じ本物のことを経験しました。雑誌を読み、次に本を読み、ある程度のレベルまで勉強した後、さらにトレーニングと教育を受ける必要がありました。

しかし、自分で教えて、雑誌を読んで、本を読んで、他の人のプログラムを切り刻んで、そのコースに行くときでさえ、私は他の人と話をするのと同じようにコースをすることから多くのことを学ぶことになりましたいくつかの経験をした人。そして、それをデータ分析にもたらした今、基本的には人間が常に非常に賢いという同じ平行線を見ていたという興味深い発見だと思います。

私が本当に理解したいもう一つのことは、非常に高いレベルで、多くの組織が「そのポイントに到達するのにどれくらい時間がかかりますか？」と尋ねることです。インストールされ、彼らはツールの種類を発見し始めましたか？このことを見ると、人々はROIを心配しなくても、すぐに「a-ha」の瞬間に変わりますが、実際にはビジネスのやり方を実際に変えているのでしょうか。そして、彼らは失われた芸術を発見し、彼らはそれで本当に、本当に楽しい何かをすることができると期待しています。

デビッド・クロフォード： ええ、少し触れます。インストールすると、データシステムに直接接続されているカタログについて人々が好むものの1つ、すてきなことの1つは、ページを埋めなければならないところを空白にしてはいけないということです。ページ。これは、空のツールから始めて、文書化するすべてのページの作成を開始する必要がある以前のデータソリューションにも当てはまります。

基本的にソフトウェアをインストールしてから数日以内に、メタデータを抽出することで非常に多くのことを自動的に文書化するため、ツールで少なくとも80％のデータ環境の画像を取得できます。そして、私は人々がツールでクエリを書き始めるとすぐにカタログに自動的に保存されると思うので、彼らも同様に現れ始めるでしょう。

私はそれを述べることに熱心になりたくありません。 2週間は1か月までのかなり控えめな見積もりだと思います。 2週間から1か月間、保守的に見積もって、実際に向きを変え、自分の価値を引き出しているように感じます。自分の知識を共有し始め、そこに行ってデータについて調べることができます。

デズ・ブランフィールド： それについて考えると、本当に驚くべきことです。効果的にインデックス付けおよびカタログ化する大規模なデータプラットフォームの一部が、適切に実装および展開され、立ち上がるのに最大で1年かかる場合があるという事実。

Robin Bloorに引き渡す前に私があなたに寄せた最後の質問は、コネクタです。すぐに私に飛びついたものの1つは、あなたが明らかに全体の課題を解決したことです。したがって、いくつかの質問が非常に迅速にあります。 1つは、コネクタがどのくらいの速さで実装されますか？明らかに、OracleやTeradataなど、DB2などの最大のプラットフォームから始めます。しかし、新しいコネクタがどのくらい定期的に届くのか、どのくらいの時間がかかるのでしょうか？それらの標準的なフレームワークがあると思います。そして、あなたはそれらにどのくらい深く入りますか？たとえば、世界中のオラクルとIBM、さらにはTereadata、さらには人気のある最新のオープンソースプラットフォームの一部です。彼らはあなたと直接働いていますか？自分で発見していますか？これらのプラットフォームに関する内部知識が必要ですか？

コネクタを開発するのはどのようなものですか？また、それらのコネクタが可能な限りすべてを発見できるようにするために、これらのパートナーシップにどの程度深く関わっていますか？

デビッド・クロフォード： ええ、確かに、それは素晴らしい質問です。ほとんどの場合、コネクタを開発できると思います。確かに私たちは若いスタートアップで、顧客がいなかったときにやった。内部アクセスを必要とせずに、接続を確実に開発できます。公開されていないデータシステムへの特別なアクセスは、内部情報を必要とせずに行われることはありません。データシステム自体で利用可能なメタデータサービスを利用します。多くの場合、これらは非常に複雑で、扱いにくい場合があります。私は特にSQL Serverを知っています。クエリログを管理する方法、いくつかの異なる構成があり、実際に作業する必要があります。適切に設定するには、ニュアンスとノブとダイヤルを理解する必要があります。これは、以前に何度か行ってきたので、お客様と一緒に取り組んでいることです。

しかし、ある程度までは、利用可能なパブリックAPIまたは利用可能なパブリックインターフェイスの種類です。これらの企業のいくつかとパートナーシップを結んでおり、ほとんどが認証の根拠になっているため、彼らは私たちが働いていると言って安心し、テストのためのリソースを提供することもできます。時には、新しいバージョンに取り組んでいます。

新しい接続を好転させるために、私は保守的になろうとして、6週間から2か月と言いましょう。それがどれほど似ているかによります。そのため、Postgreの一部は、Redshiftに非常によく似ています。 RedshiftとVerticaは多くの詳細を共有しています。したがって、これらのことを活用できます。しかし、ええ、6週間から2か月は公平でしょう。

また、APIがあるため、Alationもメタデータプラットフォームと考えているため、利用できないものがあり、自動的に取得できない場合は、自分でコネクタを記述してシステムにプッシュする方法があります。すべてが単一の検索エンジンに一元化されます。

デズ・ブランフィールド： 素晴らしい。感謝します。それで、ロビンにもたくさんの質問があるので、それをロビンに渡すつもりでした。ロビン？

レベッカ・ジョズウィアック： ロビンはミュートになっている可能性があります。

デズ・ブランフィールド： Youveはミュート状態になりました。

ロビン・ブロア： ええ、その通り。申し訳ありませんが、私は自分自身をミュートしました。これを実装するとき、プロセスは何ですか？多くの場所に大量のデータが存在する可能性があるため、ちょっと不思議です。それで、それはどのように機能しますか？

デビッド・クロフォード： ええ、確かに。まず、サーバーを確実にプロビジョニングし、ネットワーク接続が使用可能であること、ポートが開いていることを確認してシステムに実際にアクセスできるようにするというITプロセスのようなものです。彼らは皆、どのシステムから始めたいかをよく知っています。データシステムの内部を知ること。これは、場合によっては実際に役立ちます。クエリログを最初に確認して、システムで誰が何人のユーザーを使用しているかを理解するのに役立ちます。どこにいるかを見つけるのに役立ちます-多くの場合、データベースにログインしている可能性のある数百または数千の人がいる場合、彼らは実際にログインしている場所を知らないので、クエリログから一意のユーザーアカウントの数を調べることができますここで実際にログインしてクエリを実行しているのは1か月程度です。

そのため、私たちはそれを利用することができますが、多くの場合、最も重要なものに対してのみです。それらをセットアップし、「優先順位を付けましょう」と言うプロセスがあります。並行して実行できるさまざまなアクティビティがあります。クエリツールを使用するためのトレーニングに集中します。クエリツールの使用を開始すると、まず第一に、多くの人々は、さまざまなシステムすべてに対する単一のインターフェイスであるという事実を気に入っています。彼らはまた、彼らが望まない場合、そのウェブベースの、インストールを伴わないという事実を愛しています。セキュリティの観点からは、企業のITネットワークと本番データソースが存在するデータセンターとの間に、ネットワークの観点から、一種の単一のエントリポイントがあることが好きです。したがって、Alationをクエリツールとして設定し、Composeをこれらすべてのシステムのアクセスポイントとして使用し始めます。

そのため、トレーニングに重点を置いているのは、ウェブベースまたはサーバーベースのクエリツールとデスクトップにあるツールの違いと、それを使用する際の微妙な違いを理解することです。同時に、最も重要なデータを特定し、クエリログ情報を再度利用して、次のように述べます。これらのテーブルで代表的なクエリの公開を始めましょう。」これは、時として非常に迅速に人々を巻き上げる最も効果的な方法です。独自のクエリ履歴を見て、これらを公開して、最初のクエリとして表示されるようにします。テーブルページを見ると、そのテーブルに触れたすべてのクエリを見ることができ、そこから開始できます。次に、これらのオブジェクトにタイトルと説明を追加して、検索と検索を簡単にし、使用方法のニュアンスを理解できるようにします。

系統を生成できるように、クエリログを徹底的に確認します。私たちがやっていることの1つは、あるテーブルから別のテーブルにデータが移動するときにクエリログを調べることです。これにより、データのテーブルに関する最もよくある質問の1つを入れることができます。どうすれば信頼できますか？したがって、表示できるのは、それが他のどのテーブルから来たのかだけでなく、その途中でどのように変換されたかです。繰り返しますが、これは一種のクエリログによって強化されます。

そのため、これらのものがセットアップされ、システムに系統が導入され、テーブルページで確立できる最も価値が高く、最も活用されているメタデータをターゲットにしていることを確認します。あなたは何か有用なものを見つけます。

ロビン・ブロア： はい。もう1つの質問-聴衆からの質問がたくさんあるので、ここで時間をかけすぎたくありません-頭に浮かぶもう1つの質問は、ただの痛みのポイントです。多くのソフトウェアが購入されたのは、人々が何らかの形で何らかの問題を抱えているためです。それでは、人々をアレーションに導く一般的な痛みのポイントは何ですか？

デビッド・クロフォード： うん。いくつかあると思いますが、私たちがよく耳にするのはアナリストのオンボーディングだと思います。「このデータから新しい洞察を生み出さなければならない短期的に10、20、30人を雇う必要があります。彼らはどのようにスピードを上げるのでしょうか？」ですから、アナリストのオンボーディングは確かに取り組んでいます。また、上級アナリストがデータに関する他の人からの質問に答えるために時間を費やすことから解放されます。それも非常に頻繁に発生します。そして、どちらも本質的に教育の問題です。

そして、Alationを採用している人々が見ている別の場所は、誰かが働くための真新しいデータ環境をセットアップしたいときです。彼らはこれを内部で宣伝し、利用する人々のためにマーケティングしたいのです。次に、Alationをその新しい分析環境のフロントエンドにすることは非常に魅力的です。ドキュメントを取得し、システムへの単一のアクセスポイントである、システムへの単一の導入ポイントを取得しました。

ロビン・ブロア： さて、オーディエンスがあなたに到達しようとしているので、レベッカにあなたを渡します。

レベッカ・ジョズウィアック： はい、私たちはここで本当に良い聴衆の質問をたくさん持っています。そして、デビッド、これはあなたに特別に提起されました。クエリを悪用する人々の経験があるようです。ユーザーに権限を与えるほど、コンピューティングリソースの責任ある使用を管理することが難しくなります。それで、見当違いだが一般的なクエリフレーズの伝播を防ぐことができますか？

デビッド・クロフォード： ええ、私はこの質問を見ます。それは素晴らしい質問です。私たちが頻繁に受ける質問です。ユーザーをトレーニングする必要のある以前の会社で痛みを自分で見たことがあります。たとえば、「これはログテーブルであり、取得したログは何年も遡ります。したがって、たとえば、データベースにアクセスする前に前の会社で行ったトレーニングです。

これに対処しようとする方法がいくつかあります。クエリログデータは、それに対処するために本当にユニークに価値があると思います。クエリプランナーを使用してデータベースが内部的に実行することに対して、別の洞察が得られます。そして、私たちがしていることは、それらの介入の1つです。私が示した手動の介入があり、それは有用ですよね？したがって、たとえば、特定の結合では、「これを非推奨にします」と言うことができます。スマートサジェストに表示されるときに大きな赤い旗が表示されます。それが人々に到達しようとする一つの方法です。

もう1つのことは、実行時の介入で自動化されることです。 Thatllは、実行する前にクエリの解析ツリーを実際に使用します。特定のフィルターや、そこで行われる他のいくつかの処理も含まれていますか。しかし、最も価値のあるものの1つであり、最も簡単に説明できるのは、フィルターが含まれているということです。先ほど示した例のように、このログテーブルは、クエリを実行する場合、日付範囲を持っている必要があります。テーブルページで、その日付範囲フィルターを適用するように指定することができます。誰かがそのフィルターを含まないクエリを実行しようとすると、実際には大きな警告でそれらを停止し、「クエリにこのようなSQLを追加する必要があります。」と言います。。実際にそれらを使用することを完全に禁止するつもりはありませんでした-そのクエリも、最終的にはクエリを実行するようになりました。しかし、私たちはそれらの前にかなり大きな障壁を置き、クエリを変更してパフォーマンスを改善するための具体的な適用可能な提案を提案します。

実際には、クエリログを監視することによって、場合によっては自動的にそれを行います。このテーブルで実際にかなりの割合のクエリが特定のフィルターまたは特定の結合句を利用していることがわかった場合、実際にそれをポップアップします。それを介入に促進します。実際、内部データセットで私に起こりました。顧客データとユーザーIDがありますが、ユーザーIDが設定されています。そのため、すべての顧客にユーザーIDがあります。一意ではないため、一意の参加キーを取得するには、クライアントIDとペアにする必要があります。そして、クエリを書いていて、何かを分析しようとすると、ポップアップが表示され、「みんな、これらのテーブルをクライアントIDとユーザーIDの両方で結合しているようです。そして、それが実際にいくつかの誤った分析を行うことを妨げました。そのため、分析の精度とパフォーマンスの両方で機能します。だから、それは私たちがその問題をどのようにとるかのようなものです。

レベッカ・ジョズウィアック： それは効果的であるように思えます。あなたは必ずしも人々がリソースを独占するのをブロックすることはないだろうと言ったが、彼らがしていることは最高ではないかもしれないと彼らに教えるのではないか？

デビッド・クロフォード： 私たちは常に、ユーザーが悪意のあるものではないこと、つまりユーザーに最善の意図を与えることを前提としています。

レベッカ・ジョズウィアック： はい。別の質問があります。「ソリューションのようなカタログマネージャーとMDMツールの違いは何ですか？または、クエリテーブルの選択肢を広げることにより、実際には別のプリンシパルに依存しますが、MDMはメタデータを収集する同じプリンシパルで自動的に行います。

デビッド・クロフォード： ええ、従来のMDMソリューションを見ると、主な違いは哲学的なものだと思います。そのユーザーについてです。プレゼンテーションの冒頭で述べたように、Alation、私たちが設立されたとき、私たちはアナリストがより多くの洞察を生み出し、より迅速に、より正確な洞察を生み出せるようにすることを目指して設立されたと思います作物。これが従来のMDMソリューションの目標であったとは思いません。これらのソリューションは、SCCまたは内部的に他の種類の監査目的でキャプチャされたデータのレポートを作成する必要がある人々を対象とする傾向があります。アナリストを有効にすることもありますが、実務家が作業を有効にすると、DBAのようなデータアーキテクトが有効になる可能性が高くなります。

アナリストの観点から物事を考えるとき、それはMDMツールでは決してできないクエリツールを構築し始めるときです。それは、パフォーマンスだけでなく正確さについても考え始めるとき、そしてどのデータが私のビジネスニーズに関連しているかを理解するときです。これらはすべて、ツールを設計するときに思い浮かぶものです。検索アルゴリズム、カタログページのレイアウト、および組織全体の知識を提供する機能に使用されます。クエリツールを構築し、カタログを直接構築したという事実になりますので、それは本当にそこから来ていると思います。最初に念頭に置いているユーザーは何ですか？

Rebecca Jozwiak：わかりました。それは本当に説明に役立ちました。彼は去らなければならなかったので、アーカイブを手に入れたくありませんでしたが、彼は本当に彼の質問に答えてほしかったです。彼は最初に複数の言語があると述べたが、Composeコンポーネント内で利用されている言語はSQLだけかと言いました。

デビッド・クロフォード： はい、そうです。そして、さまざまな種類のデータベース、ドキュメントデータベース、グラフデータベース、キーバリューストアの爆発を目撃したときに気づいたことの1つは、それらがアプリケーション開発にとって本当に強力であることです。リレーショナルデータベースよりも優れた方法で、特定のニーズに非常によく応えることができます。

しかし、それをデータ分析に持ち帰るとき、それを持ち帰るとき-アドホックなレポートやデータを掘り起こす人にその情報を提供したいとき、彼らは常にリレーショナルに戻ってくる、少なくとも、人間のためのインターフェース。その理由の1つは、SQLがデータ分析の共通語であるという理由だけです。そのため、人間にとっても、統合ツールにとってもです。これがHadoop上のSQLが非常に人気があり、それを解決するための非常に多くの試みがある理由だと思います。結局のところ、それは人々が知っていることです。 SQLの書き方を知っている人はおそらく何百万人もいるでしょうし、Mongo集約パイプラインフレームワーククエリの書き方を知っている何百万人もいません。そして、それは非常に多様なプラットフォームでの統合に使用される標準言語です。つまり、これはほとんどのアナリストが使用するインターフェイスであり、特にComposeでSQLの記述に焦点を当てた場所であるため、それ以外のことを要求されることはほとんどありませんでした。

データサイエンスは、彼らが最も外部で冒険する場所だと思うので、PigまたはSASの使用について時折質問を受けます。これらはComposeで絶対に処理できないものであり、カタログにキャプチャしたいものです。そして、RとPythonも見ています。 RおよびPythonスクリプト内でAlationで記述されたクエリを使用できるインターフェイスを作成した方法がいくつかあります。そのため、多くの場合、データサイエンティストとスクリプト言語で作業しているとき、ソースデータはリレーショナルデータベース。 SQLクエリから始めて、それをさらに処理して、RとPythonの内部でグラフを作成します。そして、Alationからクエリまたはクエリ結果を取得するスクリプトにインポートできるパッケージを作成したため、そこでブレンドワークフローを作成できます。

レベッカ・ジョズウィアック： いいですね時間を少し過ぎてから、もう1つまたは2つの質問をするつもりです。接続できるすべての異なるシステムについて話しましたが、外部でホストされたデータと内部でホストされたデータに関しては、それらを一緒に単一のビュー、単一のプラットフォームで検索できますか？

デビッド・クロフォード： 承知しました。それにはいくつかの方法があります。私は、外部でホストされていることを想像しますが、私はそれが何を意味するのかを正確に考えようとしています。誰かがあなたのためにAWSでホストしているデータベースを意味するかもしれません。 data.govからのパブリックデータソースを意味する場合があります。データベースアカウントを使用して別のアプリケーションと同じようにログインし、メタデータを抽出する方法でデータベースに直接接続します。したがって、アカウントがあり、ネットワークポートが開いている場合は、アクセスできます。そして、それらがなければ、仮想データソースと呼ばれるものがあります。これにより、自動的に、独自のコネクタを作成するか、CSVアップロードのようにドキュメントを埋めることで、ドキュメントをプッシュできます。内部データと一緒にデータ。すべてが検索エンジンに配置されます。システム内の記事や他のドキュメントや会話の中で参照可能になります。つまり、システムに直接接続できない場合の処理方法です。

レベッカ・ジョズウィアック： さて、それは理にかなっています。もう1つ質問します。一人の参加者は「ソースデータの更新、ソースデータの変更など、データカタログのコンテンツをどのように検証、検証、または保守する必要があるか」

デビッド・クロフォード： ええ、私たちはたくさんの質問をします、そして私が言ったように、私たちの哲学の1つであるものの1つは、ユーザーが悪意があるとは信じていません。彼らは最高の知識を提供しようとしていると思います。彼らは入ってくるつもりはなく、意図的にデータについて人々を誤解させます。組織で問題が発生する場合は、Alationsが適切なツールではない可能性があります。しかし、ユーザーが善意を持っている場合、更新が行われる場所と考えます。通常は、各データオブジェクトまたはデータの各セクションを担当します。そして、メタデータに変更が加えられた場合、それらのスチュワードに通知し、そのように処理できます。彼らは更新を受信し、それらを検証します。彼らが正しくない場合、彼らは戻ってそれらを修正し、通知することができ、できれば情報を提供したユーザーに手を差し伸べて、彼らが学ぶのを助けることさえできます。

それが私たちがそれを行うことについて考える第一の方法です。群衆によるこの種の提案とスチュワードによる管理なので、その周りにいくつかの機能があります。

レベッカ・ジョズウィアック： いいでしょうそして、Alationをどのように始めたらよいか、そして詳細情報を得るために具体的にどこに行けばよいかを人々に知らせることができれば。私はあなたがそれを少しずつ共有したことを知っています。それは最高の場所ですか？

デビッド・クロフォード： Alation.com/learnmore行くのに最適な方法だと思います。デモにサインアップするために、Alation.comサイトには多くの優れたリソース、お客様のホワイトペーパー、およびソリューションに関するニュースがあります。だから、それは開始するのに最適な場所だと思います。あなたもすることができます。

レベッカ・ジョズウィアック： いいですね参加者の皆さん、今日すべての質問に答えられなかった場合は申し訳ありませんが、そうでない場合は、Davidまたは彼の営業チームまたはAlationの誰かに転送されます。するか、彼らが何をするか。

それで、皆さん、私たちは先に進み、私たちをサインオフします。アーカイブは、InsideAnalysis.comでいつでも見つけることができます。 Techopedia.comでも見つけることができます。彼らは少し速く更新する傾向があるので、間違いなくそれをチェックしてください。そして今日はデビッド・クロフォード、デズ・ブランフィールド、ロビン・ブールに感謝します。すばらしいウェブキャストでした。そしてそれで、私はあなたに別れを告げるでしょう。ありがとう、人々。バイバイ。

デビッド・クロフォード： ありがとうございました。