データサイエンティストを育てる方法

著者: Judy Howell
作成日: 26 J 2021
更新日: 17 六月 2024
Anonim
未経験からデータサイエンティストになれるロードマップ完全版
ビデオ: 未経験からデータサイエンティストになれるロードマップ完全版

コンテンツ


取り除く:

データサイエンティストを育成するには、企業は文化と組織構造にもっと集中する必要があります。

テクノロジーの新興企業の中で、データサイエンティストは、データインテリジェンスの伝統的に別々の機能領域をつなぐことができるデータオタクを指すために使用されるますます一般的な用語です。データサイエンティストは、データインテリジェンスプロジェクトのいくつかの(すべてではないにしても)側面を快適に実行できる人です。

  1. データ取得:これには、特定のWebサービスまたは非伝統的なデータソースのAPIをターゲットとするカスタムパーサーおよびWebクローラーまたはスクリプトの記述が必要になる場合があります。
  2. データ管理:データベース、キー値ストア、またはHadoopのデータのETL、操作、クエリ、および保守。
  3. 情報の視覚化:静的な視覚化ツールキットやFlash、JavaScript、Processingに基づくインタラクティブプラットフォームを使用してパターンを発見します。
  4. 分析:これは、多変量統計、機械学習、NLPの単純なテクニックから複雑なテクニックまでさまざまです。
  5. 洞察:主要な調査結果を抽出し、要約し、幅広い聴衆に提示します。

多くのツール、スキル、技術的な詳細があり、上記の各アイテムを習得するには何年も費やすことができます。データサイエンティストは、どの分野でも真の専門知識を有していない場合がありますが、前後にスキップしてすべての分野で基本的なタスクを実行するのは問題ありません。その結果、データプロジェクトを迅速に調査し、経営陣からの(高レベルの)質問に対する回答を作成するのに十分な軽快なデータオタクになります。 (データサイエンティストの詳細については、データサイエンティスト:Tech Worldの新しいロックスターをご覧ください。)

データサイエンティストを育成するには、企業は文化と組織構造にもっと集中する必要があります。多くのデータワーカーは、データインテリジェンスの複数の領域ですぐに生産性を上げるのに十分なスキルとトレーニングを持っています。問題は、ほとんどがデータサイエンティストになることを奨励する環境では機能しないことです。それらはサイロに閉じ込められ、データインテリジェンスの1つまたは2つの領域に限定されています。多くの場合、彼らはマネージャーによって「承認された」ツールの使用に制限されています。


大小の企業で働いた後、タスクの厳密な分離がデータサイエンティストが直面する大きな障害であることは明らかです。最も一般的な症状は、データ分析とデータ管理の分離です。多くの大企業では、ほとんどのアナリスト/統計学者は指定されたデータウェアハウスチームからのデータを待たなければならず、多くの場合、異なるデータウェアハウスの複数の所有者からのデータを待ちます。

組織でデータサイエンスを奨励する方法

現時点では、データサイエンティストは、定義された役割とタスクにあまり重点を置いていない小規模の新興企業、インターネット企業、およびその他の組織で活躍しています。しかし、大規模で成熟した組織が楽しみに参加できない理由はまったくありません。 (統計学者が単純なWebスクレイパーの書き方を学べない理由や、データベースの人々が単純な統計と視覚化を学べない理由はありません。)それを実現する方法に関するいくつかの提案を以下に示します。

データサイエンティストのチームを結成すると、プロファイルに適合する可能性のある現在の従業員を特定することから始められます。彼らはオープンマインドでチーム志向でなければならず、上記の分野のいずれかでいくつかのプログラミングスキルを持っている必要があります。理想的には、コンピューターサイエンス、統計/定量的、またはデータ指向のバックグラウンドを持つ人々が混在していることでしょう。チームメンバーは、簡単なツール、ハッキング、テクニックをお互いに喜んで共有する必要があります。チームメンバーがお互いの学習に興奮した場合、相互受精が自然に起こります。技術、ツール、アイデアを共有したがらない従業員は、進歩を妨げます。

誰もソフトウェアの品質を気にしない場合、プログラミングスキルを向上させることはできません。

マネージャーが新しいデータソースで遊んでいるチームがあると気づいたら、彼らは障害を立てようとするかもしれません(「データの整合性はどうですか?適切な機械学習/統計的手法を使用していません!それをデータと組み合わせますか?」)。政治的支援がなければ、データサイエンティストのチームは(非)友好的な攻撃に遭遇します。新しいものは脅威として認識される傾向があるため、データサイエンティストが彼らの仕事を補完することをマネージャーにすばやく安心させることが最善です。小規模なデータサイエンティストチームによって明らかにされた洞察を使用して、より正式なデータ/分析プロジェクトに情報を提供できます。データ科学者は統計学者の必要性を排除するつもりはありませんが、異なるデータセットや質問にそれらを向ける可能性があります。


最初のデータサイエンティストチームを伝道者として使用する

データサイエンティストの最初のチームを正しく選べば、彼らは自分の発見を社内の他の人に喜んで提示できます。さらに良いことに、彼らはそれについて熱心です!それらを使用して、会社の他のメンバーがデータインテリジェンスをどのように表示するかに影響を与え、それらのサイロをゆっくりとノックダウンします。

データサイエンティストの社内チームを編成する際に、最終的に新しいトレーニングツールやエンタープライズツールが必要になることはありません。しかし、文化的および組織的構造に対処することで、多くの企業が自社の従業員と無料のツールを使用して、データサイエンティストの小さなチームをシードできると思います。大企業で働いた経験から話しています。才能はあり、技術は学ぶのが難しいですが、組織のサイロは克服するのが困難です。彼らのランクにはすでに、彼らができることを制限する硬直した企業構造のためではないにしても、輝かしい才能のプールが含まれています。


http://practicalquant.blogspot.caおよびBen Loricaの許可を得て再発行。元の記事はここにあります:http://practicalquant.blogspot.ca/2010/07/how-to-nurture-data-scientists.html