ディープラーニングモデルのツアー

ビデオ: CppCon 2017：PeterGoldsborough「C ++によるディープラーニングのツアー」

コンテンツ

神経スタイル
ニューラルストーリーテラー
データ
Char-RNN TED
結論

出典：Kran77 / Dreamstime.com

取り除く：

ディープラーニングモデルは、コンピューターに独力で考えることを教えており、非常に楽しく興味深い結果が得られます。

ディープラーニングは、ますます多くのドメインと業界に適用されています。自動運転車から、囲Goの演奏、画像音楽の生成まで、毎日新しいディープラーニングモデルが登場しています。ここでは、いくつかの一般的なディープラーニングモデルについて説明します。科学者と開発者はこれらのモデルを取り入れ、新しい創造的な方法でモデルを修正しています。このショーケースがあなたに何が可能かを刺激してくれることを願っています。（人工知能の進歩については、「コンピューターは人間の脳を模倣できるでしょうか？」を参照してください。）

神経スタイル

誰もソフトウェアの品質を気にしない場合、プログラミングスキルを向上させることはできません。

ニューラルストーリーテラー

Neural Storytellerは、画像が与えられると、画像に関するロマンス物語を生成できるモデルです。その楽しいおもちゃでありながら、あなたは未来を想像し、これらすべての人工知能モデルが動いている方向を見ることができます。

上記の機能は、モデルが標準的な画像キャプションを小説のストーリーのスタイルに転送できるようにする「スタイルシフト」操作です。スタイルシフトは、「芸術的スタイルのニューラルアルゴリズム」に触発されました。

データ

このモデルで使用されるデータには、主に2つのソースがあります。 MSCOCOは、約300,000個の画像を含むMicrosoftのデータセットであり、各画像には5つのキャプションが含まれています。 MSCOCOは、使用される唯一の監視対象データです。つまり、MSCOCOは、人間が各画像のキャプションを明示的に書き出さなければならない唯一のデータです。

フィードフォワードニューラルネットワークの主な制限の1つは、メモリがないことです。各予測は、ネットワークがこれまでに作成した最初で唯一の予測であるかのように、以前の計算から独立しています。しかし、文や段落の翻訳などの多くのタスクでは、入力は連続した関連するデータで構成される必要があります。たとえば、周囲の単語によって提供される詐欺なしで文の単一の単語の意味を理解することは困難です。

RNNは、ニューロン間に別の接続セットを追加するため、異なります。これらのリンクにより、隠れ層のニューロンからの活性化が、シーケンスの次のステップで自身にフィードバックされます。つまり、すべてのステップで、非表示のレイヤーは、その下のレイヤーとシーケンスの前のステップの両方からアクティベーションを受け取ります。この構造は、本質的にリカレントニューラルネットワークメモリを提供します。そのため、オブジェクト検出のタスクでは、RNNは以前の犬の分類に基づいて、現在の画像が犬であるかどうかを判断できます。

Char-RNN TED

隠れ層のこの柔軟な構造により、RNNは文字レベルの言語モデルに非常に適しています。もともとAndrej Karpathyによって作成されたChar RNNは、1つのファイルを入力として受け取り、シーケンス内の次の文字を予測することを学習するようにRNNをトレーニングするモデルです。 RNNは、元のトレーニングデータのように見える文字ごとに生成できます。デモは、さまざまなTEDトークのトランスクリプトを使用してトレーニングされています。モデルに1つまたは複数のキーワードを入力すると、TEDトークの音声/スタイルでキーワードに関するパッセージが生成されます。

結論

これらのモデルは、ディープラーニングによって可能になったマシンインテリジェンスの新しいブレークスルーを示しています。ディープラーニングは、これまで解決できなかった問題を解決できることを示しており、まだそのプラトーに達していない。ディープラーニングの革新の結果として、今後数年間でドライバーレス車のような多くのエキサイティングなものを期待しています。