コンテンツ
Q:
スピーチとチャットボットの違いは何ですか?
A:
Speech-to-Technologyとチャットボットの多くの重要な違いは、チャットボットとボイスボットのプロジェクトの急速な進化で検討されているものの一部です。
Speech-to-Technologyは、口頭での発話をデジタルページに変換するものです。これは完全な機能ですが、設計が簡単なものではありません。音声をに変換するには、単語と文を個々の音素に分解し、複雑なアルゴリズムに従ってそれらを操作して、正確でスピーカーが言ったことを表現する必要があります。
一方、チャットボットは、人間と通信するという目標を達成するテクノロジーです。チャットボットには、チャットボットとボイスボットの2種類があります。チャットボットは、音声ボットが利用する音声読み上げ要素を必要としないため、ずっと長い間使用されてきました。
音声技術とチャットボットの主な違いは範囲です。前述のように、Speech-to-Technologyが行う必要があるのは、口頭発話を転写することだけです。一方、チャットボットは、どのような形であれスピーチを行い、それを理解し、チューリングテストに合格するための応答を提供する必要があります。チューリングテスト–他の人と話す。
それを念頭に置いて、チャットボットはボイスボットよりもはるかに簡単に作成できます。チャットボットは人間を取り込み、応答を提供します。 1980年代後半から1990年代前半まで、比較的単純なチャットボットでさえ、人間に興味深く楽しい結果を提供することができました。
一方、ボイスボットは、言葉による発話を取り込み、それをに変換し、精度を確認し、応答を生成し、その応答を機械語から可聴音声に構築する必要があります。この多数のかなり重要なタスクは、ボイスボットが多くの計算能力と構築に多くの設計を要することを意味します。
Siri、Cortana、Alexaなどのプロジェクトは、ボイスボットテクノロジーの先駆者の一部を示しています。また、この技術はまだ初期段階にあることも示しています。 Alexaおよび他の技術は人間の発話に口頭で応答することができますが、一般的に口頭での人間の発話と関連付けるという意味では、それらは極端に能力がありません。つまり、これらのテクノロジーが提供できる応答にはかなりの制限があります。今日のパーソナルアシスタントの限られた能力でさえ、たとえば、手を使用せずにエッセイを書き写したり、誰かがエッセイを書くのを手伝うために、スピーチを実際に生成することができます。市場に出回っている特定のスピーチプログラムのいくつかは、おそらくリソースの割り当てが原因で、SiriやCortanaよりも優れています。ただし、ボイスボットの進歩は間もなく開始される兆候があります。たとえば、この種のテクノロジーを構築するためのスタジオ環境を可能にするAmazons Lexプラットフォームなどです。
トビアス・ゲーベルは、このテーマに関する賢明で有益なエッセイで、これらの技術の違いについて語り、「書き起こし」のプロセスと、スピーチが行うプロセス、チャットボットが行うはずの理解の仕事を対比しています。
「音声認識の必要性を排除することでチャットボットの作業が容易になりますが、機能するボットを構築する主な課題は自然言語の理解にあります」とGoebel氏は述べています。
Goebelは、業界の現在のプレーヤーの多くも特定しています。
音声認識のマーケットリーダーはNuanceで、Dragon NaturallySpeaking for PCのディクテーションなどの有名なシステムの背後にあり、90年代から使用されていますが、Siri:Appleクラウドで行われる音声認識/転写タスクも使用しています舞台裏のニュアンス技術。その他にはLumenVox、Verbio、またはInteractionsがありますが、音声認識はAmazon、Google、Microsoft、IBMなどのAPIを介してクラウドサービスとしても提供されるようになりました。
チャットボットが発展するにつれて、ある程度の軌跡で理解が深まり続けると想定されています。また、より多くのボットテクノロジーがインターフェイスから言語インターフェイスに移行し、追加のコンピューティングパワーが必要になると想定されています。