音声認識技術:助けになるか痛みを伴うか?

著者: Judy Howell
作成日: 28 J 2021
更新日: 1 J 2024
Anonim
ここまで来た音声技術・今後の展望 -日本語版-
ビデオ: ここまで来た音声技術・今後の展望 -日本語版-

コンテンツ


取り除く:

会話型電子機器とのやり取りはますます一般的になりつつあり、必要になっています。しかし、これまでのところ、結果は明らかに混在しています。

助けを求めたり、請求書を支払うために会社に電話したことがありますか?あなたと会話したい気持ちの良い録音された声で迎えられるだけですが、あなたの言っていることの半分を理解できませんか?または、iPhoneを所有していて、Siriが最初は良き味方のように思えたが、ときどき(OK、正直に言うと、しばしば)彼女はそれを手に入れられないことに気付いたのですか?スピーチツーとしても知られる音声認識技術(VRT)は、よくある落とし穴に陥ります:信じられないほどクールになる可能性があります(そして、男の子、私たちはそれを応援しています)が、多くの場合、その歯磨き運動欲求不満。

かつてはサイエンスフィクションの領域に属するアイデアであった音声認識は、ベル研究所のオードリーシステムが単一の音声で話される数字を認識するように設計された1950年代の初期から、現在対話している会話型電子機器のネットワークに成長しました毎日-さまざまな結果があります。

人間と話すには0を押してください

今日のビジネスの多くは、顧客サービスの呼び出しを処理するために、対話型音声応答(IVR)と呼ばれるシステムを使用しています。最も一般的な使用方法は音声ナビゲーションメニューですが、一部の企業では、顧客のアカウント情報にアクセスして軽微な質問に答えることができるIVRシステムを使用しています。通常、メニューIVRソフトウェアの語彙は限られており、「はい」、「いいえ」、および数字に制限される場合があります。より複雑なシステムでは、会社固有の単語やフレーズを認識できます。

これらのシステムは、少なくとも企業にとっては-単純な理由で、より一般的になりつつあります:費用対効果が高いからです。 Wall Street Journalによる2010年のレポートによると、エージェントに到達する一般的な顧客の通話料金は3ドルから9ドルの間ですが、自動システムで処理される通話料金は5〜7セントです。そして、もちろん、コンピュータープログラムは疲れたり、病気になったり、顧客に不満を感じたりすることはありません(ただし、顧客は確かに不満になります!)。

幸いなことに、これは常にIVRが人々から仕事を奪うことを意味するわけではありません-または少なくともすべての人々がコールセンターから姿を消しているということです。これらの音声起動ヘルパーを使用すると、電話をかけたり簡単な質問に答えたりすることで、顧客サービス担当者の生産性を高めることができます。

もちろん、これらのテクノロジーと対話する人間のユーザーにとっては、必ずしもスムーズな航行とは限りません。テクノロジーは、アクセントの問題など、IVRテクノロジーの一般的な問題の改善に役立っていますが、自動化されたシステムの解任は依然としてオンラインの一般的なテーマです。音声認識機能を備えたエレベーターについてのコメディスキットをご覧ください。IVRシステムの誤動作がもたらす不満を強調しています。

個人用電話アプリ:Siri、Google Now

ほとんどの人は、スマートフォンの音声認識に精通しています。最新の携帯電話モデルの大部分はVRを搭載していますが、2011年にAppleがiPhone 4S用のやや皮肉で、音声で作動する「パーソナルアシスタント」であるSiriを導入したとき、その人気と評判は高まりました。 Android Jelly Bean OSの場合。どちらのシステムも、女性の声と洗練された認識機能を備えており、ユーザーはカジュアルな言語を使用して電話と「会話」できます。

しかし、これらのシステムは以前のシステムよりもかなり高度で機能的ですが、このテクノロジーにはまだ長い道のりがあることも示しています。 Sirisの失敗に関するジョークは、人気のあるインターネットミームになりました。ある人は、Sirisの能力に関する虚偽の広告でAppleを訴えさえしました。

おそらく、AppleがSiriを高度で有益なものにするために作成したのに、VRソフトウェアも少し生意気な側にいる理由です。たとえば、1968年の映画「2001:A Space Odyssey」の映画史上最も悪名高いインテリジェンステクノロジーラインの1つを話すと、Siriは映画の応答ラインのいずれかで応答します。申し訳ありませんが(あなたの名前)、私はそれができないのではないか」、またはもっと皮肉な、「私たちのintelligence報機関は、明らかにそれを生きていけないでしょう。」

名前で電話をかけることは、Siriをもっと愛しやすく、もう少し人間らしくしようとする機能の1つにすぎません。 VRアシスタントは、音声コマンドに従って電話をかけたり、口述筆記をしたり、情報のインターネット検索を実行したり、近くの店舗を見つけたり、道順を教えたりすることができます。回答は電話で同時に話され、画面に表示されます。

Android Jelly BeanプラットフォームのVR部分であるGoogle Nowは、Siriと非常によく似ています。このシステムは、カジュアルなスピーチをコマンドに変換することにより、ユーザーが電話をかけたり、検索を実行したり、計算と変換を実行したり、単語の定義を取得したり、アラームを設定したり、曲を再生したり、マップや指示を取得したりできるようにすることで、同じ広範な認識機能を提供します。

SiriやGoogle Nowなどのパーソナルボイスアシスタントを使用すると、その利点は明らかです。電話をかけたり、検索したり、エンターテイメントをしたりすることはすべて、より速く簡単になります。あなたが望むものを言うだけで、(ほとんどの場合)VRアプリはあなたのためにそれをつかみます。 VRのハンドオフテクノロジーは、運転中に特に役立ちます。そして、多くの人がSirisの欠陥を非難し、ライターは本質的にユーザーの生活を実行するGoogle Nowの能力は不気味で少しin辱的であると主張していますが、ほとんどの人はまだこれらの未来のテクノロジーはかなりクールだと感じています。

もちろん、SiriやGoogle Nowのような個人用の電話アプリは完璧とはほど遠いものですが、将来この技術がどこに向かっているのかを示しています。これは、Siriが間違った答えを見つけたとしても、次のバージョンの方がはるかに優れていることを知って、笑って許す可能性が高いことを意味します。

VRが平らになる場所

企業に電話をかけたときにIVRに出会ったことがある場合、コミュニケーションの障壁に気づいたかもしれません。一部のプログラムでは、言葉を読み違えさせて物事を理解するのを困難にするロボット音声変換の音声を使用しています。他の人は感度の問題があり、その結果、あなたの声が大きすぎたり、柔らかすぎたり、慎重に発音しない場合、あなたの言ったことをソフトウェアが処理できなくなります。

さらに、多くの人々はまだマシンとの会話を快適に感じていません。 IVRでいくつかの検索を実行すると、IVRシステムをバイパスして「実在の人物」に到達する方法を人々がまとめたリストが表示されます。このソリューションの範囲は、「オペレーターが0を押し続ける」から「人間を捕まえるまで機械を誓う」ことです。その結果、IVRシステムの最近の開発の多くは、人間にとってより味の良いものにすることを中心に展開されています。音声の共感性を高め、ロボットの動きを抑え、システムのナビゲートを容易にし、発信者に最初から最後まで全体にかかる時間を知らせることができます。これは、より良い技術がここでの戦いの半分に過ぎないことを示唆しています。残りの半分は、ユーザーとマシンとの会話を可能にします。

未来が保持するもの

これらの課題にもかかわらず、音声認識技術は常に改善されています。 SiriやGoogle Nowなどのアプリケーション-欠陥とすべて-のパフォーマンスは依然として非常に印象的であり、いくつかの企業はVR機能を他のアプリケーションに拡張しています。

たとえば、Dragon NaturallySpeaking Speech-to-Softwareの作成者であるNuanceは、テレビや自動車の音声制御を既に開発しており、この技術のバージョンは、一部のサムスンテレビや特定のフォード車で使用されるSYNCエンターテインメントシステムに組み込まれています。

また、GoogleとAppleが音声認識技術の新しい用途を探し続けているため、テレビからトースターに至るまで、あらゆる種類の日常的な機械との会話が増えている可能性があります。そして、もう一度、SFが正しかったように見えます。これらの賢い作家が一つのことについて間違っていたことを願わなければなりません。これらのマシンが引き継いでいる場合、次回Siriに「ポッドベイドアを開く」ように依頼するときに、多くの問題が発生する可能性があります。