音声認識ボットの作り方

Voicebots（ボイスボット）の出現

今日の現実世界を考えてみましょう。もしユーザーが仕事用の実用的な服を買いたいと今日思ったならば、彼は

お店に行き、歩き回って色々な選択肢を試す
お店に行き、店員を探し、ニーズを説明しオススメして貰う
webサイトを開き、商品を閲覧する

最初の２つの選択肢は人間らしくより自然ですが、快適なソファからクリックで注文するよりも時間がかかり面倒です。

しかし、私たちのほとんどがそうであるように、私たちは、必要最小限の要件で、私たちと同じように動作するパーソナライズされたコンテンツ、パーソナライズされたリコメンド、パーソナライズされた全てを永遠に探しています。

たとえ今日のwebサイトやアプリにパーソナライズ機能が組み込まれていたとしても、また、それらのほとんどがパーソナライゼーションに関連のあるものであったとしても、それは未だ全てを自分で行う必要があるように感じられます。

クリック、検索、閲覧、選択、支払いそして追跡。

そして、それらをより簡単にする要求が高まっています。ユーザーがより良い選択をするのを手伝い、日常の行動全てを管理するパーソナルアシスタントを手に入れたらどうなるでしょうか。

そこに音声アシスタントとチャットボットが参入してきています。それは各ユーザーの行動や好みに関する知識を蓄積し、サービスプロバイダに接続するシステムです。

チャットボットによって、コミュニケーションの合理化されたインターフェースを得ることができます。それはユーザーのニーズと選択を理解し、選択肢を提案するように構成されています。

それはポイント・アンド・クリックのwebサイトよりもはるかに自然なやりとりです。

そして当然、エンジニアはそれをより素晴らしいものにしなくてはなりませんでした。

ユーザーは現在、会話することで、スケジューリングや、ファイナンス管理を行ってもらったり、毎日のニュースや、タスクのリマインドとインターネット履歴に基づいた提案を得たりすることができます。

それはちょうど今までになく有能なパーソナルアシスタントを持っているような感じですが、それはより特定の事柄にフォーカスしているものです。

Amazon、Google、Microsoft、FacebookそしてApple、またその他の非常に有能な多くの技術チームは、多くの可能性と用途を秘めた音声製品を過去数年に渡ってリリースしてきました。

彼らはサードパーティのカスタムアプリと統合し、ネイティブタスクを実行するために、SiriやGoogle Assistantのような音声アシスタントをモバイル端末に搭載しました。

Amazon Echo、Google HomeそしてApple HomePod のような新製品を市場に発表しました。それらは、家のスマートデバイス（サーモスタットやTVなど）を管理したり、アポイントメントのリマインド、買い物の手助け、音楽の再生や一般的な質問に答えたりする「スマートホームマネージャ」として機能します。

なぜ音声ボットが必要か？

もしあなたが過去１年間に渡ってそのニュースをフォローしていたのであれば、「人々はソーシャルネットワークよりもメッセージング・プラットフォームを使用している」ということに気づいているはずです。

そして、その規模は実際に何千万人ものユーザーであり、それはある特定のグループだけではありません。

全ての人が、オンラインで「チャット」をしており、当然、企業はユーザーがいるところを目指しています。

複数のことを行うために複数のappをインストールすることは最適ではないという感覚が全ての人の中で着実に高まっています。

繰り返し使用する場合、ネイティブアプリは間違いなく理にかなっていますが、もしユーザーが実行する操作がバラバラで、さらに毎回異なっているとすると、1回のために1つのappをインストールするよりも、それを行うためのもっと簡単な方法を探すほうが良いでしょう。

そのため業界の動きは、彼ら自身のサービスをFacebook messengerやiMessagesのような既存のメッセージング・プラットフォームに統合することでした。

彼らは、あなたが必要な時に「コミュニケーション」し、あなたのニーズに応える「Bot」を欲しいと思っていたのです。

あなたが靴を買いたい時は、Facebook内にあるNike botと会話すれば良いのです。

それらのメッセージング・プラットフォームは、自然言語処理と機械学習にとてつもない進歩が起きたことにより、次のステップでは、ユーザーがリアルな会話を行うことができるようにチャットボットに音声を追加するということだったのです。

【弊社エンジニア募集中】詳しくはこちら

音声認識のニーズ・市場

もしまだあなたがサービスに音声を適合させる必要を確信していないのなら、この数字を見てください。

Vergeの記事：Amazonは2017年第4四半期の予測を上回り、Amazon Web Servicesは成長を続け、昨年は「数千万台」のEchoハードウェアデバイスを販売しました。
Googleに関する記事：「2017年10月にGoogle Home Miniの出荷を開始して以来、毎秒1つ以上のGoogle Hoemデバイスが売れている」と述べています。この割合の場合、その数は今日までで1000万台を超えます。
AppleのHomePodは先週発売され、それらは四半期ごとに完売すると見込まれています。

音声インターフェースをBotに搭載する

以下の例を考えて見ましょう。

あなたは車に向かって歩いており、手は赤ちゃんと食料品で一杯になっています。あなたにとって簡単なのは、携帯内の車用アプリを起動して扉を開けることよりも、Siriに話かけ扉を開けてもらうことです。
あなたは車を運転しており、迂回を求める緊急道路封鎖を見ました。再びSiri（CarPlay）に話しかけ、目的地までの新しい経路を尋ね、その後提案された経路を「見る」のが簡単でしょう。

そのため、コンテキストを定義し音声と視覚インターフェースの実行可能性を理解することはあなたのソリューションの運命を左右します。

例えば、私たちは実際に、以前から音声インターフェースに適応している小売業者を見ています。

Amazon、Whole Foods等は食料品を声だけで注文できるのでユーザーにとって便利です。

事実、統計によるとAmazon EchoもしくはGoogle Homeを使用して注文するユーザーの割合は、2017年末にかけて大幅に増加しています。

もう1つの興味深い分野は自動車とナビゲーションです。

AppleはCarPlayを、GoogleはGoogle Autoを発表しました。両方とも電話対応、テキストの応答、ナビゲーション用のマップ使用、気温などの内部システテムのコントロール、音楽の再生さらに通知連絡などに役立ちます。

さらに、AmazonとMicrosoftは、ユーザーの1つのプラットフォームから他のサービスを利用できるように、彼らのサービスをAlexaとCortanaに公開するというパートナーシップを発表しました。

【弊社エンジニア募集中】詳しくはこちら

音声ボットを構築するために

この世界に飛び込む前に理解しておくべき重要なことがあります。これらのBotは、

特定の目的を持つように設計されている
ある程度カジュアルな自然言語を理解するようにプログラムされている（それはトレーニングしたデータの範囲に限定される）。

そして、

AIを組み込むことは理にかなっていますが、ルールに厳密に従い、特定の実用的なBotを作成しても全く問題ありません。
BotをサポートするためにAIに関する専門知識を持っている必要はなく、IBM Watsonからサードパーティのプロバイダに及ぶ、Eコマースの拡張を支援する為の数多くのプラグとサービスが存在します。
成功したBotには素晴らしいユーザーエクスペリエンスが組み込まれています。そのため、きちんとしたワークフローを設計してください。
Botをサポートするプラットフォームあるいはエコシステムを決定します。現在、選択肢はApple、Google、Microsoft、そしてAmazonです。
スタンドアローンボットかappのサービスを拡張するボットにするのかを確定します。

音声ボットを構築する際、以下の典型的なステップを踏まなくてはなりません。

Botをいつでも利用可能な状態にしておけるよう設計する
負荷の増加に対処するため拡張可能にする
ユーザーリクエストを理解するための単純な、場合によっては複雑な機能を行えるようにする
アクションを実行するためユーザーリクエストを処理できるようにする
必要に応じて、内部APIもしく外部サービスに接続するインテグレーションを追加する
自然言語で結果を返答する
必要に応じて、人間への引き継ぎを行えるようにする
可能であれば、会話に視覚的な合図を付加する（携帯電話のSiri / Google Voice、またAmazon EchoのAlexa / Apple HomePod / Google Homeは可能。電話音声エージェントは難しい）

次のステップでは、以下を検討する必要があります。

ユーザーとのやりとりからBotに継続的に、一般的なこととユーザー固有のもの両方を学習させる
サービスとの深いインテグレーション構築し、実生活に近いエクスペリエンスを提供する
期待値を超えた失敗はしない。Botのゴールは明確にする
効果的なエラー処理とリカバリーを統合する
人間のサポートを含むエスカレーションフローを構築する
解約に対処し、継続率を知るためにユーザーのアクティブおよびエンゲーシメントを計測する
やりとり全体を再開する方法を提供する
応答時間を短くする
複数の自然言語をサポートする
新しいフロー、会話の修正が定期的に行われるところでは、アクティブラーニングあるいは教師あり学習ができるようにする

音声アシスタントの一般的な３つの機能

基本的に、音声サービスは以下の３つの要素を持つ必要があります。

音声のテキスト化：入ってくる音声データを認証し、文字に変換する
言語処理：インテントとパラメータを文字起こしから特定し、次のステップを決定する。これには、定義されたスコープ内における特定の領域でのサービスのトレーニングや、データを入力するプログラミングを含む。
テキストの音声化：レスポンスをユーザーが理解できるテキストに変換し、ユーザーへプレイバックするためのオーディオストリームとして生成する

音声アシスタントの４つの課題

応答時間：ユーザーが単純にレスポンスを待ち、直ちに返信を返してくれることを期待する音声システムにおいては難しい課題です。
対話フローの変更処理：音声エージェントは、ユーザーが話からそれた時に計画した会話のゴールへ引き戻さないといけません。
感情とトーンの理解：これは達成が難しい課題であり今日このサポートを提供するサービスは多くはありません。（例：Watson Tone Analyzer）
音声品質：音声エージェントの効率は基礎となる音声認証サービスに依存します。課題はバックグラウンドノイズ、複数のユーザー、そしてアクセントでありますが、日々向上しています。

原文

https://chatbotslife.com/intelligence-voice-assistants-voicebots-7e007e360d5

チャットボットライフとの提携により、翻訳し掲載しています。
チャットボットライフとは、最新のボット、AI、NLP、ツール等を扱うメディアです。