balilax — 2009 年 8 月 24 日, 7:28 PM

携帯やPCと会話? 超音声認識

音声認識技術を開発しているアドバンスト・メディアが8月21日、技術・戦略説明会を開催。同社の音声認識技術「AmiVoice」の優位性や、ビジネスのロードマップについて説明した。

アドバンスト・メディアは日本国内唯一の音声認識専門企業として1997年に創立。次世代音声認識技術のAmiVoiceを開発し、医療やモバイル、 コールセンター、議会議事録、英語教育など、さまざまな分野で音声認識ソリューションを提供してきた。モバイルの分野では、「らくらくホン プレミアム」「らくらくホン ベーシックII」「らくらくホン6」の「音声入力メール」や、iPhone向けの「音声認識メール」、NTTドコモ向けの「声ちぇき!DX」「乗換案内 NEXT」などにAmiVoiceを提供している(アドバンスト・メディアの関連記事一覧も参照)。

●機械が王様で人間が奴隷では、人はお金を払わない

音声認識技術は同社のほかにNUANCEやSpinVoxなどの企業も開発しているが、「AmiVoiceの優位性は文章を認識できること」だ と同社代表取締役の鈴木清幸氏は話す。「単語レベルで音声を認識できるサービスはほかにもあるが、世界的に見て文章を認識できるのはAmiVoiceだ け。AmiVoiceはマイクと電話回線の入力に対応しているほか、ディクテーション(書き取り)や単語認識もできる」と鈴木氏は自信を見せる。

アドバンスト・メディアのビジョンは「機械との自然なコミュニケーションを実現して社会に貢献すること、つまり人が機械に向けて自然に話しかけ て目的がかなうこと」だと鈴木氏は説明する。そのキーコンセプトとなる言葉が“JUI”だ。JUIは「Joyful(楽しい)」「Useful(役に立 つ、便利)」「Indispensable(なくてはならいもの)」の頭文字を取った造語。

「これまでは、企業やユーザーが(我々の技術に対して)拍手はしてくれるが、なかなか導入してくれなかった。うまく導入してもらうには、 “Joyful”と“Useful”のどちらかが必要になる。企業とユーザーの両方にサービスを展開するにあたり、これ(JUI)がビジョンの実現に近づ く1つの手段だと考えている」と鈴木氏は狙いを明かす。

鈴木氏は、音声認識技術のロードマップについて「第1世代:単語認識(1960年~」「第2世代:文章認識(1991年~)」「第3世代:人主 体の認識(2001年~)」「第4世代:ユビキタス(2008年~)」「第5世代:超音声認識(2011年~)」の5世代に分けられると説明。音声認識技 術の黎明期である第1~第2世代の頃は「カーナビなどをはじめ、機械が主体となっており、技術はすごいがビジネスになっていなかった」という。

鈴木氏は「機械が王様で話す方が奴隷では、人はお金を払わない。人主体のサービスを作ればビジネスになる」と考え、第3世代の音声認識技術とし て「AmiVoice」を開発した。その中で同社が注力したのが、先述した文章の認識だ。だが、同じ意味の文章でも、ユーザーの年齢や性別、居住地(出身 地)、性格などによってさまざまな言い回しが存在する。AmiVoiceはこうした言葉の“ゆらぎ”にも対応しており、不特定話者の言葉も認識できる。同 じ言葉でもイントネーションが違ったり、歌うように発声しても認識する。「ここまでの認識精度は、世界的に見ても我々しか実現できない」と鈴木氏は胸を張 る。

とはいえ、音声よりも(PCの)キーボードとマウスの方が素早く入力できることも多い。そこで鈴木氏は、音声入力を優位に展開すべく、キーボー ドとマウスのない世界である“モバイル”に着目した。同社は携帯向けの高度な音声認識技術として、デバイスとサーバに分割した音声認識システム「分散型音 声認識技術(DSR)」を開発。DSRでは、端末に入力された音声データを、パケット通信でサーバに送信することで、従来の技術よりも音声の劣化が少な く、高精度の音声認識を可能にした。

●携帯やPCと会話ができる「超音声認識」も登場する

アドバンスト・メディアは2009年3月から2011年3月までのロードマップを「フェーズ1(2009年3月期)」「フェーズ2(2010年 3月期)」「フェーズ3(2011年3月期)」に分けている。「フェーズ1では想定以上の成果を得られた。現在取り組んでいるフェーズ2ではフェーズ1の 事業を拡張し、“声が価値を生み出すサービス”を目指す」(鈴木氏)。その中でも基点となるサービスが、携帯向けの「音声入力メール」だ。

「これまでは(医療や教育など)不特定話者の領域を特化することでビジネスを成功させてきたが、音声入力メールでは領域を特化せず、汎用的なモデルを作ることに成功した」と鈴木氏は説明。音声入力メールが同社のビジネスの転機になったことを示した。

そして2011年以降の第3フェーズでは“あふれる声をデータ化するサービス事業”として、ライセンス販売からサービス利用料を徴収するビジネ スを目指す。ここでは第5世代の音声認識技術として「超音声認識」が登場する見込みだ。「第5世代は常識を超えた世界。人間の力を借りずに対話ができる “擬人化”ができる」という。

例えば、PCや携帯の画面に表示されたキャラクターと会話を楽しんだり、Webサイトでの調べ物やチケットの予約をしたりという具合に、音声を 用いたコンシェルジュサービスを利用できる。「すでに開発の“はしり”は進んでいる」(鈴木氏)とのことで、新たなエージェントサービスとして導入される ことが期待される。

デモ環境で良くっても、大抵は実使用環境では使い物にならない。それが音声認識、だってね、人間の声と周辺の雑音区別出来ないんだもん。

まじで、カーナビStradaの音声入力は要らないと思ったことない人、いないはず。

コメントはまだありません

この投稿へのコメントの RSS フィード。

コメントはまだありません。

現在、コメントフォームは閉鎖中です。