研究者紹介

音声対話技術音声対話エージェントの
コア技術を開発する

メディアAI部門 吉田 尚水たかみ

2013年入社 情報環境学専攻

ユーザーの発話内容を理解する

人が音声で話しかけてきた言葉を認識して、答えを音声で返すエージェントを作ること、これが私の研究テーマです。一般向けの音声対話型のパーソナルアシスタント機能は既にスマートフォンに搭載されていますが、私たちの目指す用途は業務用です。たとえば両手を使って点検作業をする人をサポートするシステムや、コールセンターのガイダンスがユーザーの話していることを理解して、もう少し優しく的を射た対応ができるようにする対話システムなどを研究しています。チームの中で役割を分担して一つのシステムを作り上げるのですが、私の担当は発話理解です。ユーザーがどのような話をしているのかを理解した上で、システムが利用しやすい形式に変換します。最近流行の深層学習を利用しつつ、少し昔の技術であるルールベースの手法も目的に応じて取り入れて、いいとこ取りでうまく機能するように調整しています。

音声対話技術の図

カスタマイズ性と最新技術のバランスを見極める

学生の頃と比べると、カスタマイズのしやすさと開発期間についてより考えるようになりました。いま手がけている研究テーマは、事業部門と一緒にお客様に提案している段階です。事業部門の担当者やお客様が専門知識を持っているとは限らないので、そういった方々が使いやすいようにカスタマイズしやすいこと、また満足していただける性能が出ること、両者のバランスを考えています。もちろん深層学習など最新技術を勉強して追いつけ追い越せと研究を進めている部分もありますが、かたや事業部門と一緒に研究成果を社会に実装していくには、むしろカスタマイズしやすい少し前の技術の方がふさわしい場合もあります。開発期間については、たとえばお客様からお借りしたデータを利用して仮のシステムを作り、試しに使っていただき、そのトライアル内容を解析してその後の方針を出すまでが3ヶ月、そこから3ヶ月で実装を目指す、というケースもありました。他社の動きも早いので、スピード感は大切です。学生の時も論文や学会投稿の締め切りはありましたが、会社では製品として世の中に出すことが決まっていて、相手は実際のお客様なので、開発の期限はシビアです。研究者として、そのような部分で瞬発力が求められていると感じます。

吉田 尚水の写真

ユーザーからの「ありがとう」

入社して最初にやりがいを感じたのは、手がけた技術が製品に搭載され、実際のユーザーの方から「よくなった。ありがとう」と言ってもらえた瞬間です。大学の研究室では、研究成果で「ありがとう」と言われることはあまりありませんでした。研究成果が利用されて誇らしく思うことはあっても、何かの役に立ったと直接実感できる機会はそれほど多くはなかったと思います。そこが、大学の研究と企業の研究との違いです。入社した当初は自分の研究を論文にしたいと考えていましたが、最近は使ってもらえる役に立つ技術を作りたいと強く思うようになりました。たとえば極端な話、自分が死んだときに、彼は研究成果を100個出したと言われるよりは、誰か1人から「役に立った。ありがとう」と言われた方がうれしいと思うのです。仕事とプライベートのバランスでも同じように考えています。実は昨日、初めての子供が生まれて父親になりました。もちろん仕事でも成果を出したいのですが、できるかぎり家族をサポートしたいと思っています。なによりもまず、家族から「ありがとう」と言われたいので。職場の先輩たちもすごく応援してくれているので、心強いです。

吉田 尚水の写真

学生の皆さんに一言

『まずは世の中からのフィードバックを体験してください』

吉田 尚水の写真

自分の研究が世の中にどのような影響を及ぼしているかを知る、という体験をしてみることをお勧めします。コードを公開する、デモシステムを作ってみるなど、方法はいろいろあると思います。研究活動は大学でも企業でも行われていますが、基礎研究寄りのものから製品開発寄りのものまで、さまざまです。いちど自分の研究や技術を外の世界に問い、自分以外の視点で評価、展開してもらうことがとても自分の心に響くのなら、製品開発寄りが合っているかもしれません。そうでもないなら、基礎研究寄りに進むという選択もあります。研究にもいろいろありますので、一度、そのような体験をしてみると良いと思います。