車番認識システムへの組み込みでCX(顧客体験)向上に貢献する
「RECAIUS 音声合成ミドルウェア ToSpeak™」
カーディーラーを中心に全国約1,200ヵ所で活用されている株式会社ピー・エム・シーの来店顧客管理システム「Vehicle Vision for Cardealership」(以下、Vehicle Vision)。来店客の車両のナンバープレートを読み取り、顧客管理システムと照合して顧客名や来店目的を店舗スタッフ間でリアルタイムに情報共有し、きめ細やかな接客とおもてなしを可能にするシステムだ。店舗スタッフへリアルタイムに自動音声で情報共有を実現する音声合成機能としてVehicle Visionに組み込まれたのが、東芝デジタルソリューションズ(以下、東芝)が提供するコミュニケーションAI「RECAIUS 音声合成ミドルウェア ToSpeak™(以下、ToSpeak)」だ。
Before
Vehicle Visionに当初搭載していた音声合成システムは話者が1人しか選べず、運用の柔軟性や費用面に課題があった。また、ライセンス管理の煩雑さやサポート費用の負担、システムを組み込むパソコンのメモリに負荷がかかることからも、より良い音声合成システムを模索していた。
After
ToSpeakの導入により、標準機能で男声・女声の話者選択が可能になったほか、音声発話のきめ細かな調整も可能となった。Vehicle Visionに組み込むミドルウェアのため軽快な動作を実現でき、今回の契約は買い切りのためライセンス管理と維持の手間やコストも大幅に削減。システム利用ユーザーであるカーディーラーからも好評で、新規導入時にはほぼ必須の機能となっている。
画像認識機能を活用した車両ナンバー読み取りシステム
会員ポイントシステムによるマーケティング戦略を展開する「ポイントマイレージ倶楽部」の運営からスタートした株式会社ピー・エム・シー。現在では画像認識機能によりナンバープレートを瞬時に検知、読取、認証、車両を特定するシステム「Vehicle Vision」の開発と販売を中心に、セキュリティやマーケティング、コミュニケーションサポートといったサービスを拡大している。「もともとポイントカード事業からスタートして、新規事業として映像関連事業を開始し、今ではVehicle Visionの事業が主軸になっています」とITソリューション事業部 事業部長の重崎 光輝氏は説明する。
中でもVehicle Vision for Cardealershipは、カーディーラー向けに車番認識システムが来店顧客の車両ナンバーを読み取り、顧客管理システムと照合し、顧客名や来店目的を店舗受付にあるモニターに表示する仕組みからスタートした。サービスは好評だったものの、店舗受付にあるモニターに情報を表示しても、受付担当者が離席していたり、整備工場のエンジニアにまで情報が行き渡らず、結果としてお客様をお待たせしたり、スムーズな対応ができないことがあるといった課題が顕在化していた。
そこで2020年7月に新たに実装されたのが、車番認識システムと顧客管理システムを通じてインカムと連携し、モニターに表示する情報を合成音声で発話させる仕組みだ。これにより店舗内の全スタッフが顧客の来店目的からフロアでの対応状況をリアルタイムで把握し、きめ細やかな対応ができるようになった。
ITソリューション事業部 事業部長
重崎 光輝氏
初期の音声合成システムの課題を受け、切り替えを検討
しかし、当初導入した音声合成システムにはいくつか課題があったという。
まず挙げられるのが、1ライセンスで1話者のみ、つまり男声か女声かどちらか1つしか選べないことだった。インカムで聞くと女声の高音が聞き取りづらいこともある一方で、女声のほうが「親しみやすい」と言われるケースもあり、カーディーラーごとのお客様の状況や店舗のスタッフ構成によってニーズは異なるという。「男声と女声を柔軟に使い分けたいというカーディーラー様のご希望に応えたいけれど、話者を増やすと費用がかさむというジレンマに陥っていたのです」と開発を担当するITソリューション事業部 システム開発課 課長 大塚 功貴氏は振り返る。
また当時の音声合成システムはクラウド環境で動作する上に、辞書のデータサイズが大きく、高スペックなパソコンが必要だったことも悩みの種だった。「合成音声のクオリティは下げずにこれらの課題を解決してくれる音声合成システムはないものか、と模索を続けていました」と大塚氏は言う。
さらに、ライセンス管理に伴う負担もネックとなっていた。以前利用していた音声合成システムはライセンスがパソコンごとに紐づけられており、パソコンが壊れるとライセンスそのものを買い直さなければならなかったという。その都度ライセンスの発行作業が発生するため、金銭面だけでなく時間的なコストも重くのしかかっていた。また、ライセンス数に比例して年間のサポート費用が必要な点も課題になっていたという。
こうして新たな音声合成システムを探す中で2021年7月にタイミングよく、東芝からのアプローチがあった。
ITソリューション事業部 システム開発課 課長
大塚 功貴氏
軽快な動作とコスト低減効果に加え、手厚いサポートが決め手に
ToSpeakには手軽に導入可能なものから高品質で自然な合成音声を提供するものまで幅広いラインアップがそろっている。
また、男声と女声の話者が標準で実装されていること、スタンドアロンでパソコンのメモリを大きく消費せずに安定性能を発揮することなど、懸案事項がすべて解決できることが分かった。「実際にカーディーラーで利用されているインカムの音声合成の事例なども確認し、信頼が置けると感じました」と大塚氏。
さらに、ライセンス管理の手軽さもポイントだったと大塚氏は言う。「ライセンスがパソコンに固定されないので、パソコン交換の際の手間もコストも軽減できる点は大きな魅力でした」。
決定打となったのが、東芝の手厚いサポート体制だ。導入前に社内で評価・検証を行った際も、細かい問い合わせに迅速かつ親身に対応してくれたことが印象的だったと大塚氏は振り返る。「国内のベンダーということもあり、技術的な面でのやりとりも安心でした。東芝さんの迅速な対応は当社のお客様に対するサポートの速さにもつながります。開発者からすると、こうした点も大きな安心材料でした」。
トライアルの段階では複数の音声合成システムと比較検討する予定だったが、「一発目で当たりを引いてしまった」と大塚氏が笑顔で言うように、早々にToSpeakへの切り替えを決定した。
音声合成の質の高さと運用コストの削減でCX向上に貢献
こうして2022年10月、RECAIUS 音声合成ミドルウェアToSpeakを実装したVehicle Visionの販売がスタートした。新規でVehicle Visionを導入するカーディーラーのほとんどが音声合成をオプションで導入しており、2024年1月現在、その数は194店舗に上る。
ToSpeakに切り替えたことで、話者の柔軟な使い分けの実現やライセンス・サポートにかかる手間とコストも低下するなど、狙い通りの効果が得られているという。「特にライセンス管理については、以前の音声合成システムだとライセンス発行に1拠点あたり10分程度かかっていました。年間の新規契約数は約150店に上りますので、単純計算で1,500分(25時間)を削減できたことになります。パソコンも年に4~5台壊れるので、入れ替えで生じていた新規ライセンス料も不要になりました」と大塚氏は高く評価する。
また、実際に使い始めて効果を実感したのは、ピッチ(周波数、音の高さ)やタグでの調整機能だ。インカムの機種ごとにきめ細かな調整が可能になったという。「顧客の名前だけゆっくり読む、音量を上げるといった具合に、タグ付けしたフィールドの発話を細かく制御できるようになり、重要な情報をしっかり伝えることができるということで、当社としてもカーディーラー様に自信を持ってご提案できる特長がさらに増えました」と大塚氏。「カーディーラー様への提案の際も、音声合成のカスタマイズなど幅広い可能性がある点など、特に高級車ディーラー向けにご紹介するときにもVehicle Vision商品としても強みになります」と重崎氏は語る。
他業界をはじめ防災道の駅での活用など多彩な展開を
Vehicle Visionシリーズは今後一層の拡大を見込んでいる。工場や物流センターでのさらなる活用が期待されるほか、現在ニーズが高まっているのが道の駅だという。「道の駅は休憩所や観光の拠点であるだけでなく、国土交通省が制定する防災拠点としても注目されています。Vehicle Visionを活用すれば駐車場の空き状況を把握できるので、緊急時に緊急車両の乗り入れ可否などの情報がリアルタイムで取得できます。すでに自治体などから引き合いもあり、我々としても公共の防災計画に貢献していきたいと考えています」と重崎氏。
また、同社ではToSpeakを利用して、さまざまな用途で汎用的に使える自動放送システムも構想しているという。例えば、緊急時の避難誘導放送や、観光地での外国人向けの案内放送などでは複数言語に対応していることもあり、活用の余地は大きいと同社は見ている。そうした中、RECAIUS 音声合成ミドルウェアToSpeakのラインアップとして新たに加わった、より自然で高音質な「ToSpeakHx Pro」にも関心を寄せている。
Vehicle Visionの優れた画像認識技術とToSpeakを組み合わせることで、社会の課題を解決するより優れたソリューションの開発に向けて、今後も東芝は進化を続けていく。
SOLUTION FOCUS
テキストから自然な声の発話に自動変換する組み込み型ソフト(音声合成ミドルウェア)です。テキストを用意するだけで音声を手軽に出力でき、良好な音質を小さなメモリサイズで提供できるのが特徴です。インターネットへの接続不要でユーザーのシステムの他、スマートフォンやタブレットなどの端末機器上で動作を可能とします。
この記事の内容は2025年1月に取材した内容を元に構成しています。
記事内における数値データ、社名、組織名、役職などは取材時のものです。
COMPANY PROFILE
会社名
株式会社ピー・エム・シー
設立
2004年10月
本社所在地
東京都品川区南品川2丁目2-7 南品川Jビル 7F
事業概要
・車番認識システムの開発・販売
・カーディーラー向けソリューション-来店顧客管理システム/座席管理システム
・駐車場向けソリューション-工場、物流センター入場管理システム
・その他ソリューション-ナンバー認識基本システム/
他社システム(計量システム・顧客管理システム等)連係システム
・KOMOTO赤外線投光器 日本代理店
・インプリム社プリザンター 認定パートナー
・シンカ社カイクラ 販売代理店