（第2回）仮想音像技術

このページでは JavaScript を使用している部分があります。お使いのブラウザーがこれらの機能をサポートしていない場合、もしくは設定が「有効」となっていない場合は正常に動作しないことがあります。

デジタルで豊かな社会の実現を目指す東芝デジタルソリューションズグループの
最新のデジタル技術とソリューションをお届けします。

DiGiTAL T-SOUL

トップ

技術解説

動画

バックナンバー

お問い合わせ

DiGiTAL T-SOUL

お問い合わせ

トップ

技術解説

動画

バックナンバー

トップ

技術解説

動画

バックナンバー

私たちの社会や生活において、情報伝達手段の一つとして音の活用が進み、情報のやり取りの自由度や利便性が向上しています。一方で、周囲にあふれる音情報は、音の混在や聴き疲れなどの課題を生み出しており、今後は、「音がどのように聴こえてくれば、人はより良い形で音を情報として活用できるのか」という視点が、いっそう重要となります。東芝は、「人にとって、より望ましい形で音を届ける」ことをコンセプトとした音響ソリューション「Soundimension 音像デザイン」を実現するための技術開発を進めており、「Soundimension 仮想音像」と「Soundimension 音場制御」を商品化しています^※。このコンセプトと、想定される活用の場、これらのソリューションを支えるコア技術である「仮想音像技術」と「エリア音圧制御技術」について、3回にわたる連載で解説します。
第1回では、これから期待される音の新たな「聴こえ方」とはどのようなものか、そしてその実現を支える音響技術の概要について紹介しました。第２回では、東芝の2つのコア技術の中から、仮想音像技術について説明します

※2023年度リリース予定を含みます

聴く位置が変動しても音の方向を感じられる仮想音像

第1回において、東芝では自社の音像定位技術およびそれを活用したソリューションのことを「仮想音像」と呼んでいること、そしてこの仮想音像技術は、イヤホンやヘッドホンだけでなく、据え置き型の２スピーカーから出力された音でも音の方向感を得られるという特長を備えていることを説明しました。

これは、当社の仮想音像技術が、スピーカーなど実際の音の発生源の位置と、リスナーの耳の位置との間の関係がある程度変動しても音像定位効果を維持できること、すなわち聞く姿勢が変わったり頭を動かしたりしても、ロバスト（頑健）な仮想音像効果を発揮できることから、実現されているものです。

なお、この記事では、大量のスピーカーを配置するのではなく、2つのスピーカーという簡易な仕組みで、音像定位の効果を得る仮想音像技術を前提として、詳しく解説します。

音の定位感、言い換えると方向感を生成するためには、「ある方向から音が発生したときに、右耳に届く音と左耳に届く音の違い」を再現する必要があります。この再現のためにはいろいろな方法がありますが、一般に用いられるのは、左右の耳の絶対音圧を頭部伝達関数（HRTF）^※1から算出してFIRフィルタ^※2を設計する方法です。

※1 頭部伝達関数（HRTF）：音源から人の耳に到達する入射音波の物理特性は、人の頭およびその周辺、つまり耳たぶや肩までを含めた頭の周りの環境（伝播経路）に影響を受けて変化します。この変化を経路の特性として、伝達関数の形で表現したものが、頭部伝達関数（Head-Related Transfer Function：HRTF）です。

※2 FIRフィルタ：デジタルフィルタの一種です。デジタルフィルタは、時間領域から周波数領域への変換を行うものですが、その中でもフィルタの応答特性であるインパルス応答が「有限」であり、有限個の標本でゼロに安定する特性を持つものを、有限インパルス応答（Finite Impulse Response：FIR）フィルタと呼びます。

スピーカーとリスナーの耳との間の位置関係が変動しない場合、例えばヘッドホンやイヤホンを用いる場合には、この方法で基本的に音像定位を実現することができます。右耳には右のスピーカー、左耳には左のスピーカーからの音しか届かないからです。

しかしながら、据え置きのスピーカーから生成される音には、空間を伝播し、右スピーカーから左耳に届く音と左スピーカーから右耳に届く音が存在します。これらはクロストークと呼ばれ、定位感の実現のためにはこの影響を計算に取り込む必要があります。クロストークの伝播経路はリスナーの聴く位置によって異なるため、絶対音圧の計算時に用いた位置からずれると、例えばリスナーが少し頭を動かしたりすると、計算値からの乖離（かいり）が生じて音像定位感が失われるという課題があります。このことは、リスナーが自然な体勢で定位感のある音を聞くことの阻害要因の一つです。

当社はこの課題を解決するため、左右それぞれの耳に届く音の違いの再現に、絶対音圧ではなく、複素音圧比、つまり左右の耳に届く音の相対比を用いています。

具体的には、ある座標情報（方向情報）を持つ音に対し、聴取点N₁における両耳複素音圧比P_L1/P_R1と、HRTFから算出されるターゲットの複素音圧比d_L1/d_R1がほぼ等しくなるように、パラメータを調整します。

そのうえで、空間内の複数の位置（聴取点：N₂、N₃、…N_i）についても同様の計算を行い、これら複数の聴取点での複素音圧比が一定の範囲内になるように合わせ込みを行うことで、その空間範囲内における一定の効果を維持します。これは当社が独自に開発した「空間平均化法」という手法で、ターゲットの複素音圧比から値が多少ずれても、音像定位感が保たれやすくなります（図2）。

複素音圧比を合わせ込みの対象とした空間平均化法の活用により、複数の聴取点、言い換えるとリスナーが聴く位置において音像定位感を維持するアプローチをとったことで、イヤホンやヘッドホンを使わなくても、リスナーは、自然な姿勢や使用環境で定位感のある音を体感できるようになりました。その結果、リスナーに対して、定位感のある音を聞くための負荷や制限事項を極力減らすことができました。

活用目的に合わせられる、特性設計の自由度

この複素音圧比を用いた空間平均化法という設計コンセプトはシンプルであるがゆえに、聴取位置の変動に対する定位感のロバスト性以外にもさまざまな利点があります。

例えば、ハードウェアの構成を変えなくても、複素音圧比の収まる範囲（条件）を緩め空間平均化を行う聴取点の間隔や範囲を広げることで、広い領域にわたって緩やかな定位感を感じられるようにする、逆に聴取位置の範囲を狭めて、狭い領域内で明確な定位感を感じられるようにする、さらには、リスナーの左右どちらかだけに定位感を再現するなど、目的に応じてさまざまな聞こえ方の設計を行うことが可能です。

また、この空間平均化法の活用により、スピーカー個体の個別特性を考慮せずにFIRフィルタの設計ができるようにもなります。

音源となるスピーカーから距離が離れたリスナーの耳で定位感を再現するためには、スピーカー再生の空間パス（Cパス）と音像の方位パス（dパス）の計算が必要です（図1参照）。このうち、Cパスは、空間特性Fとスピーカー特性Gの積で表現されます。

ここで相対音圧比を用いた空間平均化法によるフィルタ設計を行う場合、設計すべき制御フィルタWと、合わせ込むべき左右の複素音圧比P=P_L/P_RおよびCの関係は、音響信号Sに対して（３）式のようになります。ここでは、dは前述した方位パスを、添字は4つの空間パス（LL：左スピーカ～左耳、LR：左スピーカ～右耳、RL：右スピーカ～左耳、RR：右スピーカ～右耳）を表しています。

この式からWを計算すると、スピーカー特性Gが含まれる、制御フィルタWのクロストーク項W_LRとW_RLは下記のようになります。ここでは、空間平均化の回数Nを1としています。

絶対音圧を算出する逆フィルタ方式では、クロストーク項にスピーカー特性Gが関数として残ってしまうことから、音像効果を計算するためにスピーカー特性の情報が必要となりますが、当社の用いる空間平均化法では上記の式より、Gは、G_RとG_Lの比の形でしかWの式に残らないことが分かります。一般的に左右のスピーカーの特性はG_R/G_L=1となるように設定されているため、空間平均化法では、スピーカー特性の項が制御フィルタWから消去されることになります。

この設計コンセプトによって、スピーカー特性を含んだ空間特性を考える必要がなくなります。すなわち、２スピーカー間の間隔という、個々のスピーカーに依存しない汎用的なパラメータを用いてフィルタを設計できるようになるため、パソコンやタブレット端末、テレビなどさまざまな利用環境で共通して設計できるという視点での自由度も向上します。

自然な音の聴こえ方

このように、音響処理によって定位感のある音をつくり出せるようになることを説明してきましたが、定位感の生成と引き換えに、処理によってシャカシャカした音に聴こえてしまったり、音量が不自然に変わってしまったりするなど、音に副作用が起きてしまうことは望ましくありません。

そこで私たちは、副作用の起きにくい定位感の生成方法に着目し、体感音質の変化が少ないバイノーラル信号^※3に対応したFIRフィルタに方位dパスを付与してクロストーク項の空間平均化を行うことで、任意の角度変化に対する音質の変化を抑制したモノラル版のフィルタを開発しました。

※３バイノーラル信号：バイノーラルは「両耳の」という意味であり、人間の鼓膜に届く音を録音するバイノーラル録音によって取得した信号です。

この技術を基本となる空間平均化法とともに適用したことで、より自然な聴こえ方で定位感のある音の生成を提供できるようになったのが、「Soundimension仮想音像」です。

これからの仮想音像技術

当社が、仮想音像技術の活用により目指しているのは、「聞きやすく分かりやすく快い音」が、自然に、構えずに、気が付いたら当たり前のようにそこにある状態です。その実現に向けて、現在実装している定位感付与の機能に加え、さらなる効果体感エリアの拡張や、イヤホンやヘッドホンに限定されない3次元の定位方向制御などの検討を進めています。

仮想音像は、空間平均化法の活用により既存の絶対音圧方式よりロバストであるとはいえ、リスナーがスイートスポットから大幅に移動すると音像定位効果は低下します。そこで、この音像定位効果が有効な聴取範囲をできるだけ広げ、2つのスピーカーの間であればどこにいても効果が得られる状態を実現できれば、リスナーの聴取位置や姿勢といった利用シーンにおける制約がさらに減り、例えば複数人で同時に、その空間内に据え置かれた共通のスピーカーからの音に対し方向感や臨場感を感じることができるようになります。

また、定位感の制御のうち、水平方向の制御は種々の方式によりすでに実現できていますが、上下方向の制御は、水平方向に比べて技術的に難しいことが知られています。今後、この上下方向の定位感を合わせた、3次元の定位方向制御をヘッドホンやイヤホンだけではなく、耳からの距離を有する据え置きのスピーカーで実現できるようになれば、より自由で自然な「音の配置」が可能になります。これを実現する鍵の一つは、外耳道の音響効果であることが分かっており、現在、技術開発を進めています。

このような、「リスナーが意識せずとも効果を感じるのに必要なロバスト性と自由度の強化」を進めつつ、「アウトプット」に関わる仮想音像技術と、「インプット」情報を取得するセンシング技術、そしてそれらをつなぐ「状態分析」技術とを組み合わせることで、人の状態に応じた最適な音の出力が自然にできるようになります。

これらの実現により、イヤホンやヘッドホンを装着していない状態を含めて、さらなる音情報の活用や用途の拡大も期待できます。例えば、オンラインでの授業や会議で音声が聞き取りやすくなり、またリスナーの状況に応じた注意喚起用の音の組み合わせを自宅のスピーカーで行うことが可能になります。

さらに、テレコミュニケーションや遠隔体験のVR（Virtual Reality）、メタバースなどの利用シーンで複数の人が同じ「場」をより自然に体感できるようになります。現実世界では、執務室やエレベーター、案内板といったビルや施設内のインフラ、お風呂や洗面所、キッチン、玄関、テレビといった家庭内のインフラなどにおいて聴取位置が厳密には決まらない場面でも、状況に応じた音や音声によるアナウンスや情報提供が行えるなど、活用の道が開けます。また、スマートフォンやタブレット端末などの情報端末に内蔵されたスピーカーでも、くつろいだ自由な姿勢でいろいろな音を楽しめるようになります。

このような世界の実現に向けて、東芝は引き続き技術開発と効果検証を進めます。

連載の第1回で説明した音響技術の概要に続き、第2回では、東芝の2つのコア技術から「仮想音像技術」を説明しました。最後となる第3回では、もう一つのコア技術である「エリア音圧制御技術」を解説します。ご期待ください。