ディープラーニング技術:系列データの予測精度を向上させるAI学習技術

ディープラーニング技術:系列データの予測精度を向上させるAI学習技術

事後確率分布平滑化手法で汎化性能を高め文字列認識の精度を向上

ディープラーニングをはじめとした機械学習では、予め用意した学習データをもとに予測モデルを学習します。このとき、学習データに対して過度にチューニングすると、学習データに含まれない未知のデータに対する予測精度が低下する過学習が起こります。正則化は、過学習を防ぎ、予測モデルの汎化性能を向上させるために重要な技術です。ディープラーニングにおいても、モデルパラメータが大きくなりすぎないよう制約するL2正則化や、学習中にモデルパラメータの一部を無効化するドロップアウトといった様々な正則化手法の有効性が確認されています。中でもVirtual Adversarial Training (VAT)は、学習データの予測結果と、その学習データを適切に変形したデータの予測結果が大きく変化しないように、すなわち学習データ周辺で事後確率分布を平滑化するように学習することで予測モデルの汎化性能を向上させる手法として知られています。定性的には、図1のように学習データの周辺まで見ることでより良い識別境界を推定しているとみなすことができます。

しかし、VATは画像分類や1文字認識(図2左)のように1つの入力に対して1つのラベルを予測するタスクを対象として考案された手法であり、音声認識や文字列認識(図2右)のように1つの入力に対してラベルの系列を予測するタスクに対しては適用が難しいという問題がありました。これは、ラベルの系列を予測するタスクの場合、認識結果の候補となるラベル列の数が系列長に対して指数関数的に増加し、現実的な計算量で事後確率分布を計算できないためです。例えば、5桁の数字の認識の場合、候補ラベル列の数は「00000」から「99999」までの100,000種類にも及びます。事後確率分布を求めるには、これらすべての候補ラベル列について確率を計算する必要があり、膨大な計算量になります。

当社は、現実的な仮定の下で、「ラベル列の事後確率分布の分布間距離」が「個々のラベルの事後確率分布の分布間距離の総和」より常に小さいという法則を発見し、計算困難な前者を最小化する代わりに計算容易な上界である後者を最小化することで、ラベル列を予測するタスクにおいても事後確率分布の平滑化を可能にする計算手法を開発しました[1]。前述のように、本来求めるべき「ラベル列の事後確率分布の分布間距離」の計算量が系列長に対して指数関数的に増加するのに対し、「個々のラベルの事後確率分布の分布間距離の総和」の計算量は系列長に比例して増加します。従って、前述の数字列認識の例の場合、計算量をおよそ2,000分の1に削減できます。開発した事後確率分布平滑化手法を文字認識の学会で標準的に用いられるデータセットを用いて評価したところ、誤認識を約11%低減できることを確認しました[2]。本技術は文字認識クラウドサービス[3]に搭載され、高精度でロバストな文字認識サービスの実現に役立てられています。

事後確率分布平滑化のイメージ図

赤マルと青バツはそれぞれ異なるクラスの学習データ。事後確率分布平滑化なしでも学習データを正しく分類できる識別境界を推定できるが、事後確率分布平滑化によって学習データ点の周辺まで考慮した、より良い識別境界を推定できる。

事後確率分布平滑化のイメージ図

事後確率分布平滑化のイメージ図

1文字認識(左)と文字列認識(右)

1文字認識は1文字だけ書かれた画像から1つのラベルを予測するが、文字列認識は任意の長さの文字列が書かれた画像から適切な長さの文字列を予測する。

1文字認識(左)と文字列認識(右)のイメージ図

1文字認識(左)と文字列認識(右)のイメージ図