このページでは JavaScript を使用している部分があります。お使いのブラウザーがこれらの機能をサポートしていない場合、もしくは設定が「有効」となっていない場合は正常に動作しないことがあります。

画像認識技術環境変動にロバストな文字認識技術

さまざまな環境変動に適応する文字認識技術により、ものづくりの現場を支援

　近年、ビッグデータを活用した業務改善や製品のトレーサビリティ確保が重要視されるようになってきており、ものづくりの過程で個体識別情報等を取得・管理することが強く求められています。通常、製品種別はバーコード等の機械識別用に特化した情報で管理できますが、製造中の製品番号や部材のロット番号など、個体ごとに付与される識別情報は文字でしか記載がないケースが多いため、文字情報の取得・活用が課題となっています。

　製造番号などの読取りはカメラで撮影した映像に基づいて行なう必要がありますが、照明不足や、日光の影響による白飛び、シャッター操作時の手ブレ、撮像デバイスの解像度不足（実装面での都合やコスト面での制限）などの環境変動が原因で映像の品質が低下しがちです。そういった画質の低さや類似文字の存在などで文字の判別が難しい場合があるため、低画質に対する認識技術のロバスト化や文字の並び規則の学習を行って認識精度を向上させるカスタマイズが欠かせません[1]。

　例えば屋外で眼鏡型デバイスを使ってナンバープレートを撮影する図1 図1の事例の場合、眼鏡型デバイスに搭載されたカメラの撮影画質が課題でした[2]。そこで、カメラの特性に合わせた劣化モデルを仮定して生成した画像による学習を行い、さらにナンバープレート各項目の書式や出現語に特化した記述ルールにしたがった認識などのカスタマイズを行いました。また、アプリケーションには音声コマンドでシャッターを切る機能を導入することで撮影時のぶれを防止しました。これらの技術により実用的な水準にまで認識精度を高め、車両管理情報の「見える化」の促進と業務効率向上に貢献しました。

　現在はこうしたカスタマイズ作業を効率化し、より簡単に正確な情報取得を可能とする技術の開発を行っています。使っていくうちに自動的に環境に適応するように学習、成長していく仕組みの開発(図2)(図2)、画像処理や文字認識などで用いられるアルゴリズムの組み合わせやパラメータを自動的に最適化するプラットフォーム[3]、学習画像AIで自動生成する敵対的生成ネットワーク(GAN: Generative Adversarial Networks)などの技術を活用することで、より効率的に文字認識技術を現場に導入できるようなります。

環境変動にロバストな文字認識技術を活用した入退場車両管理システムの例建設現場での入退場車両管理システム「T-Gate.Navi」では、眼鏡型ウェアラブル端末のカメラで撮影した画像から車両ナンバーを取得、事前に登録された車両情報と照合することで管理作業を簡略化しています。