企業のデジタル化を加速する「AI OCR文字認識サービス」のバージョンアップ版を提供開始

~最新のAI技術を活用した認識エンジンで、さまざまな書式の帳票に対して高い認識精度を実現~

2023年2月6日(月)

東芝デジタルソリューションズ株式会社

 東芝デジタルソリューションズ株式会社(本社:神奈川県川崎市、取締役社長:岡田 俊輔、以下 当社)は、さまざまな帳票を高精度に読み取ることができるAI OCRの新バージョンとして、最新のAI技術をベースに、学習データの改良と独自の表解析/文字抽出技術により認識精度を向上した「AI OCR文字認識サービス V2.7(以下、AI OCR V2.7)」の提供を本日から開始します。
 今回リリースするAI OCR V2.7では、従来は読み取りが難しかった、書式が異なる帳票からの特定の項目の読み取りや、不規則に結合されたセルや罫線の一部が欠落した表が含まれる帳票からの読み取りなど、実運用で扱うことの多い、さまざまな帳票を精度高く読み取ることが可能になりました。また文字認識後の演算チェック機能も強化しました。

 企業の業務デジタル化を進めるためには、IoTデータや音声、映像などのデータはもちろん、帳票から得られるテキストデータの活用がますます重要になります。AI OCR V2.7を利用することで、帳票のデータ化がより一層容易になりデジタル化を推進します。なお、AI OCR V2.7はクラウドサービス、オンプレミスの両方注1に対応しています。


■ AI OCR V2.7の主な特長
1.独自の表解析/文字抽出技術により認識精度向上
 
学習データの改良と当社独自の表解析/文字抽出技術により、請求書や受発注伝票など書式が発行元によって異なる帳票から、金額・発行日などの項目を直接読み取る認識精度が向上しました。
 従来は、不規則に結合されたセルや罫線の一部が欠落したような複雑な表に柔軟に対応できず、読み取り対象の帳票が限定されていました。今回提供するエンジンでは、罫線の有無や記載された文字の状態(網掛けの有無や画像劣化状態)を加味した上で認識するため、さまざまな書式の帳票に記載された内容を直接精度高く読み取ることが可能になります。
 

<文字認識が改善した例>

【例1】
右サンプルのように、セルの一部が結合されるなど、不規則な表の場合、従来は読み取りが困難でしたが、今回の改良で赤枠内の認識精度が向上しました。

【例2】
右サンプルの赤枠(流動資産、2,038,099、2,130,908)のように、縦横の罫線の一部が無いなど、文字や数字の境目が判別しにくい帳票の場合、従来は読み取りが困難でしたが、今回の改良で認識精度が向上しました。

【例3】
右サンプルの赤枠のように、文字の背景が白ではなく、網掛けや色が付いている帳票の場合、従来は一部が読み取れないなどの課題がありましたが、今回の改良で認識精度が向上しました。

2.文字認識結果に対する演算チェック
 
複数個の認識結果の関係が、予め定められた四則演算ルールに従った結果になっているかをチェックする機能に対応しました。従来から、読み取り対象項目(必須入力)に対する記載有無や、認識した結果(例:数値)が一定の範囲内に収まっているかなど、認識結果に対するチェック機能を提供していましたが、今回チェックできる内容をさらに強化しました。これまで、業務内容やルールに従ったRPAやアプリケーションを別途準備することで対応してきた認識後の演算チェックを、AI OCRの中の機能として利用することが可能となり、データチェックが一層容易になります。

<チェック例>
 例えば、複数個の認識フィールドが一定ルールに従った結果になっているかを確認できます。
 下の画像での「A.単価」、「B.個数」、「C.金額」を認識フィールドと指定した場合
  A×B=C(金額が正しいか)
 などのチェックが可能となります。チェックした結果がルールに従っていない場合は項目がハイライトされます。

 今後も当社は、データ活用で必要となる文字認識精度の強化、認識後のデータ活用を加速するためのデータチェックなどの機能強化を継続し、お客さまのデジタル化とデータ活用を支援してまいります。

注1:
クラウド版は本日2023年2月6日から提供開始、オンプレミス版は2023年2月16日から提供開始予定

  • 本文章に記載されている社名および商品名はそれぞれ各社が商標または登録商標として使用している場合があります。
  • ニュースリリース/トピックスに掲載されている情報(サービスの内容/価格/仕様/関連リンク/お問い合わせ先など)は、
    発表日現在の情報です。予告なしに変更されることがありますので、あらかじめご了承ください。