一歩進んだ業務自動化

文字認識クラウドサービス

一歩進んだ業務自動化

文字認識クラウドサービス

読み取り技術

弊社は、AI OCR開発においても複数の特許を保有し、サービスに適用しています。
【特許取得済】
特許第6813704号 特許第6798055号 特許第6334209号 特許第6076773号

文字位置推定・重複読み対応技術

<人間にとって理解しにくい読み取り誤りの発生>

文字を読み取る際、文字の一部を重複して読み取ったり、逆に一部を読み取らなかったりする読み取り誤りが起こるケースがあります。

文字の一部が2回読み取られる例

文字(の一部)が消えてしまう例

<従来OCRとAI OCRの読み取りメカニズム>

AI OCRでは、読み取り範囲を少しずつずらしながら読み取ることで、乱雑に書かれた「接触文字」や文字がつながった「つづけ字」など、高い精度で認識できるようになりましたが、重複読み取りや一部を読み取らない場合に対応するため、文字位置推定・重複読み対応技術を開発しました。

<人間にとって理解しにくい読み取りはなぜ起きるのか>

ウィンドウ(文字を読み取る範囲)の幅は決まっていますが、ウィンドウ内だけでなく、周辺にある文字列も考慮して読取結果を出すため、重複や読み飛ばし/別の文字に置き換えての読み取りが発生します。

隣のウィンドウで、別の文字らしさが高い  → 重複読み取り

どのウィンドウでも、その文字らしさが低い → 読み飛ばし/別の文字で読み取り

文字の一部が2回読み取られる例

本来緑のウィンドウでも周辺を考慮して「信」という結果を返してほしいが、うまくいかずに「言」になってしまった。

文字の一部が消えてしまう例

どのウィンドウからも「信」という結果が返ってこなかった。この例では文字の一部である「言」の部分だけを認識してしまっている。
※人偏の書き方がよくない(極端に傾いている、かすれているなど)と、こういう事例が発生しやすい。

<理解しにくい読み取りを防ぐ>

文字位置を推定しながら読み取り、重複読みや読み飛ばし現象を抑制することで、精度高い認識結果を得ることができます。

「文字かもしれない単位に分ける」のは困難

読み取りと並行して文字の位置も得る手法を開発
これに基づき重複読み・読み飛ばしを改善

※特許第6813704号、ほか関連特許出願中

文字位置推定の結果

詳細は国際学会でも発表

Ryohei Tanaka et al. “Text-conditioned Character Segmentation for CTC-based Text Recognition”
ICDAR2021, September 5-10, 2021, Lausanne, Switzerland

取消文字読み飛ばし・訂正文字認識技術

<間違った記入の取り消し、さらに訂正があっても意図通り認識する>

間違った記入を2重線で取り消している例

間違った記入を2重線で取り消し、さらに訂正内容を記入している例

<一般的な動作>

訂正記入はいろいろな書かれ方をするので、訂正の抽出や対応関係の決定が難しい

<東芝デジタルソリューションズでの方式>

Step1: 訂正記入も、取消と同じ行として行抽出

Step2: 取消、訂正記入を含む行画像をそのまま認識

様々な取消、訂正記入サンプルを学習データとして活用することで、精度高い認識結果が得られるようになりました。

<動作イメージ>

項目フィルター対応技術

<文字認識の課題>

住所や電話番号など読み取りたい項目が近接していて、適切に読み取り範囲を指定することができず、認識精度が低下する場合がありました。

<項目フィルター機能>

読み取り範囲指定を行う際、住所、電話番号、名前など複数項目が同じ枠にあっても「住所」または「氏名」を選択すれば、選択した項目だけが読取可能です。(現時点では「住所」「氏名」に対応)

<項目フィルターによる改善例>

吹き出し挿入対応技術

<吹出挿入>

「取消文字読み飛ばし・訂正文字認識技術」を応用し、吹き出し挿入にも対応しました。

<吹出挿入仕様>

<認識例>

都道府県・市区町村 選択肢の行認識対応技術

<都道府県・市区町村選択肢の行認識対応>

<認識例>