近年、ソフトウェアロボット(RPA:Robotic Process Automation)を活用した業務効率化への取り組みにおいて、OCR(Optical Character Recognition:光学的文字認識)が注目されています。従来のOCRでは、スキャナー装置(ハードウェア)と専用ソフトウェアが必要な上、読み取りの対象がこれらの装置やソフトウェアに特化した帳票に限られるなど、利用には制約がありました。また、実際の帳票でよく見られる自由記述や書き損じを訂正したような文字列を高い精度で読み取ることには、技術的な課題も抱えていました。これらのことから、業務での活用は限定的で、結果としてデータを活用することは容易ではありませんでした。このような技術的な課題を克服する形で現在増えているのが、機械学習を応用したAI技術を活用して、多様な帳票を高い精度で読み取るAI OCRです。ここでは、AI OCRという技術と、長年にわたり官公庁や民間企業のお客さまに提供し培ってきた経験・システムノウハウでお客さまの事業成長を支える「AI OCR文字認識サービス」についてご紹介するとともに、今後のデータ活用の世界を説明します。
従来型OCRとAI OCRの違い
企業が扱う帳票は多種多様です。取引先とのやり取りで扱われる請求書や社内の事務処理で発生する伝票などさまざまで、それらの帳票に記載されるデータも印刷された活字や手書き文字、シンボル、バーコード、QRコードなどさまざまなものがあります。これらのデータをデジタル化するために有効とされるのが、OCRの活用です。
OCRは、文字の認識精度の向上や対応可能な帳票の書式を増やすなど、長年にわたり進化を続け、対象業務や利用シーンを拡大させてきました。しかし、従来のOCR技術(以下、従来型OCR)では、利用にあたっての制約や業務で必要となるさまざまな書式への対応、認識精度の向上に限界がきています。
このような中、登場したのが「AI OCR」です。OCRにAI技術を活用することで、従来型OCRの限界を超え、さまざまな書式の帳票に対して、これまでより高精度な文字認識結果を得ることができます。
従来型OCRとAI OCRでは、文字を読み取る仕組みが異なります。例えば、従来型OCRでは、決められたルールに従い、プログラム(認識エンジン)が文字の位置や切れ目を探して1文字ずつ読み取っていました。これに対してAI OCRでは、文字らしい場所を探してまとめて読み、AIが結果を判断します。読み取る範囲を少しずつずらしながら文字を読み取るため、乱雑に書かれた「接触文字」や文字がつながった「つづけ文字」なども高い精度で読み取ることができるようになります。(図1)
東芝は、長い間、さまざまなお客さまにOCR技術を活用したソリューションを提供してきました。そこで培ってきたOCRに関する技術や経験、ノウハウと、長年、研究開発を続けてきたAI技術があります。このOCRとAIの技術や経験を生かし、よりお客さまの業務に役立つソリューションとして認識精度の向上や機能の強化を行っているのが、「AI OCR文字認識サービス」です。
定型・非定型読み取りで高精度な文字認識を実現
一般的に、帳票に記載された文字列を読み取る方式を大別すると、特定の書式から指定された範囲を読み取る「定型読み取り」と、任意の書式からあらかじめ登録されたキーワードなどを基に読み取る「非定型読み取り」があります。従来型OCRでは技術的な課題から、定型読み取りへの対応がほとんどでしたが、AI OCRにおいて、非定型読み取りへの対応が進んでいます。「AI OCR文字認識サービス」は、定型読み取りと非定型読み取りの両方に対応しています。
定型読み取りでは、読み取る範囲をマウスで任意に指定することで、活字や手書きの文字に加えて、チェックボックスや、丸で囲んだ年号や都道府県などが読み取れます。複数行で書かれた文章の読み取り、そして実際の帳票でよく目にする、取り消し線を踏まえた読み取りや塗りつぶされた部分の読み飛ばしにも対応しています。さらに、同じ枠内に住所と電話番号を手書きで記入するような書式の場合には、住所だけを読み取ることができます(図2)。
また、非定型読み取りでは、登録されたキーワードを基に文字列を読み取る「項目サーチ読み取り」と、請求書の読み取りに特化した「見出しプリセット読み取り」の2つを準備しています。項目サーチ読み取りとは、事前にユーザーにより登録されたキーワード(見出し語)を帳票から見つけ出し、その右あるいは下にある文字列を読み取る機能です。例えば、伝票番号や件名を読み取りたい場合には、それらの項目名を見出し語として登録することで、書式の異なるさまざまな帳票から、自動的に読み取ることができます。また、見出しプリセット読み取りは、前述の項目サーチ読み取りを請求書に最適化させたもので、特別な設定がなくても請求書を読み取ることができる機能です。具体的には、請求書には、請求書の番号やその発行日、金額、請求書の宛先と発行元など、欠かせないいくつかの項目があります。これらの項目をユーザーが見出し語として登録しなくても読み取れるようにしました。これらの機能は、2023年10月1日に施行が予定されている「適格請求書等保存方式(インボイス制度)」に適用することができます。
さらに「AI OCR文字認識サービス」では、帳票に印字された活字を行単位ですべて読み取る「全テキスト読み取り」を備えています。これにより、契約書や議事録などの帳票全体をまるごと読み取ることが可能です。
これら「定型読み取り」「項目サーチ読み取り」「見出しプリセット読み取り」「全テキスト読み取り」という4つの読み取り機能を、業務や読み取りたい帳票に応じて組み合わせて利用できる点が、大きな特長です。
技術と経験から使いやすさを追求した便利な機能
文字を読み取る精度は、折れやカスレといった読み取る帳票(紙)の状態や、複合機のような読み取る機器の性能など、外的な要因によっても大きく左右されます。そのため、認識精度を100%に近づけることに加え、誤読を抑制するための工夫を行っています。
その代表的な機能が、「誤読抑制OCR機能(リジェクト機能)」です。これは、読み取りの際に、認識エンジンが「認識結果の確度が低い」と判断した文字を、実際に読み取った結果ではなくクエスチョンマークの「?」を返す機能で、確認や訂正が必要な文字がユーザーに一目でわかり、確認作業の効率化に寄与します(図1の例5)。また、「?」の背景を赤くして強調したり、「?」が残っていたら警告メッセージを出したりするなど、修正漏れを防ぐ工夫もしています。認識結果と「?」のどちらを返すのかの判断(しきい値)は重要です。ここには、当社のノウハウが生かされています。
※現在は、手書きの数字およびカタカナに対応しています。
また、OCR処理後の認識結果に対して、人が訂正処理をいかに効率的に行えるのかも重要です。「AI OCR文字認識サービス」では、帳票から文字認識された結果を確認・訂正する過程において、誰がどの部分を確認するのか、何人で行うのか、確認・訂正結果に対する承認者は誰かといった業務の流れを、きめ細かく設定できることも特長の一つです。例えば、複数の担当者が認識結果の確認(シート訂正)を順番に行う、あるいは複数人が並行して確認し、それを突き合わせて判断する担当者(ベリファイ)を設ける、一人が確認した後に承認者(チェック)を設定するなど、業務や帳票の種類などによって訂正ワークフローを柔軟に設定することができます。このような訂正ワークフローは、一般にはシステムやアプリケーションで実現しますが、当社では、お客さまからの要求を基に、標準の機能として提供しています。
さらには、読み取った帳票を自動的に識別する帳票識別機能があります。前述したように、企業では、種類や書式の異なるさまざまな帳票を扱います。これまでは、「A社の見積書」「A社の請求書」「B社の注文書」「C社の伝票」というように、事前に種類ごとに仕分けしてから帳票を読み取る必要がありました。当社では、多種多様な帳票が混在した状態でも一括で読み取れるようにしたことで、作業者の業務負荷を軽減しています。この帳票識別は、帳票全体の書式(表や文字の位置)と実際に記載された文字という2つの要素を基に行っており、AIモデルの学習方法などの改良を続けることで、精度の高い識別結果が得られるようになっています(図3)。
高精度な文字認識技術の探求とその先のデータ活用
ここまで、「AI OCR文字認識サービス」の4つの読み取り機能や、当社の経験から生まれた便利な機能を紹介してきましたが、これらの実現に欠かせない取り組みが、高精度な文字認識を実現する要素技術の探求です。
AI OCRには、その特性から文字の一部が2回読み取られたり、逆に読み飛ばされたりする問題があります。当社は、これらの現象の抑制に向けて、学習モデルや学習データの改良などに試行錯誤を重ねる中で、文字の座標(位置)を推定する技術を開発しました。この技術を活用することで、読み取った文字に関する座標情報が重なっていないか(文字の重複)、そして座標情報が取得できているのに文字が読み取られていない部分はないか(文字の読み飛ばし)を確認することで、認識精度のさらなる向上につなげています。
今回ご紹介した機能は、当社が独自に開発したOCRやAIに関するさまざまな技術により実現しました。お客さまから寄せられた声を基に進化する「AI OCR文字認識サービス」は、高精度な文字認識を提供する便利で使いやすいソリューションです。クラウドやオンプレミスの環境に対応し、API(Application Programming Interface)によるシステム連携も可能です。
AI OCRの活用においては、転記作業の省力化を柱とした業務効率化に注目が集まりがちですが、これからは、そうした業務効率化はもちろん、従来は読み取りが難しかった手書き文字を含んださまざまな書式の帳票を読み取ることで集まる膨大なデータの活用が重要になっていきます。例えば、アンケート用紙などの項目の中にある自由記述欄を読み取り、記載された言葉が出現する頻度の分析・推定により、傾向や特徴を抽出して新たな気づきを得ることで、業務効率化などによる既存事業の強化や、新規事業の立ち上げに役立てられます。これまでは活用することが限定的であった紙の帳票にある情報のデジタル化、そしてその先にあるデータの分析や活用の支援に向けて、当社はこれからも「AI OCR文字認識サービス」を進化させていきます(図4)。
- この記事に掲載の、社名、部署名、役職名などは、2023年6月現在のものです。