文書の理解・認識 AI-OCR技術
文書の理解・認識 AI-OCR技術

AIを活用して
文字認識の精度を上げる

コアテクノロジー開発部 安田 壮太
2022年度入社 工学専攻機械工学コース

コアテクノロジー開発部 安田 壮太
2022年度入社 工学専攻機械工学コース

文書の理解・認識 AI-OCR技術
文書の理解・認識 AI-OCR技術

AIを活用して文字認識の精度を上げる

紙の上の情報を高精度に読み取る技術

私の研究開発した技術は、東芝のAI OCR Synchro+™という文字認識サービスに組み込まれています。どこの企業でもまだ紙の文書が残っていて、それがデータ活用の妨げになっています。そこで、このサービスでは紙の情報を高い精度で読み取ることで、データ活用につなげようとしています。その中で私が担当した機能の一つが日付印の読み取りです。コンビニエンスストアでの支払いで目にしたこともあるかと思いますが、払込票などの帳票によく使われるものです。印影の中にある日付の部分を正確に読み取りたいというニーズがあり、その課題に取り組みました。難しかったのは、印影が傾いていたり、押し損じで全然ちがう場所に再度押されていたりして、どこに押されているのか分からないというケースが多いことです。また、欄の中にバックプリント(背景の印刷)があると読み取りの難易度が一気に上がります。こうした複雑な状況でも確実に読み取れるようにすることがテーマでした。私は日付印を読み取る AI モデルを開発し、実用レベルの精度になるまで試行錯誤を重ねました。その結果、精度・性能ともに問題ないと評価され、実際の製品に搭載されてお客様に使っていただけるようになりました。

非定型の書類に関する読み取りプロセスも開発中

読み取りの対象にはどこに何が書かれているかがあらかじめ分かっている定型文書と、その指定がされておらずレイアウトがバラバラな非定型文書の2種類があります。非定型の方が難易度は高く、私は何段階もある非定型の読み取りプロセスのうちのひとつに取り組み始めています。PDFやスキャン画像としてアップロードされた技術文書・請求書・健康診断書など多様な書式の文書が対象ですが、欲しい情報がどこに書いてあるか分からないという点が大きな難しさになっています。すでに非定型文書を扱える製品はあるものの、認識精度の向上が課題で、私はその中でもどの領域に何があるのかを特定する技術の開発を始めています。難易度が高いものを認識させたいからといってそのようなデータばかりを学習させてしまうと、逆に簡単なケースでの精度を低下させてしまうこともあり、そこをうまく調整する必要があります。学習データにも認識率向上に効くものとあまり効かないものがあって、何種類もの条件で学習させ、結果を比較しながらどれが効果的かを見極めています。どのデータが認識率向上に役立つかについては、やはり経験豊富な先輩のほうが勘が良いと感じる場面が多いです。


ある出勤日のスケジュール


07:30:出社

  • メールチェック

08:00:研究開発

  • 実験結果の確認や分析、改良

11:00:チーム内の定例会議

  • 各自の進捗報告や特定テーマに関する議論する

12:00:昼食

13:00:勤務再開

13:30:メンターとのブリーフィング

  • 配属以来継続している。仕事の進捗や会社生活での相談など、幅広くサポートしてもらっている

15:00:主担当テーマの定例会議

  • 進捗を報告し、今後の進め方についてリーダーと先輩に相談する

16:00:研究開発

  • 実験結果の確認や分析、改良

17:00:振り返り、翌日準備

  • 行った作業の整理と翌日行うことの確認

17:15:退社


ある在宅勤務日のスケジュール


07:30:勤務開始

  • メールチェック

08:00:研究開発

  • 実験結果の確認や分析、改良

12:00:昼食

13:00:勤務再開、分析・資料作成

  • 実験結果の分析、資料の作成

14:00:製品化に関する打ち合わせ

  • 将来的に研究成果を搭載する製品を扱う事業部と情報共有
  • お互いの状況を報告し、進め方について相談する

15:00:勉強会

  • 週替わりで担当者が論文などの解説を行う

17:00:振り返り、翌日準備

  • 行った作業の整理と翌日行うことの確認

17:15:勤務終了

デジタルデータを社会に役立つものとして扱う

私は大学では工学部にいて、研究室ではAIに取り組んでいました。AI の学習をどう効率化するかがテーマだったのですが、使っていたデータは現実の業務とは少し離れていて、もっと実際に使えるものを作りたいと思うようになりました。就職活動では、より事業に近い研究ができる環境を探していました。AIを活用した日付印のテーマには3年かけて取り組みました。難しいデータに対してなかなか精度が上がらず苦労しましたが、製品化を判断するギリギリの段階で精度を改善できたときは本当に嬉しかったです。文字認識の分野は、東芝では昔から力を入れている領域で、スキャナとOCRが一体になった製品の歴史があります。私の所属している部門には、OCRに限らず知らないことを訊けばとても丁寧に教えてくれる組織の文化があり、どの先輩に訊いても丁寧に対応してくれるのでとても助かっています。ずっとOCRに取り組んでいる先輩がいて、何か相談するとポンポンとアイデアが出てきたり、他部署との調整がすごくうまかったりと、学ぶことがとても多いです。そのような仕事を進めていく上での能力も高めていきたいです。今は主に「データ化する部分」を担当していますが、そのデータをどのように活用するかという領域にも進んでいきたいと思います。特に東芝グループの歴史の中で蓄積してきたデータをどのように活用していくかというところに関わっていけたらと思っています。


学生の皆さんに一言


『現在の専門分野の枠を超えて、将来の自分を探してください。』

私の場合は大学でやっていたことにこだわって就職活動をしましたが、もっと柔軟に考えても良かったのかなと思っています。東芝には未経験のテーマでもきちんと教育して仕事につけるような仕組みがあるので、新しい分野に仕事として取り組むことに対して心配することはないと思います。学生時代に取り組んできた専門分野の枠だけでなく、もっと広い視野を持って活動することで、将来の自分の可能性が広がると思います。