日本に対する国際理解を深め、海外から日本への投資やビジネスを促進するため、法務省では法令を所管する府省庁と協力して日本法令を英語に翻訳し、公開しています。法令は専門用語が多く文章構成が複雑なこと、また誤解を生まない正確な翻訳文を作成する必要があることから、全工程を人手で翻訳していたため、日本法令の公布から英訳の公開までに長い期間を要していました。対日投資などの観点からは、常に最新の法令に対応した英訳を提供することが望ましく、AIを活用した翻訳作業の加速化が政府の重要施策の1つとなっていました。東芝デジタルソリューションズは、これまで培ってきた自然言語処理の技術と先進のAI技術の活用、パートナー企業との共創により、正確で自然な翻訳を実現するAIシステムを開発しました。法務省での試行運用を経て、2024年度より法令を所管する府省庁で利用が始まった「法令翻訳システム」の取り組みを紹介します。
求められる法令の英訳公開までの期間の短縮化
日本では一般的に、国の立法機関にあたる国会が制定する「法律」と、国の行政機関が制定する政令や省令などの「命令」を総称したものを、「法令」と呼びます。法令は、日本で暮らすうえで守るべきルールであり、また海外の投資家や企業が日本で投資やビジネスを行う際にも把握と遵守が必要なものです。そこで2009年から法務省は「日本法令外国語訳データベースシステム(以下、JLT)」という専用のウェブサイトにおいて、法令の英訳を提供しています。2024年6月末の時点で、約950本の法令と約90本の法令概要情報の英訳が公開され、世界100以上の国や地域からアクセスされています。
海外からの対日投資および外国企業の日本進出の促進などの観点からは、常に最新の法令に対応した英訳法令を提供することが望ましい一方で、法令が公布されてから英訳を公開するまでに平均で2年半を必要としていました。そこで、英訳の公開までの期間を短縮することが、喫緊の課題でした。
英訳の作成にあたっては、まず翻訳対象の法令を所管する府省庁で英訳の原案を作成します。この原案作成の多くは、府省庁から外部の翻訳業者に委託されます。そのため英訳原案は、府省庁による委託業者の選定と発注、翻訳業者による翻訳作業、府省庁による翻訳結果の確認と修正などを経て完成します。次に、完成した英訳原案が法務省に提出され、法務省では、英語や法令に精通した専門家により、自然な英語になっているか、関連する法令と整合性がとれているかなどの検査を行い、対象の法令を所管する府省庁と連携しながら英訳を修正します。修正した英訳は法令を所管する府省庁の最終確認を経て、法務省がJLTに公開しています。
このような一連の業務に平均2年半かかっていました。特に英訳原案の作成では、外部の翻訳業者への調達手続きに期間を要する上、英訳作業にも期間が必要となることから、各府省庁から法務省へ英訳原案を提出するまでに実に約2年を必要としていました。このことから法務省では、英訳原案の作成期間の短縮に向けて、法令を所管する各省庁が共通して活用できるAI翻訳の取り組みが進められました。
参考文献
・令和6年度第1回日本法令外国語訳推進会議 資料1「日本法令外国語訳整備プロジェクトについて 令和6年6月」(法務省)
https://www.moj.go.jp/content/001419956.pdf
・惣木 詩織、”法令外国語訳における機械翻訳の活用”、AAMTジャーナル No.80、2024
https://aamt.info/wp-content/uploads/2024/06/AAMT-journal-No80.pdf
正確で自然な翻訳の実現
このような政府や法務省の取り組みを背景に、東芝デジタルソリューションズが開発した「法令翻訳システム」は、法務省において2023年12月から4か月間の試行運用が行われ、英訳原案をわずか数週間で作成できるなど、一定の有用性が確認されました。2024年4月からは、法令を所管する府省庁においても利用が始まり、これまでよりも短い期間で英訳法令を公開できるようになることが期待されています(図1)。
法令翻訳システムは、国産のAI翻訳エンジン、法令専用の最新ニューラル翻訳モデル、法令文に固有の課題を解決するための追加学習を組み合わせることで、法令英訳のルールに則した正確かつ自然なAI翻訳を実現しました。
AI翻訳エンジンには、国立研究開発法人情報通信研究機構(NICT)が開発した最新のエンジンを活用しています。ただし、ディープラーニングによるAI翻訳だけでは、法令英訳のルールに則した翻訳は困難でした。なぜなら、法令文は専門用語が多く文章構成が複雑なため、ディープラーニングでは、必要な情報が抜け落ちてしまったり、原文に関係のない用語が出てきてしまったりすることがあり、翻訳結果の正確性を担保することが難しかったからです。そこでディープラーニングが苦手とする部分を補完するため、AI翻訳の前後に、当社が長年にわたり培ってきた自然言語処理やルールベース機械翻訳の技術を活用することで翻訳の品質を高めました。
また、翻訳する対象のファイルやテキストを入力したり、翻訳した結果を出力したりするフロントエンド部は、翻訳会社の株式会社川村インターナショナルと協業しました。翻訳画面のほか、ユーザー認証や組織管理の機能を提供するサーバーと翻訳エンジンを、API(Application Programming Interface)を介して接続しています。
法務省との対話により実現した利用者視点の機能と画面
法令翻訳システムには、準備した文書をアップロードして行う「ドキュメント翻訳」とテキストを直接入力して行う「テキスト翻訳」があります。ドキュメント翻訳では、WordやExcel、PowerPointで作成した法令の原文ファイルを一括で翻訳し、結果をダウンロードすることができます。テキスト翻訳は、翻訳したい内容をフォームにテキストで入力し、翻訳結果を得るものです。法令を翻訳する際には、改正された法令を翻訳したいケースも多く、改正された部分だけを翻訳するのに有効です。
また、翻訳結果の確認や修正を効率的に行えるように、AI翻訳の結果を人が修正するための「ポストエディット」を実装しています。ポストエディットにより、翻訳結果を原文と比較しながら修正でき、また翻訳結果を和訳で戻して原文との一致具合を表示できるため、翻訳の正確性を把握しながら翻訳結果を修正することができます。さらに、あらかじめ翻訳のルールを設定しておくことで、ルールへの遵守状況について色で注意を促し検証作業を効率化しています。そのほか、各種作業のステータスや改正前の翻訳文との比較など、翻訳の状況や正確性を一目で確認できます。
きめ細かい対応で使えるAI翻訳に
法令翻訳システムの大きな特長は、英訳原案の作成において、法令英訳のルールに則った正確かつ自然な翻訳ができることです。特に法令には、1つの法令の中で繰り返し使われたり、複数の法令にまたがって使われたりする用語や言い回し(表現)が多く存在します。これらの用語や表現などに対する訳語が統一されていないと、英訳法令を閲覧する人に誤解を与える可能性があります。そこで法務省において「法令用語日英標準対訳辞書」や「法令翻訳の手引き」が作成され、翻訳作業における統一的な指針が示されています。
この統一的な指針、つまり法令英訳のルールに準拠するために、用語集を登録して専門用語に対応したり、JLTで公開された英訳法令を追加学習して訳語の用語や表現を統一したりしています。そのほか、法令英訳のルールに準拠するための工夫を3つ紹介します。
1つ目は、法令翻訳において特徴的ともいえる、各法令の「条・項・号」への対応です。AI翻訳では、アラビア数字と異なる記法である「百」「一」などの漢数字を誤訳することがあり、法令の「条・項・号」ではこれら漢数字が多用されていることから誤訳の原因となっていました。このシステムでは、AI翻訳の前処理と後処理を行うことにより改善しています。前処理では、文頭の「条・項・号」と、その後の文とを正規表現を用いて分離することで、「条・項・号」をAI翻訳の対象から除外し、後処理では、「条・項・号」を法令翻訳の手引きに則った表記に変換します。後処理において、例えば「第九条の二」は「Article 9-2」と変換します。それ以外にも、項は「paragraph」と訳して番号は丸カッコをつけたアラビア数字に、号は「item」と訳して番号は丸カッコをつけたローマ数字に、さらに号より下は、例えば「イ・ロ・ハ」は「(a)・(b)・(c)」とするなど、詳細に英訳での表記が決められているため、後処理で対応しています(図2)。
2つ目は、不要な語句の削除です。例えば、条文の見出しの中に、「等」が含まれている場合があります。通常のAI翻訳では「etc.」と訳されますが、法令翻訳の手引きにおいて「条見出しに『等』があるとき、英訳ではetc. は原則として不要である。」とされているため、後処理において該当箇所を削除しています。このように、法令の原文には書かれているが、外国語訳からは削除する語句への対応など、法務省が求める結果を導き出すために把握するべきルールや課題はいくつもあり、対話を重ねながら一つひとつ解決していきました。
3つ目は、翻訳のチューニング(調整)です。法令翻訳の手引きの中では、使用するにあたって留意したり禁止したりする語句が定められています。例えば、義務や可能性、権利、未来といった多義的な意味を持つ「Shall」は、読み手が誤解を生じる可能性があります。そのため、Shallを含まない学習データで追加学習を行うことで、適切な翻訳ができるようにしました。ほかにも、原文では男性と女性のどちらを示すのか不明確な場合などは、ジェンダー中立性の原則から、性別を示すheやsheといった表現の使用はできるだけ回避することが求められるなど、時代に即したルールに適切に対応しています。
翻訳品質の担保と業務の効率化に寄与したAI翻訳のさらなる進化を目指す
こうしたきめ細かな対応を積み重ねた翻訳によって、AI翻訳の品質が確保され、法務省での試行導入では英訳原案の作成にかかっていた期間が、約2年からわずか数週間と劇的に短縮されました。その翻訳の品質について、機械と人手による定量的な効果測定を継続して実施しています。
機械での評価は、BLEUスコア※によるものです。選択した5つの法令に対して改善を図る前後の評価を行ったところ、最も改善された法令では改善前と比べて5ポイントを超える改善が見られ、40以上であれば精度が高いとされる評価値は54.89に向上しました。翻訳事業者による人手評価でも、変更を不要とする翻訳が増え、大きな変更を必要とする翻訳が減ったという評価が得られました。
※BLEUスコア:現在広く利用されている機械翻訳の評価方法。人が翻訳した参考訳とどれだけ類似しているかを、0~100で機械的に評価したもの。100に近いほど評価が高く、40以上であれば精度の高い翻訳といわれている。
このように、法令に特化した最新のニューラル翻訳と、当社が培い信頼性を高めてきた自然言語処理技術やルールベース機械翻訳の技術を組み合わせることで、複雑で専門的な法令の翻訳でも、一定の翻訳品質の担保と業務の効率化に寄与することができました。ただし、翻訳事例の少ない新規の法令の翻訳には、改正された法令の翻訳と比較して、品質に改善の余地があることがわかっています。今後公開される法令を用いた追加学習や定義ファイルの更新などを行い、継続して翻訳品質の向上を図っていきます。
近年、法令以外にも国際的なコミュニケーションや、海外の技術文書の調査やマニュアルの作成、日本の技術や文化の紹介など、さまざまなシーンで品質の高い翻訳が求められています。東芝デジタルソリューションズは、今回の複雑で専門的な法令翻訳システムの開発で得た知見を基に翻訳ソリューションを進化させ、官公庁や研究機関、企業などの幅広いニーズに応えることで、日本の国際的な発展に貢献していきます。
- この記事に掲載の、社名、部署名、役職名などは、2024年7月現在のものです。
- この記事に記載されている社名および商品名は、それぞれ各社が商標または登録商標として使用している場合があります。