メディア
ITmedia AI+ >

後継者不足の“COBOL言語”を生成AIに引き継ぎ 政府や銀行の“いにしえのプログラム”を近代化へInnovative Tech(AI+)

» 2024年08月26日 12時00分 公開
[山下裕毅ITmedia]

Innovative Tech(AI+):

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。

X: @shiropen2

 ベトナムのFPT Software AI Centerに所属する研究者らが発表した論文「XMainframe: A Large Language Model for Mainframe Modernization」は、メインフレームコンピュータの近代化を支援する新しい大規模言語モデルを提案した研究報告である。

 1959年に開発されたプログラミング言語「COBOL」(Common Business Oriented Language)は、今なお多くの組織にとって重要な役割を果たしている。COBOL言語は、大規模な中央集中型メインフレームコンピュータ向けに設計された言語で、銀行、金融、政府機関などでは、メインフレームコンピュータ上で動作し、依然として不可欠だ。実際、現在稼働中のCOBOLコードは2200億行以上あり、毎年15億行のCOBOLコードが新たに書かれており、日々3兆ドルの商取引を管理している。

 しかし、これらのシステムで使用されているCOBOL言語に精通したエンジニアの多くは既に他界しているか引退している。また、COBOLは大学のカリキュラムから姿を消しつつあり、専門知識も急速に失われつつある。

 研究チームは、メインフレームのレガシーシステムとCOBOLの知識に基づいて特別に設計した大規模言語モデル「XMainframe」を開発。XMainframeは、中国のAI企業であるDeepSeekが公開したAIモデル「DeepSeek-Coder 7B」上に構築し、7Bと10.5Bのパラメーターで利用できる。COBOL言語で書かれたコードを解釈し、適切に対応する能力を持つ。

 XMainframeの開発過程は2段階に分かれている。まず、DeepSeek-Coderをベースとして、メインフレーム関連のデータで追加学習を行った。次に、特定のタスクに対応できるよう指示チューニングで微調整を施した。また、モデルの規模を効率的に拡大するため「depth up-scaling」という手法を採用した。

学習プロセスの概要
データ補強パイプライン

 研究チームは、複数選択問題、質問応答、COBOLコードの要約など、メインフレームの知識を評価するための包括的なベンチマーク「MainframeBench」を開発した。XMainframeは、これら3つのタスクで評価され、いずれも既存のLLMを大きく上回る成績を示した。

 具体的には、多肢選択問題でDeepSeek-Coderより30%高い精度を達成し、質問応答でMixtral-Instruct 8x7Bの2倍のBLEUスコアを記録した。特にCOBOLコード要約では、GPT-3.5の6倍の性能を示し、テストした全てのモデルの中で最高の性能を達成した。

COBOL要約タスクの例

Source and Image Credits: Dau, Anh TV, et al. “XMainframe: A Large Language Model for Mainframe Modernization.” arXiv preprint arXiv:2408.04660(2024).



Copyright © ITmedia, Inc. All Rights Reserved.