ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

Microsoft、文章でOfficeを操作する「Semantic Interpreter」発表 テキストからパワポ生成などInnovative Tech

» 2023年06月14日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2

 Microsoftに所属する研究者らが発表した論文「Natural Language Commanding via Program Synthesis」は、ユーザーが入力したテキストを大規模言語モデル(LLM)で認識し、それらに応じてMicrosoft Officeを制御する手法を提案した研究報告である。実験では、PowerPointに焦点を当て検証する。

提案手法「Semantic Interpreter」のアーキテクチャと全体的なアプローチの図解

 この研究では、LLMの強力な能力を利用して、自然言語で表現したユーザーの意図を理解させ、この意図を満たす実行可能なプログラムを生成する「Semantic Interpreter」を提案する。

 Semantic Interpreterは、自然言語によるユーザーの発話をODSLプログラム(Office Domain Specific Language、Officeアプリケーションでアクションを実行し、コンテンツと対話するためのドメイン固有の言語)に変換する。

 まず、自然言語のユーザー発話と関連する文書コンテキストを入力として受け取る。文書コンテキストは、ユーザー発話に関連する文書エンティティやコンテンツ、プロパティを含む軽量なJSONツリーデータ構造としてエンコードされる。

 次に、分析-検索法(Analysis-Retrieval Method、ARM)を用いて、ユーザーの発話と文書コンテキストを条件とするプロンプトを生成する。このプロンプトはLLMに供給され、ODSLでユーザーの発話のプログラム表現を生成する。

 ODSLインタープリタは、ODSLプログラムを抽象構文木(AST)で解析し、プログラムを検証してエラーを特定するための解析を実行する。ASTは次にコード修正レイヤーを通過し、ドメイン固有の知識を活用して、プログラムのバグを自動的に修正する。最後に、インタープリタがODSL ASTをネイティブアプリケーションAPI(Office-JS2など)で書かれたプログラムに変換し、アプリケーションによって実行され、ユーザーの意図を満たす。

ユーザーの発話 “Make text look formal” に対して、ODSLプログラムを合成するLLMプロンプトの例

 提案手法を評価するため、PowerPointで表現できるシナリオ(プレゼンテーションの作成、新しいスライドの追加、テキストコンテンツの挿入、既存コンテンツの修正・書き換え、画像の挿入、文書内のエンティティのフォーマットなど)を対象とした197のテストケースを評価セットとして作成した。

 実験では、OpenAIのGPT-3.5モデルファミリーのtext-davinci-003モデルを使用する。結果、ユーザー発話からPowerPointの制御が行えることを実証し、その有効性を示した。

Source and Image Credits: Gandhi, Apurva, Thong Q. Nguyen, Huitian Jiao, Robert Steen, and Ameya Bhatawdekar. “Natural Language Commanding via Program Synthesis.” arXiv preprint arXiv:2306.03460(2023).



Copyright © ITmedia, Inc. All Rights Reserved.