Microsoft、文章でOfficeを操作する「Semantic Interpreter」発表 テキストからパワポ生成など:Innovative Tech
Microsoftに所属する研究者らは、ユーザーが入力したテキストを大規模言語モデル(LLM)で認識し、それらに応じてMicrosoft Officeを制御する手法を提案した研究報告を発表した。
Innovative Tech:
このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2
Microsoftに所属する研究者らが発表した論文「Natural Language Commanding via Program Synthesis」は、ユーザーが入力したテキストを大規模言語モデル(LLM)で認識し、それらに応じてMicrosoft Officeを制御する手法を提案した研究報告である。実験では、PowerPointに焦点を当て検証する。
この研究では、LLMの強力な能力を利用して、自然言語で表現したユーザーの意図を理解させ、この意図を満たす実行可能なプログラムを生成する「Semantic Interpreter」を提案する。
Semantic Interpreterは、自然言語によるユーザーの発話をODSLプログラム(Office Domain Specific Language、Officeアプリケーションでアクションを実行し、コンテンツと対話するためのドメイン固有の言語)に変換する。
まず、自然言語のユーザー発話と関連する文書コンテキストを入力として受け取る。文書コンテキストは、ユーザー発話に関連する文書エンティティやコンテンツ、プロパティを含む軽量なJSONツリーデータ構造としてエンコードされる。
次に、分析-検索法(Analysis-Retrieval Method、ARM)を用いて、ユーザーの発話と文書コンテキストを条件とするプロンプトを生成する。このプロンプトはLLMに供給され、ODSLでユーザーの発話のプログラム表現を生成する。
ODSLインタープリタは、ODSLプログラムを抽象構文木(AST)で解析し、プログラムを検証してエラーを特定するための解析を実行する。ASTは次にコード修正レイヤーを通過し、ドメイン固有の知識を活用して、プログラムのバグを自動的に修正する。最後に、インタープリタがODSL ASTをネイティブアプリケーションAPI(Office-JS2など)で書かれたプログラムに変換し、アプリケーションによって実行され、ユーザーの意図を満たす。
提案手法を評価するため、PowerPointで表現できるシナリオ(プレゼンテーションの作成、新しいスライドの追加、テキストコンテンツの挿入、既存コンテンツの修正・書き換え、画像の挿入、文書内のエンティティのフォーマットなど)を対象とした197のテストケースを評価セットとして作成した。
実験では、OpenAIのGPT-3.5モデルファミリーのtext-davinci-003モデルを使用する。結果、ユーザー発話からPowerPointの制御が行えることを実証し、その有効性を示した。
Source and Image Credits: Gandhi, Apurva, Thong Q. Nguyen, Huitian Jiao, Robert Steen, and Ameya Bhatawdekar. “Natural Language Commanding via Program Synthesis.” arXiv preprint arXiv:2306.03460(2023).
関連記事
- MicrosoftのActivision Blizzard買収、FTCが連邦地裁に仮差止命令申請
米連邦取引委員会(FTC)は、MicrosoftによるActivision Blizzard買収を差し止めるよう連邦地裁に申請した。この取引について、英当局は阻止、EUは承認している。 - Bingチャット デスクトップでも音声での会話が可能に 日本語にも対応
Microsoftのチャットbot「新しいBing」のデスクトップ版が、音声での質問に音声で答えるようになった。日本語も通じる。モバイルアプリでは既に可能だったことだ。 - さようならCortana──Copilot登場でMicrosoftがサポート終了へ
MicrosoftはWindowsでのCortanaのサポートを年内に終了する。Cortanaは2014年登場のパーソナルアシスタントだ。Microsoftは「新しいBing」や「Copilot」など、Cortanaに取って代わるアシスタント機能を追加している。 - OpenAIやDeepMindのCEOやトップ研究者ら、「AIによる人類絶滅リスク」警鐘声明に署名
著名なAI研究者、エンジニア、CEOらが「AIによる絶滅の危険性を軽減することを世界的優先事項にすべき」という声明に署名した。署名者にはヒントン博士、OpenAI、DeepMind、AnthropicのCEOなどがいる。Metaのルカン博士やマスク氏、MicrosoftやAmazon、IBMは署名していない。 - YouTuber向けカメラマンロボット 出演者の動きや話をAIで理解、最適なカメラワークを実行
カナダのトロント大学とシンガポールマネジメント大学に所属する研究者らは、出演者の動きや話の内容に応じて自律的に動くカメラマンロボットを提案した研究報告を発表した。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.