NTT Com、RAG向けデータ構造化技術のパブリックβ版公開

NTTコミュニケーションズは非構造化データを活用するためのデータ構造化技術「rokadoc」のパブリックβ版を公開した。この技術はAIの活用に必要な構造化データを生成し、企業内ナレッジ検索の精度を向上させる。

» 2025年02月25日 10時00分 公開
[後藤大地有限会社オングス]

この記事は会員限定です。会員登録すると全てご覧いただけます。

 NTTコミュニケーションズ(NTT Com)は2025年2月19日、データ構造化技術「rokadoc」のパブリックβ版の提供を開始した。ドキュメント構造化機能を試用できる。

 近年、企業で生成AIを活用する機会が増えているが多くの企業が保有するデータはPDFやHTML、画像、文書ファイルなどの非構造化データであるため、AIが正しく理解できず、期待する検索精度や回答精度が得られないという課題がある。

 NTT Comはこうした課題を解決するためにrokadocを開発。rokadocは図表を含む非構造化データを高精度なタグ付きテキストデータに変換する技術を提供しており、活用することでシステムや製品のマニュアルをもとに回答するチャットbotや生成AIを使った企業内ナレッジ検索時の回答精度向上に貢献する。

 rokadocは非構造化データを生成AIに適した構造化データに変換する。さまざまなドキュメントのファイル形式(Word、PowerPoint、Excel、PDF)に対応しており、変換したテキストは任意の生成AIやRAGとの併用が可能とされている。

 rokadocの主な特徴は次の通りだ。

  • 画像情報をテキスト形式に変換: 独自のレイアウト解析技術により、テキストや画像を高精度に区分けし、画像から説明文(キャプション)を生成する
  • 複雑な表構造にも対応: けい線や結合セルの有無など、さまざまな表構造を正しく認識し、構造化されたテキストとして出力する
  • RAGと併用可能: rokadocをRAGの検索に適用することで類似技術に比べて高い検索精度を実現する

 rokadocのパブリックβ版はNTT Comの専用ページからユーザー登録すれば無料で利用できる。NTT Comはパブリックβ版を通じて顧客のフィードバックを収集しながらrokadocの精度向上を図るとともに、本格的なサービス提供に向けた準備を進める。またパートナー企業との連携により、データ加工技術やデータマネジメント基盤を含む統合ソリューションの提供を2025年度から開始し、企業のデータ活用を支援する方針だ。

Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ

注目のテーマ

あなたにおすすめの記事PR