NTT Com、RAG向けデータ構造化技術のパブリックβ版公開
NTTコミュニケーションズは非構造化データを活用するためのデータ構造化技術「rokadoc」のパブリックβ版を公開した。この技術はAIの活用に必要な構造化データを生成し、企業内ナレッジ検索の精度を向上させる。
NTTコミュニケーションズ(NTT Com)は2025年2月19日、データ構造化技術「rokadoc」のパブリックβ版の提供を開始した。ドキュメント構造化機能を試用できる。
近年、企業で生成AIを活用する機会が増えているが多くの企業が保有するデータはPDFやHTML、画像、文書ファイルなどの非構造化データであるため、AIが正しく理解できず、期待する検索精度や回答精度が得られないという課題がある。
NTT Comはこうした課題を解決するためにrokadocを開発。rokadocは図表を含む非構造化データを高精度なタグ付きテキストデータに変換する技術を提供しており、活用することでシステムや製品のマニュアルをもとに回答するチャットbotや生成AIを使った企業内ナレッジ検索時の回答精度向上に貢献する。
rokadocは非構造化データを生成AIに適した構造化データに変換する。さまざまなドキュメントのファイル形式(Word、PowerPoint、Excel、PDF)に対応しており、変換したテキストは任意の生成AIやRAGとの併用が可能とされている。
rokadocの主な特徴は次の通りだ。
- 画像情報をテキスト形式に変換: 独自のレイアウト解析技術により、テキストや画像を高精度に区分けし、画像から説明文(キャプション)を生成する
- 複雑な表構造にも対応: けい線や結合セルの有無など、さまざまな表構造を正しく認識し、構造化されたテキストとして出力する
- RAGと併用可能: rokadocをRAGの検索に適用することで類似技術に比べて高い検索精度を実現する
rokadocのパブリックβ版はNTT Comの専用ページからユーザー登録すれば無料で利用できる。NTT Comはパブリックβ版を通じて顧客のフィードバックを収集しながらrokadocの精度向上を図るとともに、本格的なサービス提供に向けた準備を進める。またパートナー企業との連携により、データ加工技術やデータマネジメント基盤を含む統合ソリューションの提供を2025年度から開始し、企業のデータ活用を支援する方針だ。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
NRIが「モダナイゼーションコンサル」開始 組織構築から支援
NRIがレガシーシステム問題を解決するモダナイゼーションコンサルティングサービスを開始する。エンタープライズアーキテクト組織の構築支援を盛り込んだ。
AI基盤構築を丸ごと支援するオファリング「NebulaShift ai」を発表、SCSK
SCSKはAI活用およびデータ統合向けのオファリング「NebulaShift ai」を発表した。AI活用インフラの設計、構築、運用を丸ごと支援するサービスだ。
Sakana AI スマホで動く小さくて高性能な日本語SLM「TinySwallow-1.5B」を公開
Sakana AIが日本語特化の小規模言語モデル「TinySwallow-1.5B」を公開した。独自の知識蒸留手法「TAID」を活用し、同規模の他モデルを上回る性能を発揮する。
GPUの計算力をリモートで提供 NTTらが共同実証実験
NTTら数社がGPUの計算能力をリモートで供給する実験をスタートさせる。AI創薬の分野で利用が進むGPUリソースを、高速通信を使って遠隔から供給することで、リソース調達の負担を低減させる狙いだ。