メディア

「マルチモーダルなAI」とは？　生成AI活用をレベルアップさせる利用術を紹介：「AIが卵より安くなる時代」に向けて

生成AIを業務で活用しようとしているけれども、なかなかうまくいかない――。そんなお悩みを抱える方に、筆者が今週お届けするのは「マルチモーダル」です。テキストだけでなく、画像や音声、動画など複数種類のデータを読み込ませることで、生成AIの活用はどのように「レベルアップ」するのでしょうか。

» 2023年11月29日 07時00分公開

[永田豊志，ITmedia]

この記事は会員限定です。会員登録すると全てご覧いただけます。

この連載について

AI（人工知能）を仕事で利用するのが当たり前になりつつあります。高価だったAIがコモディティ化して「卵よりも安く利用できる」近い将来、「副操縦席」に追いやられないために、われわれは何をすべきでしょうか。

AIをビジネスで生かすべく日々実践している永田豊志さんが、ビジネスパーソンの生産性向上に役立つ情報と、そこにとどまらない、将来を見据えた挑戦のためのヒントをお届けします。

※この連載のバックナンバーはこちら

　AI（人工知能）の活用において、重要なステップアップの一つが「マルチモーダル」です。「マルチモーダルとは何か」を理解するためには、人間の間で行われるコミュニケーションをイメージするとよいと思います。

「マルチモーダルAI」って何？　何ができるようになるの？

　われわれ人間がコミュニケーションする場合、電子メールのようなテキストのみよりも、チャットのようなテキスト＋絵文字、あるいはテキスト＋写真、テキスト＋映像＋音声の方がより細かなニュアンスが伝わりやすくなるでしょう。

　コンピューティングの世界でも、特に人工知能や機械学習においてテキストや画像、音声など複数のデータソースまたは入力タイプを統合して処理することで、より人間の判断に近い高い精度の理解や判断ができるようになると期待されています。これを「マルチモーダル」と呼びます。

　例えば対話型生成AI「ChatGPT」ではユーザーは基本的にテキストを入力し、レスポンスもテキストで得ます。これをテキスト以外の複数のデータを解析させることで、より人間に近い判断ができるようになるという考え方です。

　このマルチモーダルは有料版の「GPT‐4」で備わった「Advanced Data Analysis（Beta）」という機能で試せます。例えばPDFや「Microsoft Excel」（以下、Excel）などさまざまなデータをChatGPTに見せて、その内容を基に会話できるのです。

決算説明資料のPDFを分析してもらう

　今回はサイバーエージェントの決算説明資料（PDF）をダウンロードして、それを読み込ませます。その上で次のようなプロンプトを入れてみました。

　「これはサイバーエージェントという日本のネット広告代理業やメディア事業を行う企業の決算説明資料です。今回の決算のハイライトを箇条書きで100字以内にまとめてください」

　すると、ChatGPTが次のように反応します。

ファイルを確認し、決算のハイライトを100字以内でまとめるには、まず内容を読み取る必要があります。PDFファイルの内容を抽出して、その後で要約しましょう。少々お待ちください。

＜作業中＞

PDFファイルからテキストを抽出しましたが、内容が多岐にわたっています。ハイライトを100字以内でまとめるには、最も重要なポイントを抽出する必要があります。

テキストのこの部分から、以下のようなハイライトが見えます：

ABEMA関連の売上高が好調

「FIFA ワールドカップ」への大型投資にもかかわらず損失が改善

広告事業は市場成長を上回り、シェア拡大

メディア事業とゲーム事業は減収減益

26期連続での増収

　これに対して、次のような追加の質問を投げかけてみます。

　「ABEMA関連の売り上げが好調な理由や具体的にどのようなセグメントが伸びているのか教えてください」

　すると、

抽出したテキストの中からABEMA関連の売上高の好調な理由や、どのセグメントが伸びているのかを詳しく調べるために、文書の関連する部分をさらに読み込んでみましょう。

　という返答が返ってきます。

＜作業中＞

ABEMAの売り上げが好調である理由は以下のような点が挙げられます：

ABEMAは積極的な先行投資期にあります。

オリジナルコンテンツの品質向上に注力し、ABEMAを唯一無二のサービスにする戦略を展開しています。

ABEMAのコンテンツがNetflixランキングで上位に位置していることが挙げられています。

ABEMAを中心に事業展開を拡充し、収益化を強化する方針です。

ABEMAをいつでもどこでもつながる社会インフラとして位置付け、その実現を目指しています。

これらの情報は文書から抽出された部分的な内容です。各セグメントが具体的にどのように伸びているのかをさらに詳しく知りたい場合は、決算資料の該当する部分を詳細に分析する必要があります。もし詳細な分析をご希望であれば、その旨をお知らせください。

　このファイルでは、比較的正確な分析ができているようです。しかし、「財務分析をしてください」といった少し突っ込んだ質問を投げかけると、回答は得られませんでした。

　この理由は、PDFファイルに含まれている図表などが生成AIに正しく理解されなかったのではないかと思います。

　ちなみに、筆者が経営する会社の説明資料も読み込ませてみましたが、うまくいきませんでした。これはどうやら、テキストが抽出しづらい形式でPDFが作成されていることが原因のようです。

学習進捗（しんちょく）表のExcelをもとにウイークポイントを分析してもらう

　次に、PDFではなくExcelのファイルをChatGPTに読ませるパターンをご紹介しましょう。読み込ませるのは、先ほどのような企業の説明資料ではなく、ある生徒が算数の問題集を解いた結果を記したものです。

　Excelを読み込ませた後に、次のようなプロンプトを入れます。

　「この正誤表は、ある生徒の算数の問題集において、単元ごとに幾つかの問題を解かせて、その結果を日付とともに記載しているExcel表です。日付は"月／日"で記載され、正解は"○”"×”で記録されています。生徒は一度間違うと"○”になるまで何度も繰り返し解くこととし、間違った問題はその主な原因がミスの原因として記載されています。

　この表を基に、この生徒がどのようなミスをする傾向があるのか、どの問題を反復すべきかを分析できますか？」

　するとChatGPTからは、

「Excelの表のデータを分析して、どのようなミスをする傾向があるか、そしてどの問題を反復すべきかを把握するために、以下のステップを踏むことができます：

データの構造を理解する：　表にどのような情報が含まれているか、どのように整理されているかを確認する

データのクリーニング：　必要に応じて、不完全または不正確なデータを修正または削除する

エラーのパターン分析：　間違った問題の主な原因を分類し、どのタイプのエラーが最も頻繁に発生しているかを特定する

問題別の正答率の計算：　各問題の正答率を計算し、生徒が苦手としている分野を把握する

反復学習の推奨：　正答率が低い問題や頻繁にエラーが発生している問題を特定し、それらの問題に焦点を当てた反復学習を推奨する

　まずはアップロードされたExcelファイルを開いて、中のデータを確認しましょう。それから上記の分析を進めることができます。ファイルを開いてデータの概要を見てみましょう

　と返ってきました。

＜作業中＞

　データの最初の数行を確認したところ、以下の情報が含まれていることが分かります。

単元番号

問題種別

大項目番号

小項目番号

複数回の試行（1回目、2回目……）とそれぞれの正誤記録（"○"または"×"）

各試行の日付

ミスの原因

次に行うべきことは、以下のステップです：

各試行での正解と不正解の数を集計します。

ミスの原因をカテゴリ別に集計し、最も一般的なミスの原因を特定します。

反復すべき問題（最も間違えた問題や最も多くの異なる日に間違えた問題）を特定します。

これらの分析を行い、生徒のミスの傾向と反復すべき問題を特定しましょう。まずは各試行での正解と不正解の数を集計します。

＜作業中＞

正誤の集計結果は次のとおりです：

不正解（"×"）：　92回

正解（"〇"）：　34回

この結果から、不正解が正解よりも多いことがわかります。次に、ミスの原因をカテゴリ別に集計して、最も一般的なミスの原因を特定しましょう。

各試行での正解と不正解の数を集計します。

＜作業中＞

ミスの原因の集計結果は次のとおりです：

計算ミス：　9回

理解不足：　 8回

問題読み間違い：　5回

これにより、最も一般的なミスの原因は「計算ミス」であることが分かります。

次に、反復すべき問題を特定するために、各問題に対する正解と不正解の数を集計し、最も間違えた問題や最も多くの異なる日に間違えた問題を見つけましょう。

各試行での正解と不正解の数を集計します。

＜作業中＞

以下は、最も間違えた問題に関する集計結果です（単元、問題種別、大項目、小項目の順）：

単元 1, 基本, 大項目 3, 小項目 2: 不正解 6回, 正解 1回, 試行合計 7回

単元 1, 基本, 大項目 2, 小項目 2: 不正解 5回, 正解 1回, 試行合計 6回

単元 3, 基本, 大項目 4, 小項目 1: 不正解 5回, 正解 0回, 試行合計 5回

単元 6, 基本, 大項目 1, 小項目 7: 不正解 3回, 正解 3回, 試行合計 6回

単元 4, 基本, 大項目 1, 小項目 5: 不正解 3回, 正解 1回, 試行合計 4回

これらの問題は特に注意が必要で、生徒はこれらの問題を反復して練習することで理解とスキルを向上させられるでしょう。特に、まだ正解していない問題や不正解が多い問題に焦点を当てるとよいでしょう。

各試行での正解と不正解の数を集計します。

　このようにExelのファイルを直接読み込ませ、その項目やルールに関して詳細な情報を提供した上で分析させると、活用可能レベルの精度に高められると筆者は考えています。

　マルチモーダルでは、ファイルから必要なテキストやデータが抽出できる形式かどうか、レイアウトや表組みがシンプルで解析しやすい内容かどうかなどに気を配って活用する必要がありそうです。

　いろいろ注意点や工夫は必要なものの、複数のデータを統合してより精度の高い分析やインサイトを数秒で得られるメリットははかりしれないものがあります。

　今後、生成AIをCoPilot（副操縦士）として活用するときには、こうしたデータの整形やファイル形式などに注意しながら精度を高くする工夫を凝らすのも、AI活用時代における基本的なITリテラシーになるのかもしれませんね。

著者紹介　永田豊志（ながた・とよし）

知的生産研究家、起業家、上場企業の経営者。現在、DX支援クラウドを提供する株式会社ショーケース（東証3909）とリユースモバイル事業を運営する日本テレホン株式会社（東証9425）、2社の上場企業の経営者。

企業経営と並行し、新規ビジネス開発、働く人の生産性向上をライフワークとした執筆、講演活動などを行う。

自著に『知的生産力が劇的に高まる最強フレームワーク100』（ソフトバンククリエイティブ刊）、『頭がよくなる「図解思考」の技術』（中経出版刊）、『会社では教えてもらえない仕事がデキる人の資料作成のキホン』（すばる舎刊）がある。

著書一覧：https://www.amazon.co.jp/s?k=%E6%B0%B8%E7%94%B0%E8%B1%8A%E5%BF%97

連絡先： nagata@showcase-tv.com

Webサイト： www.showcase-tv.com、https://www.n-tel.co.jp

「アトムとドラえもんの国」におけるChatGPTの可能性
「AIに仕事を奪われるかもしれない」というテーマは古くて新しい。“AIに置き換えられる可能性が高い10の仕事”にラインアップされている調査アナリストである筆者は、ChatGPTについて何を語るのか。
ChatGPTの使い方は先進企業に学べ　パナソニックコネクトのAI活用戦略から探る
OpenAIの「ChatGPT」をベースにしたAIアシスタントサービス「ConnectAI」を開発し、社内の業務改革を推進するパナソニックコネクト。2023年9月には、AIが自社固有の情報を扱えるようにするための開発・検証作業を新たにスタートさせた。どのような追加開発をしているのだろうか。
ChatGPTに「人間の役割」を聞いてみた　AI大活用時代に“副操縦席”に追いやられないためにすべきこと
中だるみを感じる水曜日を乗り越えようとしている皆さまに向けて、今週は「AI大活用時代」に生き残る術を伝授します。筆者と一緒に考えるのは、最近ひっぱりだこの“あの方”です。果たしてどんな答えが返ってくるのでしょうか。
生成AIが従業員にもたらす「恩恵」とは？　ガートナーの予測を紹介
生成AIが企業や従業員にもたらすのはどのような「未来」か。企業が支払うコストやわれわれのキャリアアップにはどのような影響が出るのか。ガートナーが発表した10の予測から特に重要な3点を紹介する。