第2回:AIを使うほど、チェックできなくなる 「監督のパラドックス」が示す危機
第3回:そのExcel、AIには読めていない 今回はこちら
第4回:採用AIという「見えない裁判官」 その判定に理由はあるのか
2020年、国際的な遺伝子命名委員会は屈辱的な決断を迫られた。研究者たちが何十年もかけて命名してきた遺伝子の名称を、変更するというのだ。原因はExcelである。
「MARCH1」「SEPT1」といった遺伝子名を、Excelが自動的に「3月1日」「9月1日」という日付に変換してしまう。科学論文のデータが静かに壊れ続けてきた事実が明るみに出たとき、委員会が選んだ解決策は、ソフトウェアへの抗議ではなく、遺伝子の名前を変えることだった。
この問題の根は深い。Excelの自動変換が誤りを生んだのは、データが人間の視覚的な解釈を前提に設計されていたからだ。企業のスプレッドシートも同じ構造を持つ。セル結合は「一目で分かる」ために使われるが、AIには欠損データに見える。
色で優先度を示す方法は人間には直感的だが、AIには認識できない。「同上」や「〃」(ノノ字点)の場合、機械には上の行との関係を読み取れない。人間向けの書き方の作法が、そのままAIへの障壁になっている。
人間の利便性のために設計されたツールが、機械処理において誤りを生む。この構図に、AIとデータの関係は重なる。
初期のLLM(大規模言語モデル)は、一度に処理できる文章量(コンテキストウィンドウ)が数千トークンに限られていた。企業の社内文書をそのまま渡すには容量があまりに不足していたため、RAG(検索拡張生成)という手法が生まれた。
膨大なデータを細かく分割してデータベースに格納し、質問に関連する箇所だけをAIに渡す――。図書館でいえば、本を開く前に索引を引く方式だ。コンテキストウィンドウの制約に対する合理的な解決策だった。
そこへ、別の回答が出現した。コンテキストウィンドウそのものを桁違いに広げるアプローチだ。100万トークンや200万トークンという大容量モデルは以前から存在していたが、実用上の問題があった。コンテキストウィンドウの中盤に埋もれた情報の精度が著しく低下する「コンテキスト汚染」と呼ばれる現象だ。
3万円払っても欲しい? ATMでは使えないのに人気沸騰のメタルカード
IT人材は東京のどこに住んでいる? 首都圏の“知られざるテックエリア”を地図で見る
“お得自慢”がステータスになった? 100万人が選んだ「dカード PLATINUM」の裏側
年会費9万9000円で「買えないものを買う」 どういうこと? 富裕層カードの知られざる世界Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR注目記事ランキング