そのExcel、AIには読めていない:集中連載「AIと人間の境界線」(1/2 ページ)
Excelの自動変換が遺伝子名を壊した事件は、人間向け設計の限界を示した。コンテキストが拡張しても、構造が崩れたデータはAIに読めない。問うべきは技術ではなく、文書設計そのものだ。
集中連載「AIと人間の境界線」:
第2回:AIを使うほど、チェックできなくなる 「監督のパラドックス」が示す危機
第3回:そのExcel、AIには読めていない 今回はこちら
第4回:採用AIという「見えない裁判官」 その判定に理由はあるのか
2020年、国際的な遺伝子命名委員会は屈辱的な決断を迫られた。研究者たちが何十年もかけて命名してきた遺伝子の名称を、変更するというのだ。原因はExcelである。
「MARCH1」「SEPT1」といった遺伝子名を、Excelが自動的に「3月1日」「9月1日」という日付に変換してしまう。科学論文のデータが静かに壊れ続けてきた事実が明るみに出たとき、委員会が選んだ解決策は、ソフトウェアへの抗議ではなく、遺伝子の名前を変えることだった。
この問題の根は深い。Excelの自動変換が誤りを生んだのは、データが人間の視覚的な解釈を前提に設計されていたからだ。企業のスプレッドシートも同じ構造を持つ。セル結合は「一目で分かる」ために使われるが、AIには欠損データに見える。
色で優先度を示す方法は人間には直感的だが、AIには認識できない。「同上」や「〃」(ノノ字点)の場合、機械には上の行との関係を読み取れない。人間向けの書き方の作法が、そのままAIへの障壁になっている。
人間の利便性のために設計されたツールが、機械処理において誤りを生む。この構図に、AIとデータの関係は重なる。
初期のLLM(大規模言語モデル)は、一度に処理できる文章量(コンテキストウィンドウ)が数千トークンに限られていた。企業の社内文書をそのまま渡すには容量があまりに不足していたため、RAG(検索拡張生成)という手法が生まれた。
膨大なデータを細かく分割してデータベースに格納し、質問に関連する箇所だけをAIに渡す――。図書館でいえば、本を開く前に索引を引く方式だ。コンテキストウィンドウの制約に対する合理的な解決策だった。
そこへ、別の回答が出現した。コンテキストウィンドウそのものを桁違いに広げるアプローチだ。100万トークンや200万トークンという大容量モデルは以前から存在していたが、実用上の問題があった。コンテキストウィンドウの中盤に埋もれた情報の精度が著しく低下する「コンテキスト汚染」と呼ばれる現象だ。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
3万円払っても欲しい? ATMでは使えないのに人気沸騰のメタルカード
JCBが2024年10月に発行した招待制カード「ザ・クラス」が注目を集めている。ATMでは利用できず、発行手数料も3万3000円と高額。それでも発行後わずか2カ月で想定を上回る申し込みがあるという。
IT人材は東京のどこに住んでいる? 首都圏の“知られざるテックエリア”を地図で見る
首都圏に集中するIT人材の居住傾向を可視化。中野や下北沢、五反田など、意外な“隠れたテックエリア”の分布や、若手エンジニアが選ぶ街の特徴をデータで読み解く。
“お得自慢”がステータスになった? 100万人が選んだ「dカード PLATINUM」の裏側
プラチナカードの価値は「ステータス」から「お得さ」へ――。dカード PLATINUMが100万会員を突破した背景には、還元率を誇る価値観の変化があった。コンシェルジュを捨て、実利に振り切った設計思想を追う。
年会費9万9000円で「買えないものを買う」 どういうこと? 富裕層カードの知られざる世界
富裕層向け最上位カード「Visa Infinite」が打ち出すのは、“買えない体験”を商品化する戦略だ。限定イベントや特別サービスを通じ、アクセスそのものに価値を持たせる仕組みを読み解き、ポイント経済圏の新たな潮流を追う。
