初心者でも分かる生成系AI入門:ChatGPTが開いた「AIブーム3.5」の扉(後編)(2/2 ページ)

» 2023年06月09日 17時00分 公開
[i4U]
前のページへ 1|2       

学習の偏りとバイアス

 もう1つの問題は、「人があまり語らないこと」は学習できないという点です。

 GPT-xに対して以前よく指摘された(最近ではすっかり解決されてしまっていますが)問題に、次のようなものがありました。

 「ビートルズのメンバーは誰?」という問いに対して、GPT-xはうまく答えられる。ところが「ジョン・レノンが属したグループ名は?」という問いにはうまく答えられない。これは、インターネット上にそのような表現が少ないためです。

 あまりに自明でインターネット上に書かれていないことや、レアな言い回し、超マイナーすぎるネタといったことについては学習できません。そのため、それを使って文章を作ったり、問いに答えたりすることができないのです。

 もっともTGAには、いくらでも追加で学習させることが可能です。「このカテゴリーの勉強が不足しているな」と分かったら、すぐに補強できるので、これはクリティカルな問題とはならないでしょう。

 先ほどのロシアとウクライナの戦争についても、今ではちゃんと答えられるかもしれません。ただし、いろいろな価値観によるバイアスがかかり、学習に偏りが出る可能性は指摘されています。

 特に顕著なのが経済的バイアスです。GPT-xは日本語より英語の方が有能です。開発会社が英語圏の会社であること、インターネット上にあるデータは日本語よりも英語の方がはるかに多いことが主な要因であると思いますが、マイナーな言語の学習のために計算資源を使うのは経済的に割が合わないので行わない可能性もあります。

 全世界80億人の中で、日本語を使う人は1億人程度です。英語、スペイン語、中国語を使う人に比べたら圧倒的に少ないわけで、そのようなマイナーな言語に対して開発コストを割くのは経済合理性の観点からすると「ないわー」という話になりかねないのです。

 DeepL(ドイツのDeepL GmbHが2017年に発表/提供を開始した高精度なAI翻訳サービス)で最近まで対ハングルの翻訳機能がなかったのも、ひょっとしたらそういう話者の人口的な理由があるからかもしれません。

2023年5月に開催されたMicrosoftの開発者向けイベント「Build 2023」では、「Windows Copilot」などAI尽くしの内容でした

 また、テキストを与えるとそれに応じた絵を生成してくれるText to Image AI(t2i)の世界でも日本を含むアジアを題材にした絵の生成があまり得意ではありません。

 ヨーロッパ風の絵は非常に精巧で、かつバリエーション豊かに描けるのに、アジアや日本風の絵は、まだまだ稚拙な出来栄えでバリエーションも少ないのです。これは描かれている漢字風の文字を見てみると一目瞭然。学習データの不足が原因ではないかと考えられますが、ここにもTGAと同様の経済的バイアスが理由としてあるのかもしれません。日本、アジアの絵がヘタといってもアニメ絵は得意なので、ますますそのように考えてしまいます。

 最後に、以上の考察は、強いエビデンスがあるわけではなく、長年AIと付き合ってきた筆者がここ最近のAIたちを見て生み出した、とある「妄想」であることをお伝えしておきます。

前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

2024年05月09日 更新
最新トピックスPR

過去記事カレンダー