ITmedia NEWS > AI+ >
ITmedia AI+ AI活用のいまが分かる

1と0は遠くて、1と7は近い――AIは手書きの数字をどう認識している? “AIの頭の中”にある多次元データをのぞこう!遊んで学べる「Experiments with Google」(第16回)(2/3 ページ)

» 2022年08月20日 09時30分 公開
[佐藤信彦ITmedia]

 Visualizing High-Dimensional SpaceのWebアプリページを開いて、実際にコンテンツを触れる。これで多次元ベクトルを視覚化できるのは次の4項目だ。順番に見ていこう。

  1. 手書きされた数字の画像
  2. アヤメの各種計測データ
  3. 英単語
  4. 英語/日本語/韓国語の文章

AIは手書きの数字をどうやって認識している?

 1つ目の項目は、AIのデモンストレーションでよく使う手書き数字の識別だ。ここでは画像データセット「Modified National Institute of Standards and Technology」(MNIST)を使っている。0〜9の数字を手書きした画像と、書いた数字の正解データがセットになっている。

 各画像の大きさは28×28ピクセルだ。白い背景のキャンバスに数字を描いているので、各ピクセルは白から黒の色が付いている。その色は0〜255の値で表す。そして各画像の次元数は、28×28=784次元ベクトルの値で特定できる仕組みだ。

 この784次元あるデータセットをPCAで3次元化して配置し、数字ごとに色分けすると画面中央に数字が集まった状態になる。全体的に同じ色(=同じ数字)は近い場所に固まって存在している。AIは内部で、各数字の画像をこのように分類しているのだ。

photo AIは、手書きの数字をこのように分類している
photophoto 拡大すると、異なる数字が混在していると分かる

 「0」だけを赤くすると、0を示す画像の分布がはっきりする。0が集まっている領域を詳しく見ると、8や9、5などが紛れ込んでいることに気付いただろうか。このAIに手書き数字を画像認識させると、8や9を0と間違える可能性があると読み取れる。

photo 0を赤くしてみた。8や9など他の数字がちらほら混ざっている

 続いて1を赤くすると、1は0とは離れた集合体の反対側に集中していて、0の多い方向からはほとんど見えない。つまり0と1の関係は離れていて、このAIはあまり取り違えないだろうといえる。逆に7は1の近くにあるので、間違えやすいのだろうと予測できる。

photophoto 0の側から見ると、赤くした1は見えない(左)。1と7は近い位置にある(右)

 他の数字についても、それぞれの特徴が一目瞭然になる。例えば2と3は近いところに分布している上、境界も曖昧なので誤認識する可能性が高い。また4や6は広くまばらに分布しているため、うまく認識できなかったり、他の数字と誤認識したりするだろうと予想できる。

photo 2と3は近くにあって境界も曖昧だ
photo 4や6は散らばっていて、特徴をつかみにくい

花の種類を見分ける方法

 2つ目に使えるデータセットは、3種類のアヤメについて、花弁と萼(がく)それぞれの長さと幅を計測したデータ群「Iris Data Set」だ。こちらもAIのデモンストレーションでよく使われる。

 計測したデータは花弁の長さ「petal length」と幅「petal width」、がくの長さ「sepal length」と幅「sepal width」の4種類なので次元数は4だ。計測対象のアヤメは「setosa」「versicolour」「virginica」の3種類で、がくや花弁の情報から種類を判別するAIの開発に使えるデータだ。

 3次元化したデータをアヤメの種類で色分けしてプロットすると、赤色のversicolourとピンク色のvirginicaは近い位置にまとまって分布し、青色のsetosaは遠くに分布していた。ここから、setosaと他の2種類の区別は容易だが、versicolourとvirginicaは誤認識する可能性があると推測できる。

photo アヤメの種類で色分けした。青色(setosa)は区別しやすいが、赤色(versicolour)とピンク色(virginica)の境界は曖昧だ

 がくと花弁の各計測データだけで色分けすると、どのパターンでも色がきれいに分かれなかった。つまり、がくや花弁の長さや幅だけを測ってもアマメの種類を特定することは難しいのだ。複数のデータを組み合わせることで識別できるようになる。

photo がく片と花弁の長さと幅だけで色分けすると、混在してしまって分類できない(左上:がく片の長さ、右上:がく片の幅、左下:花弁の長さ、右下:花弁の幅)

Copyright © ITmedia, Inc. All Rights Reserved.