Visualizing High-Dimensional SpaceのWebアプリページを開いて、実際にコンテンツを触れる。これで多次元ベクトルを視覚化できるのは次の4項目だ。順番に見ていこう。
1つ目の項目は、AIのデモンストレーションでよく使う手書き数字の識別だ。ここでは画像データセット「Modified National Institute of Standards and Technology」(MNIST)を使っている。0〜9の数字を手書きした画像と、書いた数字の正解データがセットになっている。
各画像の大きさは28×28ピクセルだ。白い背景のキャンバスに数字を描いているので、各ピクセルは白から黒の色が付いている。その色は0〜255の値で表す。そして各画像の次元数は、28×28=784次元ベクトルの値で特定できる仕組みだ。
この784次元あるデータセットをPCAで3次元化して配置し、数字ごとに色分けすると画面中央に数字が集まった状態になる。全体的に同じ色(=同じ数字)は近い場所に固まって存在している。AIは内部で、各数字の画像をこのように分類しているのだ。
「0」だけを赤くすると、0を示す画像の分布がはっきりする。0が集まっている領域を詳しく見ると、8や9、5などが紛れ込んでいることに気付いただろうか。このAIに手書き数字を画像認識させると、8や9を0と間違える可能性があると読み取れる。
続いて1を赤くすると、1は0とは離れた集合体の反対側に集中していて、0の多い方向からはほとんど見えない。つまり0と1の関係は離れていて、このAIはあまり取り違えないだろうといえる。逆に7は1の近くにあるので、間違えやすいのだろうと予測できる。
他の数字についても、それぞれの特徴が一目瞭然になる。例えば2と3は近いところに分布している上、境界も曖昧なので誤認識する可能性が高い。また4や6は広くまばらに分布しているため、うまく認識できなかったり、他の数字と誤認識したりするだろうと予想できる。
2つ目に使えるデータセットは、3種類のアヤメについて、花弁と萼(がく)それぞれの長さと幅を計測したデータ群「Iris Data Set」だ。こちらもAIのデモンストレーションでよく使われる。
計測したデータは花弁の長さ「petal length」と幅「petal width」、がくの長さ「sepal length」と幅「sepal width」の4種類なので次元数は4だ。計測対象のアヤメは「setosa」「versicolour」「virginica」の3種類で、がくや花弁の情報から種類を判別するAIの開発に使えるデータだ。
3次元化したデータをアヤメの種類で色分けしてプロットすると、赤色のversicolourとピンク色のvirginicaは近い位置にまとまって分布し、青色のsetosaは遠くに分布していた。ここから、setosaと他の2種類の区別は容易だが、versicolourとvirginicaは誤認識する可能性があると推測できる。
がくと花弁の各計測データだけで色分けすると、どのパターンでも色がきれいに分かれなかった。つまり、がくや花弁の長さや幅だけを測ってもアマメの種類を特定することは難しいのだ。複数のデータを組み合わせることで識別できるようになる。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR