1つ目の項目は、AIのデモンストレーションでよく使う手書き数字の識別だ。ここでは画像データセット「Modified National Institute of Standards and Technology」（MNIST）を使っている。0～9の数字を手書きした画像と、書いた数字の正解データがセットになっている。

　各画像の大きさは28×28ピクセルだ。白い背景のキャンバスに数字を描いているので、各ピクセルは白から黒の色が付いている。その色は0～255の値で表す。そして各画像の次元数は、28×28＝784次元ベクトルの値で特定できる仕組みだ。

　この784次元あるデータセットをPCAで3次元化して配置し、数字ごとに色分けすると画面中央に数字が集まった状態になる。全体的に同じ色（＝同じ数字）は近い場所に固まって存在している。AIは内部で、各数字の画像をこのように分類しているのだ。

AIは、手書きの数字をこのように分類している

拡大すると、異なる数字が混在していると分かる

　「0」だけを赤くすると、0を示す画像の分布がはっきりする。0が集まっている領域を詳しく見ると、8や9、5などが紛れ込んでいることに気付いただろうか。このAIに手書き数字を画像認識させると、8や9を0と間違える可能性があると読み取れる。

0を赤くしてみた。8や9など他の数字がちらほら混ざっている

　続いて1を赤くすると、1は0とは離れた集合体の反対側に集中していて、0の多い方向からはほとんど見えない。つまり0と1の関係は離れていて、このAIはあまり取り違えないだろうといえる。逆に7は1の近くにあるので、間違えやすいのだろうと予測できる。

0の側から見ると、赤くした1は見えない（左）。1と7は近い位置にある（右）

　他の数字についても、それぞれの特徴が一目瞭然になる。例えば2と3は近いところに分布している上、境界も曖昧なので誤認識する可能性が高い。また4や6は広くまばらに分布しているため、うまく認識できなかったり、他の数字と誤認識したりするだろうと予想できる。

2と3は近くにあって境界も曖昧だ

4や6は散らばっていて、特徴をつかみにくい

花の種類を見分ける方法

　2つ目に使えるデータセットは、3種類のアヤメについて、花弁と萼（がく）それぞれの長さと幅を計測したデータ群「Iris Data Set」だ。こちらもAIのデモンストレーションでよく使われる。

　計測したデータは花弁の長さ「petal length」と幅「petal width」、がくの長さ「sepal length」と幅「sepal width」の4種類なので次元数は4だ。計測対象のアヤメは「setosa」「versicolour」「virginica」の3種類で、がくや花弁の情報から種類を判別するAIの開発に使えるデータだ。

　3次元化したデータをアヤメの種類で色分けしてプロットすると、赤色のversicolourとピンク色のvirginicaは近い位置にまとまって分布し、青色のsetosaは遠くに分布していた。ここから、setosaと他の2種類の区別は容易だが、versicolourとvirginicaは誤認識する可能性があると推測できる。