1と0は遠くて、1と7は近い――AIは手書きの数字をどう認識している？　“AIの頭の中”にある多次元データをのぞこう！：遊んで学べる「Experiments with Google」（第16回）（1/3 ページ）

» 2022年08月20日 09時30分公開

[佐藤信彦，ITmedia]

　「Experiments with Google」は、Googleが人工知能（AI）や拡張現実（AR）といった最新技術の可能性を示すために、実験的な応用例を紹介するショーケースだ。膨大なコンテンツを公開しており、その多くはスマートフォンやPCで試せる。

　この連載では、多種多様な応用例の中から興味深いものをピックアップ。実際に遊んだ体験レポートを通して、裏側にあるテクノロジーや、技術の活用方法とその目的を解説する。

　読者の皆さんも、ぜひ自分の手で試しながらその仕組みを学んでもらえたらうれしい。きっと、最新技術の魅力に気付くはずだ。

「AI」って何がどうなっているの？

　これまで連載ではAIを使ったコンテンツを多数紹介してきた。その記事では「AI」と一言で済ませてきたが、そもそもAIとは具体的にどのような技術なのだろうか。

　Experiments with Google内で取り上げられているAIは、ニューラルネットワークという技術をベースにした機械学習アルゴリズムや、それをさらに発展させた深層学習アルゴリズムを指す。

　とはいえこれでは説明になっていない。機械学習アルゴリズムは、なぜ文字や画像を認識できるのか。その原理を理解するには、数学やプログラミングの知識が欠かせない。しかしそうした知識を持っていない人もいる。

　そこで連載16回目の今回は、AIが文字や画像といった情報をどう扱っているか簡単に把握できるコンテンツを紹介する。それがAIの内部データを視覚化する「Visualizing High-Dimensional Space」だ。これで内部データの概念、いわば“AIの頭の中”を知っておくと、AIの動作を理解しやすくなる。

AIの頭の中をのぞいてみよう（出典：Google）

人間の理解が及ばない、AIが情報を表現する次元数

　人間は、周囲の世界を縦、横、高さという3次元空間で捉えている。そしてその空間にある物体の位置関係を3次元ベクトルで受け止め、距離やサイズを判断する。音声や文字といった情報もこれに付随する形で扱っている。

　これに対してAIは、処理対象の画像や単語、音声などの情報を「多次元ベクトル」化して処理する。例えば「cat」「pet」といった単語を内部的に表現するため、特定の計算でcatの多次元ベクトル値、petの多次元ベクトル値をそれぞれ求める。その値を基に両ベクトルの関係を調べ、catとpetの意味的な近さを解析したり、他の単語と比べたりする。

　AIが情報を多次元ベクトル化する際の次元数は、数百～数千次元にも及ぶこともある。3次元で物事を捉える人間には、想像できない高次元だ。この仕組を説明しようにも、紙に絵を描くのすら難しい。

多次元ベクトルを3次元へ変換

　今回紹介するVisualizing High-Dimensional Spaceは、AI内部の多次元ベクトルを3次元化し、さらに好きな方向から眺められるCGデータに加工するツールだ。多次元ベクトルのAI内部データを、横と縦の2次元しかないPCの画面内でうまく表示できるので、AIがデータをどのように表現しているか、人間にも理解できる。

　多次元ベクトルを表現するために次元数を減らす手法はいくつかあり、Visualizing High-Dimensional Spaceはその手法を切り替えられる。ここでは詳しく説明しないが「Uniform Manifold Approximation and Projection」（UMAP）、「t-distributed Stochastic Neighbor Embedding」（t-SNE）、「Principal Component Analysis」（PCA）の3種類から選んで、多次元ベクトルを3次元CG化できる。

　各手法には計算量の違いや、データの内容に適した次元削減量のバランスといった特徴がある。次ページで紹介する体験レビューでは、必要な計算量が少なくて扱いやすいPCAでAIの頭の内部をのぞいてみた。