発表会では、まず日本SGI新規事業推進オペレーション統括の大塚寛さんが、その「新規事業推進」というのはなにかということから話をはじめた。要するに、SGIのなかでもいわゆる“コンピュータ”っぽくない事業であり、例えばロボットの「POSY」だったり、レスキューロボットだったり、あるいはゼンリンと組んでの3Dマップだったりするものだ。そしてその中の一つにSTもあるというわけ。

　続いて大塚さんは、AGIの光吉俊二社長の「人となり」を紹介する（*1）。

　それによれば光吉さんはもともと彫刻家だったのだ（例えば、このページを参照）。その彼が、自分の作品を発表するためにパソコンというものに接した。そしてキーボードとマウスをいじって「なんだこの使いにくいものは」といってしまう。

　それでも、ちゃんと使えるようになって、こんどは3Dソフトで粘土細工みたいなことをしようとしたとき、また「なんだこりゃ」になっちゃう。かゆいところに手が届かないようなもどかしさがあったらしい。

　そこで、声で制御できるようにならないのかって考える（ここで、マウスじゃない“粘土細工デバイス”を作るってほうには行かなかったのだ）。最初はしゃべった言葉の「単語」を認識するという音声認識を試してみる。でも、これには限界がある。

　ここで、いよいよ光吉俊二社長登場。

　音声認識をするためには認識のデーターベースである「辞書」が必要だ。でも、その辞書にない言葉は絶対に認識できない。かといって、辞書を大きくすれば、今度はマッチングに膨大な時間がかかるようになる。

　光吉さんは、ここで音声認識を見限っちゃった（*2）。もっと違う方法でやろうと考える。

　そこで目をつけたのがことばの「リズム」である（ここで言う「リズム」はドラムで刻むようなものだけではなく、イントネーションを含んだ概念のようだ）。

　人間が発する言葉は、まず音声であり、そこにはリズムがあり、受け手はそれによって大きな情報を得ている。例えば同じ「ばかやろう」だって、リズムによって、罵声から愛の言葉までいろいろな「感情」を感じられる。リズムによって感情を理解しているからだ。これをコンピュータにやらせようというのがSTだ。

　STでの感情認識は、辞書とマッチングを取るようなものではない。膨大な（どこからとってきたのか、どのくらいの量なのかは教えてくれなかった）サンプルをもとに、リズムから感情を検出する関数を探し出したのだ。この関数に音声信号を入れれば、出力として認識された感情が出てくるというわけ。