Cortanaはテキスト入力と音声入力の2つの対話型インタフェースが用意されており、いずれを通しても質問結果が得られる。ただし、後述のディクテーションエンジンを利用する関係上、音声入力ではインターネット接続を要求されるほか、テキストへのフレーズ変換までラグがあるため、より素早く正確なフレーズ入力と検索を必要とする場合はテキスト入力がおすすめだ。
テキスト入力はタスクバーにある検索窓(「何でも質問してください」)の部分をクリックして入力を開始するか、「Windows」+「S」キーのショートカットでCortanaが起動してテキスト入力が可能になる。
Cortanaではテキストを入力しているとリアルタイムで検索候補一覧が表示され、「天気予報」など特定の事象についてはすぐに結果を表示するようになっている。このテキスト入力ではWeb検索だけでなく、Windows 10にインストール済みのアプリを呼び出せたりと、Windowsが持つ基本的な検索機能の全ての入口になっている。
もしCortanaがすぐに反応できない項目であったり、アプリなどで該当する項目がない場合は、Web検索の扱いとなり、Webブラウザが開いてテキスト入力で確定されたフレーズでのWeb検索が行われる。
一応、Cortanaとの雑談も可能となっているが、まだ対応可能なフレーズの数は極めて限られており、現在は「おはようございます」「こんばんは」といったあいさつ程度しか反応できない(中国語版の小娜では歌ったりもするようだが……)。もしCortanaが反応可能なフレーズの場合、検索候補の表示が「チャットしましょう」になるので、それで判別できる。
次に音声入力インタフェースを試してみる。これまでタスクバー上で「WebとWindowsを検索」とだけ表示されていた検索窓が、Cortanaのセットアップが完了すると「何でも質問してください」という表示に変化し、さらに検索窓右側にマイク状のアイコンが付与されるようになる。
このマイクアイコンをクリックすると音声入力モードへと移行する。初回時でマイクのセットアップが行われていない場合、セットアップ用のアプリが起動して最適化が行われる。筆者が利用している「Surface Pro」の場合、マイクこそ内蔵しているものの指向性がないタイプのものであるためか、周囲の環境や雑音によってはCortanaが音声を正確に聴き取れない可能性があると警告される。
基本的には人の少ない静かな場所で利用するとして、指定されたフレーズを一通り読み上げると最適化が行われて、マイクのセットアップが完了する。
音声入力インタフェースはマイクアイコンのクリックで呼び出せるほか、「Windows」+「C」のショートカットで音声入力モードに移行することもできる。このショートカットはWindows 8/8.1で「チャーム(Charm)」を呼び出すためのコマンドであり、それがチャームの廃止とともにCortanaに乗っ取られた形だ。
音声入力では「ディクテーション(Dictation)」という仕組みを用い、入力された音声データをいったんクラウド上のMicrosoftサービスに送信してテキスト変換を行う。これをさらに構文解釈可能な形で変換し、Cortana内部で処理を行ったり、あるいは適切なアプリ(もしくはWebブラウザ)にフレーズを引き渡して処理を引き継ぐ仕組みとなっている。
この辺りの「フォアグラウンド」と「バックグラウンド」処理の流れについては過去の連載で既に解説しているので参照してほしい。
基本的にテキスト入力と音声入力で処理される内容は一緒だが、1つだけ大きな違いがある。それは、テキスト入力では入力内容を確定するまで処理が開始されない(アプリへの引き継ぎが行われない)のに対し、音声入力では一定時間内に入力された音声がディクテーションを通じて「1つのフレーズとして解釈された」時点で処理が開始される。つまり、音声入力をしているそばから次々と検索結果が表示されるようになる。
これが最も大きいのは「Web検索」の場面で、例えばCortanaに天気やスケジュールの確認をしようとして音声で話しかけたところ、ディクテーションで(ユーザーが意図した)正しいフレーズが入力されなかった場合、Web検索と解釈されて別ウィンドウでWebブラウザが開き、そのフレーズそのままの形でWeb検索したページが表示されてしまう。
本来は「バックグラウンド処理」としてCortanaの作業ウィンドウ(「キャンバス」という)内で結果を知りたいのに、音声入力が誤判定される度に別途Webブラウザがポップアップしてフォーカスが移動してしまう。正直これは結構うっとうしい。
Copyright © ITmedia, Inc. All Rights Reserved.