久しぶりにChatGPTを開いたら「GPT-4o」というモードを発見し、何が違うのか分からず戸惑っている──という方も少なからずいることだろう。そこで本稿では、このGPT-4oについてあらためて概要をチェックし、一般ユーザー視点での使い勝手についてもおさらいしたい。
GPT-4oとは、5月にOpenAIが発表したAIモデルのことだ。読み方は「ジーピーティーフォーオムニ」(あるいは「ジーピーティーフォーオー」)だ。
この「omni(オムニ)」とは、一般に「全ての」を意味する接頭辞として使われるもの。従来の「GPT-4」と比べると、GPT-4oは処理速度がさらに速くなった他、日本語での生成がより自然になっている。
一応、同バージョンでは、omni(全ての)を冠する通り、よりマルチモーダルな入出力に対応を果たしているとされている。例えば、過去の変化を振り返ると、GPT-3では文章の指示から文章の出力のみが可能だったが、GPT-4では画像生成モデルのDALL・E3などを使って文章から画像を生成したりといった処理が可能になったといった違いがあった。
そして、新しいGPT-4oを選択した状態では、さらに音声から文章を生成するといった変化があり、さらにマルチモーダルな活用が期待できると説明されている。
しかし、現時点ではGPT-4oを選択しただけではマルチモーダルなメリットはさほど感じられない。これは、例えば「音声モード」は限定α版として一部のユーザーのみにテスト提供されている段階であり、大部分のユーザーはまだそれを利用できないからだ。もちろん、将来的に対応するマルチモーダルなユースケースは増えてくると思われるので、今後の機能アップデート等には注視しておく必要があるだろう。
まとめると、現状ではGPT-4oを選んだところで、大部分のユーザーにとっては、生成のレスポンスが速くなり、生成される日本語も少し自然に感じられる──くらいの差しかない。
GPT-4oを使う条件について、現状はGPT-4oを無料アカウントでも利用できる。ただし、無料アカウントと有料のChatGPT Plus(月20米ドル)を契約した状態のアカウントでは、一定時間内に使用できる上限回数に差が設けられているようだ。
上限回数を気にせずにガンガン試したい場合には、有料プランを購読するメリットはあるが、多くのユーザーは無料プランで済んでしまうだろう。
また、無料アカウントでGPT-4oを選んだ状態でも、画像生成モデルのDALL・E3を使った画像生成などは利用できないままである。これらも有料プランを購読した際のメリットとして残っているので理解しておこう。
Copyright © ITmedia, Inc. All Rights Reserved.