検索
連載

「生成AIの出力は直しにくい」をどう克服? Canvaが仕掛ける“編集できる画像生成AI”の衝撃本田雅一のクロスオーバーデジタル(1/3 ページ)

Canvaが、自社の生成AIの新バージョン「Canva AI 2.0」を発表した。そのプレス向け技術でもを通して、同社が意図する「ゲームチェンジ」を解説する。

Share
Tweet
LINE
Hatena

 画像生成AIがユーザーの要求を100%満たすことは、現実的に難しい。プロンプトをどれだけ工夫しても、満足できるのは70〜80%までだろう。残りを手で直そうとしても、編集しにくい“完成画像”として返ってきてしまうと、文字を数mmずらすことも、色を一段階変えることもできない。

 この制約に対するCanva(キャンバ)の答えは、「AIの完成度をさらに上げる」ではなく、「編集可能性を出力の前提とする」だった。

 4月16日にSoFiスタジアム(米カリフォルニア州ロサンゼルス)で発表された「Canva AI 2.0」は多様な機能を持つが、その中核にあるのが編集可能な成果物を生み出すことだ。

 発表の前日、Canvaはメディア向けの「プレスデー」で技術デモを行い、同社のAI部門の責任者らへ取材する機会を用意した。今回はプレスデーで見聞きした内容を元AI部門の責任者に、派手なUI機能刷新の裏側で進んでいる「ゲームチェンジ」の意図を解説する。

Canva AI 2.0
Canvaが「Canva AI 2.0」をリリースした

あえて「フラット」ではない画像を出力するAIモデル

 Canvaが自社開発した画像生成モデルの最大の特徴は、出力される画像が「フラットではない」点にある。言い換えれば、複数のレイヤーに分けて出力することが他社のモデルとの大きな差別化要素だ。

 一般的な拡散モデルやLLM(大規模言語モデル)ベースの画像生成では、「ピクセルの集合体」として完成画像を出力するようになっている。それに対して、Canvaのモデルは「テキスト」「画像」「装飾」「グラフィックス」といった要素を、それぞれ独立したオブジェクトとして生成し、レイヤーに分けて出力する。そのため、生成結果をエディタ内で個別に選択/編集/差し替えできるようになっている。

 これを実現するには、訓練データそのものが構造化されたデザイン履歴である必要があるが、実はこれこそがCanvaの強みだ。

 Canvaは13年間、ブラウザ上でデザインを作るプラットフォームとして稼働してきた。累計47億のテンプレートデザインの多くが多種/多数のレイヤーで構成されており、「どのオブジェクトがどう配置されて、デザインニュアンスを生み出してきたか?」といった構造情報を保持している。

 汎用(はんよう)的な画像データではなく、コンポーネントに分解されたデザインデータを膨大に持っていたことが、ライバルが簡単に追従できない強みとなっている。

Canvaの歴史
Canva自体は2013年からサービスを展開している。約13年に渡るデータの蓄積が、Canva AI 2.0の強みにつながっている

 生成AIはいろいろな成果物のドラフトを作ってくれるが、それを自分の手で直して仕上げる作業を毎日のように繰り返している人もいるだろう。その中で実感するのは、AIの出力を編集したいという“欲求”だ。

 「会議資料にちょっと手を入れたい」「色味だけ整えたい」「グラフだけ差し替えたい」といった一般的な要求に、汎用画像生成AIはほとんど応えられない。「全部作り直す」か「妥協するか」の二択となってしまう。

 今後、AIが日常業務に入り、多種多様な文書を作成するようになると、誰にとっても重要な要素になっていくだろう。ここがCanvaの“狙い所”でもある。

 今のAI業界では、依然としてモデルの「規模」や「ベンチマーク性能」が競争の中心に置かれがちだ。しかし、競争軸は既に次の段階に移行しつつあるのではないだろうか。

 モデルを巨大化して完成度を積み上げても、完璧を求めることはできない。とりわけ、デザインの世界であれば、人間が介入できる構造を設計する方が、実用的な価値が高くなる。ある意味で、AIとの「協業の可能性」に開発の方向が分岐していくのは、AI業界全体の流れでもある。

 CanvaのAI研究チームを率いるスティーブン・コーヘン氏は、AIモデルの進化を「ピクセルからオブジェクトへ、そしてコンセプトへ」と表現する。2024年10月に彼らが開発し始めた第1世代の「Canva AI」は、背景画像とテキストを別レイヤーとして生成するところから始まった。

 複数のレイヤー/デザインで、モデルの訓練を進め、現在は要素の分離をさらに細かくしている。今後はテーブルやアラインドベクターグラフィックなど、より多く、より細かなオブジェクト構造単位へと分解しながら学習させていくという。

 加えて、ユーザーが生成結果を編集した場合に、その行為自体が次世代モデルの訓練データになる循環構造も作り上げている。編集可能なデータとして作られ、Web上で編集するプラットフォームのため、生成された画像がどのように使われ、編集され、公開され、印刷されたのかという一連の行動の“全て”が学習対象となる。

 同社が「リレーショナルヒストリー」と呼ぶこの行動データは、生成結果の良し悪しを判定する“教師信号”として機能する。生成画像が気に入られれば編集して公開され、気に入られなければ捨てられ、どこをどう直したかまで記録される。

 この情報は、汎用的なAI企業が持ちえない、Canva固有の資産といえる。

メモリー
Canva AI 2.0では、ユーザーがやり取りした履歴もAIの学習に活用している

Copyright © ITmedia, Inc. All Rights Reserved.

       | 次のページへ
ページトップに戻る