自治体DX最前線

【事例紹介】ChatGPTで画像生成、自治体業務にも効果大 職員向けに活用法を徹底解説(3/3 ページ)

» 2025年04月18日 07時00分 公開
[川口弘行ITmedia]
前のページへ 1|2|3       

生成画像内の文字修正と再生成テクニック

 AIが生成する画像には文字(テキスト)を含めることもできます。以前の画像生成機能は文字描写が大の苦手で、日本語は特に意味不明な文字列になりがちでした。

 しかし最新のChatGPTでは、日本語の看板や標識の文字もかなり正確に描画できるようになっています。

 例えば「猫カフェの店先に『にゃんこ食堂』と書かれた看板がある写真を生成して」とプロンプトに書けば、下図のように日本語テキストもはっきり読める画像が得られます。実際、以前では困難だった日本語の看板表現が、現在では自然な筆文字風に再現されています。

「にゃんこ食堂」の店頭を写した写真風画像の例(ChatGPTの生成結果)

 それでも場合によっては、生成直後の画像に含まれる文字が不完全だったり誤字が生じたりすることがあります。

 また「やはり別の文言に差し替えたい」というニーズも出てくるでしょう。その際に役立つのが画像の再生成・部分修正の機能です。ChatGPT上で生成した画像は、そのまま続けて追加指示を与えることで修正できます。

再プロンプトによる修正:

 一番簡単なのは、チャットで生成画像に対し追加の文章指示を出す方法です。

 「この画像の文字を○○に変更して」と入力すれば、ChatGPTが先ほどと同じ構図でテキスト部分だけ差し替えた新しい画像を提示してくれます。他にも「もう少し明るい配色にして」「人物の表情を笑顔にして」といった細かな要望にも応じて再描画されます。

選択ツールによる部分編集:

 ChatGPTの画像にはインペインティング(塗り直し)機能も用意されています。

 生成画像をクリックすると拡大表示され、右上に「選択」ボタンが現れます。そこからマウスで修正したい箇所(看板の文字部分など)を塗りつぶし、入力欄に新しい指示(例:「看板の店名を△△に変えて」)を与えることで、指定部分のみを書き換えた画像が再出力されます。このピンポイント編集は非常に強力で、背景を別の風景に差し替える、ポスター中の年月日を書き直す、人物の服装を変更するなど、細部の調整が直感的にできます。

再生成(リロール):

 元のプロンプトを少し修正してもう一度最初から画像を生成し直す方法です。

  文字が乱れた場合、プロンプト内で「『〇〇』という文字をはっきり描いて」と強調したり、英数字で書くとうまくいくこともあります。違う表現に言い換える・不要ワードを削るなど微調整して再度依頼すると、より満足度の高い結果が得られる場合があります。

 先ほどの「にゃんこ食堂」の看板に、

「にゃんこ」の文字を中央揃えにして。

"NYANKO SHOKUDOU" の文字を "NECO NECO CAFE" にして。

と指示したところ、修正することができました。

「にゃんこ食堂」の看板を修正(ChatGPTの生成結果)

 なお現時点では、「新たに文字を追加する」ことは苦手です。完全に白紙の看板に後から文章を入れようとしてもうまくいかないケースがあります。

 一方で「既にある文字を書き換える」ことは得意で、前述のように店名やタイトルの変更は成功率が高いです。したがって、初めから入れたい文字が決まっている場合はプロンプト段階で記載しておくのがコツです(例:「黒板に『災害用伝言板』と書かれた掲示を描いて」)。

 その上で、どうしても不足分を後から足したい場合は、生成画像をダウンロードして人手で追記するか、別途画像編集ソフトと併用するとよいでしょう。

 ChatGPTの画像生成機能について概要と活用法を紹介しました。テキストで指示するだけで思い通りの画像が手に入る時代は、行政の現場にも確実に近付いています。職員の創意工夫次第で、広報物のクオリティー向上や業務効率化に大きく寄与するでしょう。

 ぜひ安全面に配慮しつつ、この新しいツールを試してみてください。きっと、企画会議でのアイデア出しや市民への情報発信が一段とスムーズになるはずです。

画像読み取り機能(マルチモーダル)について

 次回の布石として、少しだけ蛇足の記事を書き加えておきます。

 画像生成機能とは全く別の機能なのですが、ChatGPT 4oやGoogle Geminiなどの生成AIエンジンは、マルチモーダル機能というものがあります。

 マルチモーダル機能とは文字だけでなく、音声や画像など、異なる種別のデータも一緒に処理することができる機能です。音声や画像を文字起こしして、文字として処理するのではなく、AIが直接的に目や耳の感覚を持ったようなイメージです。

 このマルチモーダルに対応しているAIは画像をそのまま読み取ることができます。

 例えば、前回記事に挿入したグラレコ風の画像を読み込ませて、

この図を説明して

と指示するだけで、画像に書かれていることを読み取り、そこから何が説明できるのかを回答してくれます。

画像読み取りの様子

 これが何に役に立つの? と思われた方は、次回の記事をお楽しみに。

前のページへ 1|2|3       

Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ

SaaS最新情報 by ITセレクトPR
あなたにおすすめの記事PR