いざ「AIに見せる写真」として捉え、カメラを持って街に出てみると、実は日本にしかない景色というのは相当数ある。仲間で手分けして撮影に挑み、夢中でシャッターを押していると、一週間ほどで数千枚の画像が集まった。AIでありながら、欲しい結果を得るためには街にでなければならないという錯誤が面白いところだ。
これをNVIDIAの「A100チップ」搭載VGAボードを8枚搭載したコンピュータに学習させるわけだが、そのままではうまく学習できない。
まず、学習に先立って、全ての画像に対してBLIPというアルゴリズムでキャプションを自動生成する必要がある。これに独自のアルゴリズムを加えて効率的なキャプションを生成していく。
キャプションの自動生成に数時間かかり、生成されたキャプションに基づいてStableDiffusionを微調整(ファインチューニング)するのにさらに一日半ほどかけた結果、「救急車」でこのような画像が生成できるようになった。
これだと正直、まだ海外の救急車のイメージに引っ張られている。日本の救急車は基本的には「ハイエース」のような丸みを帯びたものだ。画像は、カラーリングは日本の白と赤の救急車に近づいているが、形は海外の角ばった救急車だ。
郵便局も、アメリカ式の青いイメージから赤いイメージへの転換に成功した。
自動販売機はかなりうまく行った。
駐車場もちゃんと日本風にコンバートできた。
ただ、このデータも筆者が在住する東京23区の中心部、特に千代田区と新宿区に偏っているという欠点がある。大阪でデータを撮ればおそらく大阪っぽい色が出るはずだ。例えば筆者の出身地である長岡市では、郵便局はビルではなく単独の建物だった。
AIはこのように学習したデータによるバイアスを非常に強く受ける傾向がある。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR