“画像の面白さ”を解説できるAI「MiniGPT-4」　写真からラップや詩、料理レシピ作成　デモサイトも公開中：Innovative Tech（2/2 ページ）

サウジアラビアのキング・アブドゥッラー科学技術大学に所属する研究者らは、画像の視覚的特徴を捉えて大規模言語モデル（LLM）で高品質な言語出力を行うシステムを提案した研究報告を発表した。

[山下裕毅，ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

前のページへ | 　　　　　　

「MiniGPT-4」の出力例

ライブデモの例

画像の詳細を説明してもらっている例

「この画像は現実世界でもよくあることなのか？」などと質問している例

「この画像の植物は何が問題なのか？」などと質問した例

なぜこの画像が面白いかを教えてもらっている例

画像をもとに物語文を生成している例

画像に対しての広告を生成している例

画像内の人は誰なのかを聞いている例

この絵画の詳細を教えてもらっている例

画像を参考にWebサイトを構築するためのHTMLとCSS、JSを記述している例

Source and Image Credits: Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, and Mohamed Elhoseiny. MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models

関連情報

前のページへ | 　　　　　　

一覧ページへ生成AIのビジネスユースケース一覧を見る

「GPT-4」発表　日本語でもChatGPT英語版より高性能、司法試験で上位10％、「この画像何が面白いの？」にも回答
大規模言語モデル「GPT-4」が登場。テキストでのやり取りだけでなく、ユーザーから画像も受け取れるようになった。司法試験の模擬問題を解かせると上位10％のスコアで合格する。ChatGPTの有料版やAPI経由でこれから利用可能になる。
「GPT-4」で何ができる？　ラフからWebサイトを瞬間生成、税務計算もラクラク──OpenAIがライブデモ
米OpenAIが3月14日（現地時間）に公開した、次世代の大規模自然言語モデル「GPT-4」。「ChatGPT」で利用されている「GPT-3.5」から推論性能が大幅に引き上げられているが、一体何ができるのか。OpenAIがライブデモを実施した。
非エンジニアだけどGPT-4でアプリ作ってみた　経験ゼロでも欲しい機能ができちゃった
IT業界を騒がせる次世代大規模言語モデル「GPT-4」。非エンジニアの記者でも、GPT-4を使えば悩み事を解決するアプリができてしまった。
GPT-4以上？　自分で何度も“推敲”し完成度を上げる言語生成AI「Self-Refine」
米カーネギーメロン大学などの研究者らは、大規模言語モデル（LLM）が、より高品質な出力を生成するために、反復的な改良と自己評価を利用することを可能にする新しいフレームワークを提案した研究報告を発表した。
冷蔵庫の中身から料理レシピを考えてくれるAI　ChatGPTを利用　米国チームが開発
米PeopleTecに所属する研究者らは、冷蔵庫の中を撮影した画像から、大規模言語モデル（LLM）がその内容で作れる料理レシピを考えてテキストで出力してくれる機械学習モデルを提案した研究報告を発表した。

“画像の面白さ”を解説できるAI「MiniGPT-4」　写真からラップや詩、料理レシピ作成　デモサイトも公開中：Innovative Tech（2/2 ページ）

「MiniGPT-4」の出力例

関連記事

関連リンク

“画像の面白さ”を解説できるAI「MiniGPT-4」 写真からラップや詩、料理レシピ作成 デモサイトも公開中：Innovative Tech（2/2 ページ）

「MiniGPT-4」の出力例

関連記事

関連リンク

“画像の面白さ”を解説できるAI「MiniGPT-4」　写真からラップや詩、料理レシピ作成　デモサイトも公開中：Innovative Tech（2/2 ページ）