米Microsoftの研究チームが発表した「BitNet」、通称「1bit LLM」と呼ばれる論文が波紋を呼んでいる。これまで必須だと思われていたGPUが不要で、CPUでもLLMが動作することを示唆している。そもそも“1bit”とは何が1bitなのか、どうして1bitになるとGPUが不要になるのか、AIソリューションの開発・提供を行うLaboro.AIの椎橋徹夫CEOに聞いた。
イーロン・マスク氏のAI企業xAIは、独自のLLM「Grok」の「1.5V」版を発表した。画像認識のマルチモーダルになった。画像認識のベンチマークで「GPT-4V」、「Claude 3 Opus」、「Gemini Pro 1.5」を上回ったとしている。
OpenAIは、ChatGPTの有料版であるPlus、Team、Enterpriseで、最新LLM「GPT-4 Turbo」の提供を開始した。アルトマンCEOは「大幅に賢く、使いやすくなった」とポスト。
Microsoftも出資するAI企業Mistralは、オープンソースのLLM「Mixtral 8x22B」をリリースしたとXにポストした。
デロイト トーマツは、「特化型LLM」の開発サービスを提供開始した。クラウド提供型LLMが利用できない業種、業界に向けてオンプレミス運用可能な特化型LLMを提供することで、企業のLLMの活用を促進するという。
Cohereは、同社のプロダクトの中で「最も強力でスケーラブル」とする大規模言語モデル「Command R+」を発表した。
米Cornell Tech、イスラエル工科大学、米Intuitに所属する研究者らは、生成AIが組み込まれたアプリケーションを攻撃するマルウェアを提案した研究報告を発表した。
米AppleのMachine Learning Researchが、論文投稿サイト「arXiv」において「ReALM: Reference Resolution As Language Modeling」を発表した。ReALMは、画面上の物体への曖昧な言及や、会話での背景の文脈を理解し、音声アシスタントより自然なやりとりを可能にする新たな人工知能システムだという。
AIチャット「Claude 3」を手掛けるAnthropicは、「爆弾の作り方」などの不法な方法をAIに説明させてしまえるテクニック「Many-shot jailbreaking」についての論文を公開した。競合するAI企業の多くとも、この脱獄の詳細を共有している。
NIIは、「大規模言語モデル研究開発センター」を開設した。まずは、NIIが主宰しているLLM勉強会の研究開発を発展させ、1750億パラメーターのLLMを構築するという。
米Microsoftと米OpenAIは、事業規模が最大で1000億ドルとなるデータセンターの建設を計画している。AI用スーパーコンピュータ「スターゲート」が含まれ、2028年の運用開始を目指す。ハイテク系ニュースサイト「The Infomation」が報じた。
AIベンチャー・PKSHA Technologyは「RetNet」技術を活用した日英大規模言語モデルを開発したと発表した。RetNetを使用した日英モデルは世界初。同社の上野山勝也代表は「これによって生成AIの活用が一段前に進む」と自信を見せる。
AI企業のDatabricksは“オープンな”汎用LLM「DBRX」をリリースした。サイズは1320億パラメータとMetaのLlama 2のほぼ2倍だが、速度もLlama 2の2倍という。
Googleは「MediaPipe」を通じてオンデバイスでLLMを実行できるLLMを実行できる「MediaPipe LLM Inference API」の実験的リリースを発表した。MediaPipe LLM Inference APIでは、LLMを使ったアプリケーションをスマートフォンなどのデバイス上で使用することができる。
楽天グループは、日本語に特化した大規模言語モデル(LLM)「Rakuten AI 7B」などを公開した。フランスのAIスタートアップ企業のMistral AIのLLM「Mistral-7B-v0.1」を基盤に開発した70億パラメータのLLM。商用利用も可能。
生成AIのトップ研究者らが東京で創業したAIベンチャーが、生成AI開発の新たな手法を開発した。同社の手法では設計を機械が自動で行い、“ほぼ無視できるレベル”の計算資源で開発が可能になるという。
Google Researchは、人物の1枚の画像から“音声駆動で”発話する、その人物の動画を生成するAIシステム「VLOGGER」に関する論文を公開した。人物ごとにトレーニングする必要はなく、顔全体の表情の変化や、上半身画像の場合、手のジェスチャーも表現できる。
Appleの研究者は、独自開発のマルチモーダルLLM「MM1」の論文を発表した。画像へのキャプション追加や画像とテキストを使った質問への回答、自然言語推論を行えるよう設計。サイズはコンパクトながら視覚タスクではOpenAIのGPT-4Vに匹敵するとしている。
IBMとNASAは、宇宙物理学、惑星科学、地球科学、太陽物理学、生物物理科学に関する文献を学習させた言語モデルを、Hugging Faceで公開した。
イーロン・マスク氏のAI企業xAIは、予告通りLLM「Grok-1」の基本モデルの重みとアーキテクチャをオープンソース化した。GitHubでApache 2ライセンスで配布している。マスク氏はXでChatGPTのアカウントに「“オープン”について説明して」とコメントした。
Google DeepMindは、「No Man's Sky」などのゲームでトレーニングしたAIエージェント「SIMA」を発表した。「AlphaGo」などのようにゲームに勝つことが目的ではなく、“ジェネラリストで言語駆動型のAIエージェント”を目指す。
米Google DeepMindなどに所属する研究者らは、米OpenAIのGPT-4や米GoogleのPaLM-2などのクローズドな大規模言語モデルから、モデルの一部を盗み出す攻撃を提案した研究報告を発表した。
ELYZAは、「GPT-3.5やGeminiに匹敵する」という日本語特化型LLMを発表した。同社の曾根岡代表は「今回のニュースは日本国内の状況を踏まえると本当に喜ばしいこと」と語る一方、国内のLLM開発ビジネスにおいて“資金面”が大きな課題であると指摘する。
博報堂テクノロジーズは、日本語に特化した視覚言語事前学習モデル(VLP)「Japanese CLIP ViT-H/14」を開発し、Hugging Face上で無償公開した。
大規模言語モデル(LLM)に国家試験「ITパスポート試験」を解かせてみた──そんな研究成果をGMOグループのGMOメディアが発表した。LLMが持つ推論能力や問題解決能力の特徴を分析するため、IT分野での能力差を検証。GPT-4など、6種類のLLMで比較した。
東大発のAIスタートアップ企業であるELYZAは、700億パラメータの大規模言語モデル(LLM)「ELYZA-japanese-Llama-2-70b」を開発したと発表した。日本企業のLLMの性能を大きく上回り、グローバルモデルの性能にも匹敵するという。
Stability AIは、同社の画像生成モデル「Stable Diffusion」の最新版となる「Stable Diffusion 3」を発表した。
GoogleとRedditは提携拡大により、GoogleがRedditのリアルタイムデータにアクセスできるようになり、RedditはGoogleの「Vertex AI」を使えるようになると発表した。
オセロで初期局面から双方のプレイヤーがミスをせずに打ち続ければ結果は引き分けになることを証明したと主張する論文が2024年1月にプレプリントとして発表された。この論文の日本語解説記事として学会誌「情報処理」に載った記事を紹介する。
OpenAIは、テキストから最大60秒の動画を生成するAIモデル「Sora」を発表した。