メディア
ITmedia AI+ >

データ収集・整形

AI学習のためにまずやるべきデータ収集や整形方法を紹介。

news126.jpg

AIデータセンタ―建設に必要な光ファイバー技術者が不足している。米国ではMetaと不動産大手が連携し、技術者の育成プログラムを開始する。

(4月21日 18時03分)
news060.jpg

ソフトバンクなど産学8団体は、分散したAIとデータを安全に連携させる社会基盤「AIスペース」の実現を目指す「xIPFコンソーシアム」を設立した。AIとデータを社会で広く活用する基盤の整備を図る。

(4月17日 08時30分)
news059.jpg

カインズはGoogle CloudのAIエージェントを活用したデータ基盤を導入した。需要予測データの処理を効率化し、自然言語による分析や在庫管理の最適化を内製化。現場のニーズに即した迅速な運用を可能にしたという。

(4月17日 08時00分)
news123.jpg

NECは経営指標をまとめたダッシュボード「経営コックピット」に生成AI機能を統合し、自然言語による分析や経営層の思考を再現したAIコメント機能を実現した。

(4月15日 15時29分)
news127.jpg

Google CloudはGoogle DeepMindと共同で、スキーやスノーボード選手の複雑な空中技を3次元で解析するAIシステムを開発し、ミラノ・コルティナ五輪の米国代表チームに提供した。リハビリの現場や向上での応用も見込めるとうたう。

(4月13日 20時00分)
news084.jpg

学習の方法を工夫することで「スマホで動く」サイズに軽量化したLLM「1-bit Bonsai」が話題だ。小さいサイズながら既存の8Bクラスに匹敵する性能をうたう。

(4月6日 14時25分)
news085.jpg

AIの進化を支える高品質なデータの不足が懸念される中、IPAは2026年は「データ枯渇元年」になると説く。企業に眠る情報の活用が急務となる今、国境や組織を越えた新たなデータ連携の形「データスペース」を実現するための成果物が公開された。

(4月2日 11時48分)
news098.jpg

NTTデータグループの気象会社が気象データを取得できるMCPサーバの提供を開始する。気象の影響を受けやすい業界における活用例とは。

(4月1日 14時53分)
news110.jpg

生成AIによる風評対策サービスは「国内初」としている。

(12月24日 16時15分)
news093.jpg

noteは、経済産業省などが実施する生成AI開発支援プロジェクト「GENIAC」に、同社の事業が採択されたと発表した。外部データを参照して生成AIが回答を出力する「RAG」向けに、出版社などのコンテンツを集めたデータベースを構築する。

(12月19日 11時53分)
news128.jpg

LINEヤフーは、日本語マルチモーダル基盤モデル「clip-japanese-base-v2」を開発したと発表した。

(12月18日 18時52分)
news066.jpg

Googleは、自律的な研究機能を持つAIエージェント「Gemini Deep Researchエージェント」を発表した。「Gemini 3 Pro」を推論コアに採用し、長時間コンテキスト統合タスクに最適化されている。複雑なWeb調査を自律的に行い、アップロード文書とWebデータを統合分析できる。開発者向けAPIで提供が始まり、今後はGoogle検索やGeminiアプリにも導入される見込み。

(12月12日 09時07分)
news035.jpg
AWS re:Invent 2025:

生成AIの次なる波として注目される「フィジカルAI」。産業変革の鍵を担うこの技術の現在地とは。「AWS re:Invent 2025」で語られた最新トレンドと、実用化を阻む「4つの壁」に迫る。

(12月5日 08時00分)
news037.jpg

Gmailの個人的なメールメッセージや添付ファイルがAIモデルの学習に使用されている──そんな主張がXで話題になった。これについてGoogleは「これらの報道は誤解を招くものだ」と否定している。

(12月4日 12時00分)
news055.jpg
「Google スプレッドシート」や「Microsoft Word」にも対応:

GoogleはAIで情報を要約、整理するツール「NotebookLM」において、調査・分析業務を効率化する「Deep Research」機能を追加した。Google スプレッドシートやMicrosoft Wordなど対応するファイル形式も拡充した。

(11月27日 08時00分)
news116.jpg

ソフトバンクの子会社でAIの研究開発などを手掛けるSB Intuitionsは、大規模視覚言語モデル(VLM)「Sarashina2.2-Vision-3B」を開発した。その性能は、同サイズ帯で日本語ベンチマークでのトップクラスのスコアを達成したという。

(11月25日 18時35分)
news057.jpg
「Converge 2025」現地レポート2:

OTデバイスの管理や脆弱性対応は企業にとって悩みの種の一つだ。この解消に向けてTaniumは自社製品のアップデートを公開した。エンドポイント管理を超えたOT・モバイルデバイスへのカバレッジ拡大とAI活用の進化に迫る。

(11月21日 10時00分)
news021.jpg
AIニュースピックアップ:

GoogleはNotebookLMに「Deep Research」を導入してWebの資料収集を効率化するとともに、対応するファイル形式も拡大した。報告書生成や資料追加が容易になり、さらなる業務効率化が期待される。

(11月19日 08時00分)
news094.jpg

Googleは、AIメモアプリ「NotebookLM」にGeminiの調査機能「Deep Research」を導入したと発表。複雑なオンライン調査を自動化し、報告書とソースを生成する。無料ユーザーにも提供予定。また、Wordやスプレッドシート、画像など対応ファイル形式も拡大した。

(11月14日 14時35分)
news084.jpg

伊藤忠商事は、傘下の伊藤忠テクノソリューションズと、俳優や声優の権利保護活動などを行う日本俳優連合と協力し、公式音声データベース「J-VOX-PRO(仮称)」を立ち上げると発表した。声の不正利用対策や、AI音声ビジネスの推進などを支援する。

(11月14日 13時44分)
news057.jpg

Google Cloudは、同社の生成AIサービスであるGeminiに、PDFやWord、Excel、テキストファイルなどのさまざまなファイル形式を読み込ませて検索可能にするフルマネージドなRAGシステム「File Search in Gemini API」の提供開始を発表しました。

(11月13日 10時21分)
news053.jpg

Wikimedia Foundationは、AI企業にWikipediaデータの無断収集停止とAPI使用料の支払いを求めた。AIは人間による知識を必要とし、なければ「モデル崩壊」の恐れがあると主張。貢献の循環維持のためクレジット表示と、Wikimedia Enterpriseを通じた財政支援を要求している。

(11月11日 09時39分)
news074.jpg

国立国会図書館が、生成AIを含む機械学習の実務経験を持つ即戦力人材(係長級)を公募している。

(9月18日 11時42分)
news037.jpg

Anthropicが著作権侵害訴訟で和解した。海賊版書籍の学習利用に対し、史上最高額となる15億ドル以上を支払う。同社は違法に入手した学習データを全て破棄することにも合意した。AIの著作権問題で大きな先例となった。

(9月6日 07時35分)
news072.jpg

日立製作所のエヴァンジェリトをはじめ、複数社の顧問などを務める澤円さんの思考を模した「AI澤さん」が登場。どんな経緯でどう作られたのか、人間の方の澤さんに聞いた。

(9月1日 12時00分)
news060.jpg
米国で実証、25年中に日欧へ展開:

エッジAIソリューション「AITRIOS」に注力するソニーセミコンダクタソリューションズ。スマートシティー分野において米国で実績を上げ、本格的な採用拡大に向けた取り組みを進めている。担当者に詳細を聞いた。

(8月26日 11時30分)
news062.jpg

OpenAIは、AIモデルが意図せず「悪ガキペルソナ」のような望ましくない振る舞いをする「誤アラインメント」に関する論文を公開した。不適切な学習が特定のペルソナを増幅させることが原因だという。対策として高品質なデータの使用が重要で、発生後も少量の良質なデータで再調整すれば修復可能としている。

(6月20日 10時58分)
news054.jpg

OpenAIは、AIが悪用され生物兵器開発につながる深刻なリスクがあると警告した。同社の将来のAIモデルは専門知識のない人物による生物学的脅威の作成を可能にする恐れがあるという。有害リクエストの拒否や専門家との連携、疑わしい行為の監視などの多角的な対策を講じ、社会全体の防御力向上も提唱している。

(6月20日 07時04分)
news116.jpg

ソフトバンクの子会社でAIの研究開発などを手掛けるSB Intuitionsは、大規模視覚言語モデル(VLM)の基礎などをまとめた資料「大規模視覚言語モデルの開発」を無料公開した。

(6月17日 19時07分)
news094.jpg

noteユーザーが投稿したテキストコンテンツを複数のAI事業者に学習目的で提供し、得られた対価の一部をユーザーに還元する仕組みが、8月1日に正式にスタートする。

(6月17日 15時36分)
スポンサーリンクPR
SpecialPR
あなたにおすすめの記事PR