メディア
ITmedia AI+ >

データ収集・整形

AI学習のためにまずやるべきデータ収集や整形方法を紹介。

news035.jpg
AWS re:Invent 2025:

生成AIの次なる波として注目される「フィジカルAI」。産業変革の鍵を担うこの技術の現在地とは。「AWS re:Invent 2025」で語られた最新トレンドと、実用化を阻む「4つの壁」に迫る。

(12月5日 08時00分)
news037.jpg

Gmailの個人的なメールメッセージや添付ファイルがAIモデルの学習に使用されている──そんな主張がXで話題になった。これについてGoogleは「これらの報道は誤解を招くものだ」と否定している。

(12月4日 12時00分)
news055.jpg
「Google スプレッドシート」や「Microsoft Word」にも対応:

GoogleはAIで情報を要約、整理するツール「NotebookLM」において、調査・分析業務を効率化する「Deep Research」機能を追加した。Google スプレッドシートやMicrosoft Wordなど対応するファイル形式も拡充した。

(11月27日 08時00分)
news116.jpg

ソフトバンクの子会社でAIの研究開発などを手掛けるSB Intuitionsは、大規模視覚言語モデル(VLM)「Sarashina2.2-Vision-3B」を開発した。その性能は、同サイズ帯で日本語ベンチマークでのトップクラスのスコアを達成したという。

(11月25日 18時35分)
news057.jpg
「Converge 2025」現地レポート2:

OTデバイスの管理や脆弱性対応は企業にとって悩みの種の一つだ。この解消に向けてTaniumは自社製品のアップデートを公開した。エンドポイント管理を超えたOT・モバイルデバイスへのカバレッジ拡大とAI活用の進化に迫る。

(11月21日 10時00分)
news021.jpg
AIニュースピックアップ:

GoogleはNotebookLMに「Deep Research」を導入してWebの資料収集を効率化するとともに、対応するファイル形式も拡大した。報告書生成や資料追加が容易になり、さらなる業務効率化が期待される。

(11月19日 08時00分)
news094.jpg

Googleは、AIメモアプリ「NotebookLM」にGeminiの調査機能「Deep Research」を導入したと発表。複雑なオンライン調査を自動化し、報告書とソースを生成する。無料ユーザーにも提供予定。また、Wordやスプレッドシート、画像など対応ファイル形式も拡大した。

(11月14日 14時35分)
news084.jpg

伊藤忠商事は、傘下の伊藤忠テクノソリューションズと、俳優や声優の権利保護活動などを行う日本俳優連合と協力し、公式音声データベース「J-VOX-PRO(仮称)」を立ち上げると発表した。声の不正利用対策や、AI音声ビジネスの推進などを支援する。

(11月14日 13時44分)
news057.jpg

Google Cloudは、同社の生成AIサービスであるGeminiに、PDFやWord、Excel、テキストファイルなどのさまざまなファイル形式を読み込ませて検索可能にするフルマネージドなRAGシステム「File Search in Gemini API」の提供開始を発表しました。

(11月13日 10時21分)
news053.jpg

Wikimedia Foundationは、AI企業にWikipediaデータの無断収集停止とAPI使用料の支払いを求めた。AIは人間による知識を必要とし、なければ「モデル崩壊」の恐れがあると主張。貢献の循環維持のためクレジット表示と、Wikimedia Enterpriseを通じた財政支援を要求している。

(11月11日 09時39分)
news074.jpg

国立国会図書館が、生成AIを含む機械学習の実務経験を持つ即戦力人材(係長級)を公募している。

(9月18日 11時42分)
news037.jpg

Anthropicが著作権侵害訴訟で和解した。海賊版書籍の学習利用に対し、史上最高額となる15億ドル以上を支払う。同社は違法に入手した学習データを全て破棄することにも合意した。AIの著作権問題で大きな先例となった。

(9月6日 07時35分)
news072.jpg

日立製作所のエヴァンジェリトをはじめ、複数社の顧問などを務める澤円さんの思考を模した「AI澤さん」が登場。どんな経緯でどう作られたのか、人間の方の澤さんに聞いた。

(9月1日 12時00分)
news060.jpg
米国で実証、25年中に日欧へ展開:

エッジAIソリューション「AITRIOS」に注力するソニーセミコンダクタソリューションズ。スマートシティー分野において米国で実績を上げ、本格的な採用拡大に向けた取り組みを進めている。担当者に詳細を聞いた。

(8月26日 11時30分)
news062.jpg

OpenAIは、AIモデルが意図せず「悪ガキペルソナ」のような望ましくない振る舞いをする「誤アラインメント」に関する論文を公開した。不適切な学習が特定のペルソナを増幅させることが原因だという。対策として高品質なデータの使用が重要で、発生後も少量の良質なデータで再調整すれば修復可能としている。

(6月20日 10時58分)
news054.jpg

OpenAIは、AIが悪用され生物兵器開発につながる深刻なリスクがあると警告した。同社の将来のAIモデルは専門知識のない人物による生物学的脅威の作成を可能にする恐れがあるという。有害リクエストの拒否や専門家との連携、疑わしい行為の監視などの多角的な対策を講じ、社会全体の防御力向上も提唱している。

(6月20日 07時04分)
news116.jpg

ソフトバンクの子会社でAIの研究開発などを手掛けるSB Intuitionsは、大規模視覚言語モデル(VLM)の基礎などをまとめた資料「大規模視覚言語モデルの開発」を無料公開した。

(6月17日 19時07分)
news094.jpg

noteユーザーが投稿したテキストコンテンツを複数のAI事業者に学習目的で提供し、得られた対価の一部をユーザーに還元する仕組みが、8月1日に正式にスタートする。

(6月17日 15時36分)
news085.png

指定された構図・被写体・角度の写真を撮って提出すると、換金可能なポイントがもらえる──ストックフォト事業などを手掛けるイメージナビ(札幌市)がこんなWebサービスを始める。同社がAI開発事業者などから有料で受けた依頼を基に写真を募集。ユーザーは条件に合った写真を撮影・提出し、審査に通ればポイントを受け取れる仕組みだ。

(6月12日 14時00分)
news074.jpg

セキュリティ企業のAim Labsが、「Microsoft 365 Copilot」に初のゼロクリックAI脆弱性「EchoLeak」を発見したと発表した。ユーザー操作なしに悪意あるメール経由で機密情報が流出する可能性があった。この脆弱性は「LLMスコープ違反」と名付けられ、Microsoftにより修正済みだ。

(6月12日 11時50分)
news041.jpg
AIビジネスのプロ 三澤博士がチェック 今週の注目論文:

企業が生成AI(LLM)からAIエージェントへと活用の幅を広げる過程で起こり得る、従来のサイバーセキュリティフレームワークでは対応困難な新たなサイバー脅威について詳しく解説します。

(6月11日 10時00分)
news078.jpg

マンガ「鬼滅の刃」や「僕のヒーローアカデミア」のキャラクターを、AIキャラチャットアプリが無断で広告に利用しているのではないか――こんなXのポストが物議を醸している。

(6月9日 15時53分)
news026.jpg
企業も人もAIエージェントも“連携”が大事:

アクセンチュアは、異なる企業が提供するAIエージェントを連携させる「Trusted Agent Huddle」を発表した。特定のタスクやビジネス目標に応じて最適なAIエージェントを選択し、それらを管理できるようになるという。

(6月9日 08時00分)
news058.jpg

OpenAIが企業向けChatGPTの新機能「connectors」と「recorder」を発表。connectorsはGoogle Driveなどの社内ツールと連携して情報検索・活用を支援する。recorderは会議等を録音・文字起こしし要約、ナレッジ化する。

(6月5日 07時08分)
news038.jpg
小寺信良のIT大作戦:

知識の集合先として「Obsidian」が人気のようである。多くの文書がバラバラに存在していても、視覚的に文書の関連性がわかる。Obsidianに日々読んでいるニュース記事をクリッピングしていけば、関連性などが視覚情報として見えてくるのではないか。そんなことから、Obsidianでクリッピングしたニュースを管理していくことにした。

(6月2日 15時00分)
news131.jpg

生成AIはさまざまなポテンシャルを持っているがゆえに、業務への適用方法が分からないという声もしばしばある。そんな中、与信管理などを手掛ける三井物産クレジットコンサルティングが、LayerXのAIワークフロー「Ai Workforce」を使い、とある業務にかかる時間を半分以下へ短縮することに成功したという。

(3月11日 12時00分)
news079.jpg

Webを巡回してAIモデルの学習に使う情報をかき集めるクローラーの横行に対し、反発が強まっている。ある海外ユーザーが迷惑クローラーを“出口のない落とし穴”に閉じ込めて撃退するプログラム「Nepenthes」を公開した。

(2月6日 12時00分)
news184.jpg

ソフトバンクの孫正義氏とOpenAIのサム・アルトマン氏が東京でのイベントで登壇。英ArmのCEOの姿も。イベントの要点を、現地参加した編集長が解説する。

(2月3日 22時45分)
news149.jpg

MIXIは新SNS「mixi2」で、「問い合わせを多くいただいていた」という生成AIについての考え方を公表した。

(1月16日 14時03分)
news164.jpg

ソフトバンクの子会社でAIの研究開発などを手掛けるSB Intuitionsは、生成AIの開発を目的として共同通信社と業務提携すると発表した。

(11月14日 16時53分)
スポンサーリンクPR