メディア
ITmedia AI+ >

データ収集・整形

AI学習のためにまずやるべきデータ収集や整形方法を紹介。

news131.jpg

生成AIはさまざまなポテンシャルを持っているがゆえに、業務への適用方法が分からないという声もしばしばある。そんな中、与信管理などを手掛ける三井物産クレジットコンサルティングが、LayerXのAIワークフロー「Ai Workforce」を使い、とある業務にかかる時間を半分以下へ短縮することに成功したという。

(3月11日 12時00分)
news079.jpg

Webを巡回してAIモデルの学習に使う情報をかき集めるクローラーの横行に対し、反発が強まっている。ある海外ユーザーが迷惑クローラーを“出口のない落とし穴”に閉じ込めて撃退するプログラム「Nepenthes」を公開した。

(2月6日 12時00分)
news184.jpg

ソフトバンクの孫正義氏とOpenAIのサム・アルトマン氏が東京でのイベントで登壇。英ArmのCEOの姿も。イベントの要点を、現地参加した編集長が解説する。

(2月3日 22時45分)
news149.jpg

MIXIは新SNS「mixi2」で、「問い合わせを多くいただいていた」という生成AIについての考え方を公表した。

(1月16日 14時03分)
news164.jpg

ソフトバンクの子会社でAIの研究開発などを手掛けるSB Intuitionsは、生成AIの開発を目的として共同通信社と業務提携すると発表した。

(11月14日 16時53分)
news006.jpg
データを原動力としたAI活用の可能性と課題(4):

セキュリティやコンプライアンスにおいて厳しいルール順守が求められる金融業界において、柔軟にデータとAIを活用したIT戦略を実現するデータ基盤を構築するにはどうしたら良いのでしょうか。

(10月17日 08時00分)
news101.jpg

Googleは、Google検索結果の画像の生成AI利用透明化を目指し、「この画像について」に標準化団体C2PAの技術を導入する。Googleは2月にC2PAに参加した。将来的には広告やYouTubeにも導入する計画だ。

(9月18日 09時01分)
news062.jpg

Googleは、LLMが不正確な回答をするいわゆる“幻覚”を軽減するためのAIモデル「DataGemma」をオープンモデルでリリースした。「Data Commons」のデータとRIGとRAGの2つのアプローチでLLMの推論を強化する。

(9月15日 07時35分)
news091.jpg

Microsoftは、WindowsのAI機能「Recall」(日本では「リコール」)を、10月のWindows Insiderプログラムで提供すると発表した。当初6月発売の「Copilot+ PC」に搭載予定だったが、セキュリティ上の懸念を受け延期している。

(8月22日 07時26分)
news078.jpg

OpenAIは、テキストがChatGPTを使って生成したものかどうかを検出する高性能なツールを1年前にほぼ完成させているのに公開していないとWall Street Journalが報じた。この報道後、OpenAIは公式ブログで理由を説明した。

(8月5日 09時06分)
news121.jpg

イラスト生成AIサービス「AIいらすとや」などを手掛けるAI Picassoは、著作権に配慮したという画像生成AIの開発用データ約1000万個を無償公開した。

(7月31日 12時52分)
news116.jpg
小林啓倫のエマージング・テクノロジー論考:

ある調査によれば、2024年のAIの市場規模は全世界で1840億ドルに達し、30年までに8267億ドルとなる見込みだ。一方、生成AIの普及・進化には“学習用データの枯渇”リスクがあるという。そこで解決策として期待されているのが「合成データ」である。

(7月30日 14時00分)
news104.jpg

GPT-3.5と同水準の日本語特化型LLMを開発したELYZA。4月にはKDDIグループの傘下となり、注目を集めている。日本語性能トップクラスのLLMをどう作っているのか。KDDI傘下になったのはどんな狙いが? LLM活用でいま注目のポイントは? 気になることを、曽根岡侑也CEOにインタビューした。

(5月28日 12時00分)
news129.jpg

OpenAIは、クリエイターが自分のコンテンツが生成AIのトレーニングにどう使われるかを制御できるツール「Media Manager」を開発中と発表した。2025年までに提供する計画だ。

(5月8日 12時06分)
news104.jpg

OpenAIは、「DALL・E 3」で生成した画像かどうかを検出するためのツール「DALL・E Detection Classifier」の外部によるテストを開始した。内部テストでは生成画像の約98%を識別できたとしている。「Voice Engine」への音声透かし組み込みもテスト中だ。

(5月8日 10時11分)
news098.jpg

YouTubeのニール・モーハンCEOはBloombergとのインタビューで、OpenAIが「Sora」のトレーニングにYouTube動画を使っているとすれば、それは明らかな違反だと語った。

(4月5日 09時34分)
news072.jpg
ロングコンテキストウィンドウの持つ強み:

GoogleがリリースしたGemini 1.5の強みの一つに、ロングコンテキストウィンドウがある。Googleが実装したロングコンテキストウィンドウとは何か、そしてこの機能が開発者にどのように役立つのか。

(3月14日 08時00分)
news156.jpg

米Microsoftが、大規模言語モデル「GPT-4」などのAPIを同社のクラウド上で使える「Azure OpenAI Service」の外部データ連携機能「On Your Data」を正式リリースした。これまではパブリックプレビュー版として提供していた。

(2月21日 18時51分)
news049.jpg

データ活用を始める際、どのツールを導入すべきか悩む企業もいるのではないだろうか。そこで今回は、企業のデータ活用導入を支援するKPMGコンサルティングに“表計算ツール”と“BIツール”、AIを使った“AutoMLツール”について話を聞いた。

(11月20日 12時00分)
news096.jpg
CEDEC 2023:

データ分析が一般化した現在、その前提となるデータの記述や加工の段階で、データ処理初心者がやってしまいがちな落とし穴がある。ゲーム開発者向けカンファレンス「CEDEC 2023」では、データ記述やデータ加工の失敗例やその対策を伝授する講演が開かれた。

(9月1日 12時21分)