メディア

一色政彦

一色 政彦(いっしき まさひこ)

機械学習、ディープラーニングの初心者として、記事を発信していきます。


●受賞・資格

- Microsoft MVP for Visual Studio and Development Technologies (11年連続)

- 2017/12/26 JDLA Deep Learning for GENERAL 2017

- 2017/10/11 第二種電気工事士


経歴

1975年8月、福岡県北九州市生まれ。

1999年4月、九州大学文学部を卒業後、ソフトウェア パッケージ ベンダーに入社。開発部で技術研究や基礎開発の業務に携わる。

2003年2月、福岡から上京。

2003年4月、フリーランスのテクニカル ライターとなり、開発者、ITプロ向けの記事を執筆。

2003年11月、(株)デジタルアドバンテージに入社して、@IT/Insider.NETの編集者兼ライターとなる。

2013年4月、@ITの編集者を兼務しつつ、新サイト「Build Insider」の編集長に就任。

2018年4月、機械学習エンジニア向けの新サイト「Deep Insider」の編集長に就任。編集に記事執筆に活躍中。


このエントリーをはてなブックマークに追加
記事一覧

人気連載まとめ読み! @IT eBook(117):

人気過去連載を電子書籍化して無料ダウンロード提供する@IT eBookシリーズ。第117弾は、連載『やさしいデータ分析』の全編を電子書籍化しました。表計算ソフトで試しながら、基本的なデータ分析を学べます。前提知識は不要で、全ての社会人にお薦め。ここからデータ分析の第一歩を踏み出しましょう!

()

AI・機械学習の用語辞典:

用語「BM25」について説明。各文書中の各単語の重要性をバランスよく評価する尺度で、主に検索クエリに最も一致する文書を特定するのに用いられる。キーワード検索以外にも、類似文書の検索やレコメンデーションにも活用できる。計算式は「(ある単語の文書間でのレア度)×(ある文書における、ある単語の出現頻度、の正規化された値)」で、正規化するための調整パラメーターを持つ、tf-idfの発展版と見なせる。

()

機械学習入門:

「知識ゼロから学べる」をモットーにした機械学習入門連載の第2回。実践で役立つ、Pythonライブラリの基本的な使用例として、データの読み込みと加工(pandas使用)から、数値計算(NumPy使用)とデータ可視化(Matplotlib/seaborn使用)、機械学習(scikit-learnの使い方)までを体験しながら学ぼう。

()

AI・機械学習の用語辞典:

生成AI時代を生きる社会人に必須の基礎知識を身に付けよう。生成AIに関する用語として「生成系AI」「大規模言語モデル(LLM)」「プロンプトエンジニアリング」「ハルシネーション」「埋め込み表現」「ベクトル検索」「ベクトルデータベース」「RAG(検索拡張生成)」「事前学習」「ファインチューニング」の10語を紹介する。代表的なチャットAIやLLM、画像生成AIについても触れる。

()

AI・機械学習の用語辞典:

用語「RAG」について説明。ChatGPTなどのチャットAIに独自の情報源を付与する仕組みのことで、具体的には言語モデルによるテキスト生成に特定の情報源(ナレッジベース)の検索を組み合わせること。これには、生成内容の正確さを向上させるメリットがある。

()

AI・機械学習の用語辞典:

用語「グラウンディング」について説明。特定の知識や情報源(ナレッジベースなど)に基づいて言語モデルの生成内容を裏付けるプロセスのことで、チャットAIに独自の情報源を付与するRAG(検索拡張生成)という仕組みがその代表例。チャットAIがもっともらしいウソを答える問題(=ハルシネーション)を減らせるといったメリットがある。

()

AI・機械学習の用語辞典:

ベクトルデータベースとは、テキストなどのデータを数値ベクトル(埋め込み)として保存するデータベースを指す。「ベクトルストア」とも呼ばれる。ベクトル検索により、意味的に類似する情報を探せるのが特徴で、チャットAIのRAG構築に役立つ。本稿ではベクトル検索の機能を持つ代表的な製品の概要もそれぞれ簡単に紹介する。

()

AI・機械学習の用語辞典:

全てまたはほとんどの成分が0以外の数値を持つベクトルを「密ベクトル」と呼び、その代表例にはテキストなどのEmbedding(埋め込み表現)がある。また、大部分の成分が0で、一部のみが0以外の数値を持つベクトルを「疎ベクトル」と呼び、その代表例にはテキスト文書のtf-idf値がある。

()

機械学習入門:

「知識ゼロから学べる」をモットーにした機械学習入門連載の第1回。ルールベースと機械学習ベースの違いから、教師あり学習などの学習方法、回帰/分類などのタスクまで基礎の基礎から説明。機械学習のためのPythonライブラリも概説する。

()

AI・機械学習の用語辞典:

用語「ベクトル検索」について説明。テキストなどのデータを数値ベクトル(埋め込み)として表現し、それらのベクトル間の類似度を計算することで、関連する情報を見つけ出す検索方法を指す。Azure OpenAI Serviceの独自データ追加機能で利用可能な「キーワード検索」「ベクトル検索」「ハイブリッド検索」「セマンティック検索」という検索手法の違いについても言及する。

()

Deep Insider's Eye 一色&かわさきの編集後記:

一色からは「ChatGPTで株取引スクリプトを作ってバックテスト」という題でChatGPTを使って株取引ストラテジーを生成してシミュレーションしたことについて、かわさきからは「たんぱく質取ってますか?」という題でカロリーを考慮して鳥貴族のメニュー選びをアシストしてくれるGPTsを作成してみたことについて書きました。

()

AI・機械学習の用語辞典:

用語「Embedding(埋め込み)」について説明。単語やテキスト、画像を、AI/言語モデルが扱いやすい数値ベクトル(例:[0.4, -0.1, 0.2, ...])に変換する技術のこと。Word Embedding(単語の埋め込み)では、意味的に近い単語同士がベクトル空間上で近接するように変換される。

()

AI・機械学習の業界動向:

昨年2023年は、ChatGPTやGoogle BardなどのチャットAIに注目が集まり、企業やサービスに生成AIが導入されていくなど、大きな変化が一気に起こりました。今年2024年の「AI/機械学習/データ分析/データサイエンス」かいわいはどう変わっていくのか? 現状を踏まえつつ、未来を予測します。

()

AI・機械学習の用語辞典:

用語「移動平均」について説明。時系列データ(例: 株価)を平滑化すること、具体的には一定期間(例:5日間)の平均値を計算することをデータポイントごとに繰り返し、計算後の一連の平均値を線でつなぐこと(移動平均線)。データの長期的な傾向や短期的な動きを把握するのに役立つ。

()

AI・機械学習の用語辞典:

用語「トリム平均」について説明。昇順または降順に並べたデータの上位と下位から一定の個数または割合で値を除外(トリム)し、残ったデータで平均を求めること。特に外れ値を含むデータセットで統計的にデータを解釈する際に役立つ。

()

AI・機械学習の用語辞典:

用語「Average」と「Mean」の違いについて説明。両方とも「平均」と訳されるが、「Average」が日常的な会話や文脈の中でよく使われる一般的な用語であるのに対し、「Mean」は数学/統計学/機械学習といった専門的な文脈の中でよく使われる専門的な用語であるという違いがある。

()

AI・機械学習の用語辞典:

用語「調和平均」について説明。データの各数値の逆数で平均を取り、さらにそれを逆数にして戻した値を表す。計算式にすると、データ数を「データの各数値の逆数」の総和で割る形になる。速度/レート(率)のデータ(=逆数の形で加算される加法的なデータ)を平均する場合に適した平均の計算方法だ。

()

AI・データサイエンス超入門:

生成系AIの導入が急速に広がる今、その有用性や活用法が気になる方へ。一例としてプログラミング不要で、“会議の議事録を基に質問に答えてくれる「独自のチャットAI」”の作成を試みます。社会人の目線で、実践的な生成系AIの雰囲気をつかみましょう!

()

AI・機械学習の用語辞典:

用語「幾何平均」について説明。幾何平均はデータの各数値を掛け合わせた積のn乗根(nはデータ数)を取った値を表す。時間に応じて変化する変化率/比率/倍率のデータ(=乗算後に累積される乗法的なデータ)を平均する場合に適した平均の計算方法だ。

()

AI・機械学習の用語辞典:

用語「加重平均」について説明。算術平均がデータの合計値をデータ数で割った値なのに対し、加重平均は重み付けしたデータの合計値を全ての重みの合計値で割った値を表す。各データが異なる重要度を持つ場合に適した平均の計算方法だ。

()

AI・機械学習の用語辞典:

用語「プロンプトエンジニアリング」について説明。チャットAI(大規模言語モデル)や画像生成AIなどの生成系AIで、より望ましい返答テキストや画像などが生成されるように、ユーザーがAIモデルに入力する質問や指示のプロンプト(=テキスト)を工夫することを指す。

()

AI・データサイエンス超入門:

生成系AIが注目を集める中、従来の画像認識や音声認識のAIも依然として非常に有用です。この記事では、誰でも手軽にできる疑似体験を通じて、会議時の音声を文字起こしをする「議事録AI」の作成を試みます。一緒にAIの世界へ一歩踏み出しましょう!

()

AI・機械学習の用語辞典:

用語「思考の連鎖プロンプティング」について説明。問題を解くまでの一連の手順をプロンプトに含めるテクニックを指す。人間の思考プロセスでは、算術などの問題を途中の手順(計算過程)に分解して段階的に解いていくことが一般的だが、それを模倣した、プロンプティングのテクニック。

()

AI・機械学習の用語辞典:

用語「フューショット学習」について説明。ChatGPTなどの言語モデルが少数の例文から効率的に学習し、多様なタスクを解決できることを指す。大量データが必要な一般的な機械学習や既存モデルの再学習(ファインチューニング)と比べ手軽。また、コンピュータビジョンなど他の機械学習分野でも、少量データから学習する同じ用語が使用されている。

()

AI・機械学習の用語辞典:

用語「ゼロショット学習」について説明。訓練データに存在しない新しいクラスやタスクに対しても有用な予測/分類を行うための学習方法のことで、特にChatGPTの言語モデルなどでは、ファインチューニングすることなく、かつ例文もない状態で、さまざまなタスクを解決する能力を持つことを指す。

()

AI・データサイエンス超入門:

データ分析とは具体的にどのようなことをするのか? 全くイメージが湧かない人、自分ではやってみたことがない人に向けて、気軽な疑似体験を通してデータ分析の雰囲気をお伝えします。具体的には、データを整理/変換し、グラフを作成して統計量も計算。さらにデータから次の数値を予測してみます。

()

AI・機械学習の用語辞典:

用語「RLHF」について説明。人間のフィードバックを使ってAIモデルを強化学習する手法を指す。OpenAIのChatGPT/InstructGPTでは、人間の価値基準に沿うように、言語モデルをRLHFでファインチューニング(微調整)している。

()

AI・データサイエンス超入門:

生成系AIを中心に、今、データ&AI活用が一般社会に広まってきています。そもそも「データ」や「AI」「データ分析」「データサイエンス」とは何なのか。それらの概念を説明し、AI・データサイエンスの全体像を整理します。さらに、社会人がAI・データサイエンスを学ばなければならない理由と学ぶ方法を紹介します。

()

AI・機械学習の用語辞典:

用語「AI効果」について説明。「最新のAI」として話題になった技術が、一般社会に受け入れられて普通に使われるようなるにつれて、「AI」とは呼ばれなくなる現象を指す。

()

Deep Insider's Eye 一色&かわさきの編集後記:

かわさきからは「chocoZAP始めました」という題で低価格でコンビニ的なジムでダイエットを始めたことについて、一色からは「Deep Insiderの2023年の方針」という題で「Deep Insiderって何を考えて今後の記事を出していくの?」という話について書きました。

()

AI・機械学習の用語辞典:

用語「イライザ効果」について説明。コンピュータプログラム/AIモデルの動作が人間の動作に類似していると無意識に想定する傾向のこと、つまり例えばチャットボット/チャットAIを「擬人化」して感情移入することを指す。

()

AI・機械学習のデータセット辞典:

データセット「GLUE」について説明。英語で自然言語処理モデルの性能を評価するための標準ベンチマーク。英語文法の正しさ判定などの9つのタスク(CoLA/SST-2/MRPC/STS-B/QQP/MNLI/QNLI/RTE/WNLI)に対応するデータセットのコレクション。

()

AI・機械学習の用語辞典:

ハルシネーションとは、チャットAIなどが、もっともらしい誤情報(=事実とは異なる内容や、文脈と無関係な内容)を生成することを指す。AIから返答を受け取った人間が「本当かどうか」の判断に困るという問題がある。この問題を回避する方法として、独自の情報源を付与するRAGや、Webアクセスを含める機能などがある。

()

5分で分かるシリーズ:

データサイエンスをビジネスで活用したい人に向け、データサイエンスの概要と知るべき理由、データ分析やAIとの違い、必要なスキル、作業フロー、活用シーンを、5分で読めるコンパクトな内容で紹介。最後に、次の一歩を踏み出すための参考情報もまとめる。

()

5分で分かるシリーズ:

データ分析をビジネスで活用したい人に向け、データ分析の概要と目的、データサイエンスとの違い、メリット、作業フロー、データ分析でできること、データ分析で役立つツールと思考法を、5分で読めるコンパクトな内容で紹介。最後に、次の一歩を踏み出すための参考情報もまとめる。

()

AI・機械学習の用語辞典:

用語「基盤モデル」について説明。大量のラベルなしデータを使って事前学習し、その後、幅広い下流タスクに適応できるようにファインチューニングする、という2段階の訓練工程を踏んだ、1つのAI・機械学習モデルのことを指す。

()

AI・機械学習の用語辞典:

用語「自己教師あり学習」について説明。ラベルなしの大量データセットを使って、プレテキストタスク(疑似的なラベルが自動生成された代替のタスク)を解くための事前学習を行う学習方法のこと。その後、ターゲットタスクを解くために、(少量の)別のデータセットを使って事前学習済みモデルをファインチューニングする。

()

AI・機械学習の用語辞典:

用語「事前学習」「下流タスク」について説明。訓練の工程を2段階に分けて、最初に機械学習モデルを訓練することを「事前学習」、次にその事前学習済みモデルを新しいタスクに向けて転移学習/ファインチューニングすることを「下流タスク」と呼ぶ。自己教師あり学習でも同様の用語が使われる。

()

Deep Insider's Eye 一色&かわさきの編集後記:

一色からは「学んできたことと、データ&AIを使う時代への変化」という題で、自己紹介として学んでいることや時代変化について、かわさきからは「誰かに何かを伝えるということ」という題でDeep Insider編集部内で議論したり考えたりしていることについて書きました。

()

AI・機械学習の用語辞典:

用語「ファインチューニング」について説明。「事前学習」した訓練済みニューラルネットワークモデルの一部もしくは全体を、別のデータセットを使って再トレーニングすることで、新しいタスク向けにモデルのパラメーターを微調整することを指す。

()