一色政彦

人気連載まとめ読み！＠IT eBook（117）：

Excelで学ぶ、やさしいデータ分析

人気過去連載を電子書籍化して無料ダウンロード提供する＠IT eBookシリーズ。第117弾は、連載『やさしいデータ分析』の全編を電子書籍化しました。表計算ソフトで試しながら、基本的なデータ分析を学べます。前提知識は不要で、全ての社会人にお薦め。ここからデータ分析の第一歩を踏み出しましょう！

(2024年4月24日)

AI・機械学習の用語辞典：

BM25／Okapi BM25（情報検索のアルゴリズム）とは？

用語「BM25」について説明。各文書中の各単語の重要性をバランスよく評価する尺度で、主に検索クエリに最も一致する文書を特定するのに用いられる。キーワード検索以外にも、類似文書の検索やレコメンデーションにも活用できる。計算式は「（ある単語の文書間でのレア度）×（ある文書における、ある単語の出現頻度、の正規化された値）」で、正規化するための調整パラメーターを持つ、tf-idfの発展版と見なせる。

(2024年4月22日)

機械学習入門：

scikit-learn入門＆使い方 ― 機械学習の流れを学ぼう

「知識ゼロから学べる」をモットーにした機械学習入門連載の第2回。実践で役立つ、Pythonライブラリの基本的な使用例として、データの読み込みと加工（pandas使用）から、数値計算（NumPy使用）とデータ可視化（Matplotlib／seaborn使用）、機械学習（scikit-learnの使い方）までを体験しながら学ぼう。

(2024年4月11日)

AI・機械学習の用語辞典：

生成AIの用語10選～一般ユーザーが知っておくべき基礎知識

生成AI時代を生きる社会人に必須の基礎知識を身に付けよう。生成AIに関する用語として「生成系AI」「大規模言語モデル（LLM）」「プロンプトエンジニアリング」「ハルシネーション」「埋め込み表現」「ベクトル検索」「ベクトルデータベース」「RAG（検索拡張生成）」「事前学習」「ファインチューニング」の10語を紹介する。代表的なチャットAIやLLM、画像生成AIについても触れる。

(2024年3月29日)

AI・機械学習の用語辞典：

RAG（Retrieval-Augmented Generation：検索拡張生成）とは？

用語「RAG」について説明。ChatGPTなどのチャットAIに独自の情報源を付与する仕組みのことで、具体的には言語モデルによるテキスト生成に特定の情報源（ナレッジベース）の検索を組み合わせること。これには、生成内容の正確さを向上させるメリットがある。

(2024年3月13日)

AI・機械学習の用語辞典：

生成AIのグラウンディング（Grounding）とは？

用語「グラウンディング」について説明。特定の知識や情報源（ナレッジベースなど）に基づいて言語モデルの生成内容を裏付けるプロセスのことで、チャットAIに独自の情報源を付与するRAG（検索拡張生成）という仕組みがその代表例。チャットAIがもっともらしいウソを答える問題（＝ハルシネーション）を減らせるといったメリットがある。

(2024年3月6日)

AI・機械学習の用語辞典：

ベクトルデータベース（Vector Database）／ベクトルストア（Vector Store）とは？

ベクトルデータベースとは、テキストなどのデータを数値ベクトル（埋め込み）として保存するデータベースを指す。「ベクトルストア」とも呼ばれる。ベクトル検索により、意味的に類似する情報を探せるのが特徴で、チャットAIのRAG構築に役立つ。本稿ではベクトル検索の機能を持つ代表的な製品の概要もそれぞれ簡単に紹介する。

(2024年2月29日)

AI・機械学習の用語辞典：

密ベクトル（Dense Vector）とは？　疎ベクトル（Sparse Vector）との違い

全てまたはほとんどの成分が0以外の数値を持つベクトルを「密ベクトル」と呼び、その代表例にはテキストなどのEmbedding（埋め込み表現）がある。また、大部分の成分が0で、一部のみが0以外の数値を持つベクトルを「疎ベクトル」と呼び、その代表例にはテキスト文書のtf-idf値がある。

(2024年2月14日)

機械学習入門：

機械学習をPythonで学ぼう！　基礎、できること、ライブラリ

「知識ゼロから学べる」をモットーにした機械学習入門連載の第1回。ルールベースと機械学習ベースの違いから、教師あり学習などの学習方法、回帰／分類などのタスクまで基礎の基礎から説明。機械学習のためのPythonライブラリも概説する。

(2024年2月8日)

AI・機械学習の用語辞典：

ベクトル検索（Vector Search）とは？　キーワード検索との違い

用語「ベクトル検索」について説明。テキストなどのデータを数値ベクトル（埋め込み）として表現し、それらのベクトル間の類似度を計算することで、関連する情報を見つけ出す検索方法を指す。Azure OpenAI Serviceの独自データ追加機能で利用可能な「キーワード検索」「ベクトル検索」「ハイブリッド検索」「セマンティック検索」という検索手法の違いについても言及する。

(2024年2月7日)

Deep Insider's Eye　一色＆かわさきの編集後記：

編集後記「ChatGPTで株取引スクリプトを作ってバックテスト」と「たんぱく質取ってますか？」

一色からは「ChatGPTで株取引スクリプトを作ってバックテスト」という題でChatGPTを使って株取引ストラテジーを生成してシミュレーションしたことについて、かわさきからは「たんぱく質取ってますか？」という題でカロリーを考慮して鳥貴族のメニュー選びをアシストしてくれるGPTsを作成してみたことについて書きました。

(2024年2月5日)

AI・機械学習の用語辞典：

Embedding（エンベディング：埋め込み、埋め込み表現）とは？

用語「Embedding（埋め込み）」について説明。単語やテキスト、画像を、AI／言語モデルが扱いやすい数値ベクトル（例：[0.4, -0.1, 0.2, ...]）に変換する技術のこと。Word Embedding（単語の埋め込み）では、意味的に近い単語同士がベクトル空間上で近接するように変換される。

(2024年1月18日)

AI・機械学習の業界動向：

2024年の「AI／機械学習／データ分析」はこうなる！　7大予測

昨年2023年は、ChatGPTやGoogle BardなどのチャットAIに注目が集まり、企業やサービスに生成AIが導入されていくなど、大きな変化が一気に起こりました。今年2024年の「AI／機械学習／データ分析／データサイエンス」かいわいはどう変わっていくのか？　現状を踏まえつつ、未来を予測します。

(2024年1月10日)

AI・機械学習の用語辞典：

移動平均（Moving Average）とは？　SMA／WMA／EMAの違い

用語「移動平均」について説明。時系列データ（例: 株価）を平滑化すること、具体的には一定期間（例：5日間）の平均値を計算することをデータポイントごとに繰り返し、計算後の一連の平均値を線でつなぐこと（移動平均線）。データの長期的な傾向や短期的な動きを把握するのに役立つ。

(2023年12月21日)

AI・データサイエンス超入門：

データ分析もChatGPTの機能（旧Code Interpreter）でできるか、やったみた【番外編】

ChatGPTの「高度データ分析」機能がデータサイエンスを変える？　素人でも簡単にデータ分析ができるようになるのか？　筆者が実際に挑戦し、実体験に基づく感想と洞察をお届けします。連載の流れとは関係がない番外編です。

(2023年12月14日)

AI・機械学習の用語辞典：

トリム平均（Trimmed Mean）とは？

用語「トリム平均」について説明。昇順または降順に並べたデータの上位と下位から一定の個数または割合で値を除外（トリム）し、残ったデータで平均を求めること。特に外れ値を含むデータセットで統計的にデータを解釈する際に役立つ。

(2023年12月11日)

AI・機械学習の用語辞典：

「Average」と「Mean」の違いとは？　「平均」を意味する2つの英単語

用語「Average」と「Mean」の違いについて説明。両方とも「平均」と訳されるが、「Average」が日常的な会話や文脈の中でよく使われる一般的な用語であるのに対し、「Mean」は数学／統計学／機械学習といった専門的な文脈の中でよく使われる専門的な用語であるという違いがある。

(2023年11月30日)

AI・機械学習の用語辞典：

調和平均とは？　算術平均との違い、使い分け

用語「調和平均」について説明。データの各数値の逆数で平均を取り、さらにそれを逆数にして戻した値を表す。計算式にすると、データ数を「データの各数値の逆数」の総和で割る形になる。速度／レート（率）のデータ（＝逆数の形で加算される加法的なデータ）を平均する場合に適した平均の計算方法だ。

(2023年11月22日)

AI・データサイエンス超入門：

生成AI入門：議事録を答えるチャットAI（RAGアプリ）を作ってみよう【プログラミング不要】

生成系AIの導入が急速に広がる今、その有用性や活用法が気になる方へ。一例としてプログラミング不要で、“会議の議事録を基に質問に答えてくれる「独自のチャットAI」”の作成を試みます。社会人の目線で、実践的な生成系AIの雰囲気をつかみましょう！

(2023年11月9日)

AI・機械学習の用語辞典：

幾何平均とは？　算術平均との違い、使い分け

用語「幾何平均」について説明。幾何平均はデータの各数値を掛け合わせた積のn乗根（nはデータ数）を取った値を表す。時間に応じて変化する変化率／比率／倍率のデータ（＝乗算後に累積される乗法的なデータ）を平均する場合に適した平均の計算方法だ。

(2023年11月1日)

Deep Insider's Eye　一色＆かわさきの編集後記：

編集後記「『人は流れに乗ればいい』（シャア・アズナブル）＆ダイエット進捗」と「連載企画の状況や思ったこと」

かわさきからは「人は流れに乗ればいい」（シャア・アズナブル）やダイエット進捗について、一色からは「連載企画の状況や思ったこと」について書きました。

(2023年10月30日)

AI・機械学習の用語辞典：

加重平均とは？　算術平均との違い、使い分け

用語「加重平均」について説明。算術平均がデータの合計値をデータ数で割った値なのに対し、加重平均は重み付けしたデータの合計値を全ての重みの合計値で割った値を表す。各データが異なる重要度を持つ場合に適した平均の計算方法だ。

(2023年10月16日)

AI・機械学習の用語辞典：

プロンプトエンジニアリング（Prompt Engineering）とは？

用語「プロンプトエンジニアリング」について説明。チャットAI（大規模言語モデル）や画像生成AIなどの生成系AIで、より望ましい返答テキストや画像などが生成されるように、ユーザーがAIモデルに入力する質問や指示のプロンプト（＝テキスト）を工夫することを指す。

(2023年9月20日)

AI・データサイエンス超入門：

知識ゼロからのビジネスAI活用。議事録AIを作ってみよう

生成系AIが注目を集める中、従来の画像認識や音声認識のAIも依然として非常に有用です。この記事では、誰でも手軽にできる疑似体験を通じて、会議時の音声を文字起こしをする「議事録AI」の作成を試みます。一緒にAIの世界へ一歩踏み出しましょう！

(2023年9月7日)

AI・機械学習の用語辞典：

Chain-of-Thought（CoT：思考の連鎖）Prompting（プロンプティング）とは？

用語「思考の連鎖プロンプティング」について説明。問題を解くまでの一連の手順をプロンプトに含めるテクニックを指す。人間の思考プロセスでは、算術などの問題を途中の手順（計算過程）に分解して段階的に解いていくことが一般的だが、それを模倣した、プロンプティングのテクニック。

(2023年8月24日)

AI・機械学習の用語辞典：

Few-shot Learning（フューショット学習）とは？

用語「フューショット学習」について説明。ChatGPTなどの言語モデルが少数の例文から効率的に学習し、多様なタスクを解決できることを指す。大量データが必要な一般的な機械学習や既存モデルの再学習（ファインチューニング）と比べ手軽。また、コンピュータビジョンなど他の機械学習分野でも、少量データから学習する同じ用語が使用されている。

(2023年12月4日)

Deep Insider's Eye　一色＆かわさきの編集後記：

編集後記「執筆者のためのChatGPTの使い方」と『ChatGPTの頭の中』（ハヤカワ新書）

一色からは「執筆者のためのChatGPTの使い方」と「Code Interpreterに見るデータ分析の近未来」について、かわさきからは『ChatGPTの頭の中』（ハヤカワ新書）というお勧め本の概要紹介を書きました。

(2023年7月31日)

AI・機械学習の用語辞典：

Zero-shot Learning（ゼロショット学習）とは？

用語「ゼロショット学習」について説明。訓練データに存在しない新しいクラスやタスクに対しても有用な予測／分類を行うための学習方法のことで、特にChatGPTの言語モデルなどでは、ファインチューニングすることなく、かつ例文もない状態で、さまざまなタスクを解決する能力を持つことを指す。

(2023年7月27日)

AI・データサイエンス超入門：

初めてのデータ分析。手軽に体験してみよう

データ分析とは具体的にどのようなことをするのか？　全くイメージが湧かない人、自分ではやってみたことがない人に向けて、気軽な疑似体験を通してデータ分析の雰囲気をお伝えします。具体的には、データを整理／変換し、グラフを作成して統計量も計算。さらにデータから次の数値を予測してみます。

(2023年7月13日)

AI・機械学習の用語辞典：

大規模言語モデルの「創発的」能力（Emergent Abilities of Large Language Models）とは？

用語「創発」について説明。大規模言語モデルの計算量やパラメーター数が非常に大きくなると、“あるところ”を境に、突然、新しい能力を獲得して性能が大きく向上する現象を指す。

(2023年7月5日)

AI・機械学習の用語辞典：

フランケンシュタイン・コンプレックス（Frankenstein Complex）とは？

用語「フランケンシュタイン・コンプレックス」について説明。自己意識を持つ機械（AI／ロボット）が暴走して人間に反逆するなど厄災をもたらすようになる可能性に対する根拠のない恐怖を指す。

(2023年6月21日)

AI・機械学習の用語辞典：

RLHF（人間のフィードバックによる強化学習）とは？

用語「RLHF」について説明。人間のフィードバックを使ってAIモデルを強化学習する手法を指す。OpenAIのChatGPT／InstructGPTでは、人間の価値基準に沿うように、言語モデルをRLHFでファインチューニング（微調整）している。

(2024年4月8日)

AI・機械学習の用語辞典：

言語モデルのスケーリング則（Scaling Laws for Neural Language Models）とは？

用語「スケーリング則」について説明。自然言語処理モデルのサイズ（＝パラメーター数）や、データセットのサイズ、トレーニングに使用される計算量が増えるほど、より高い性能を発揮できる、という法則を指す。

(2023年5月24日)

AI・データサイエンス超入門：

社会人が学ぶべき、やさしいAI・データサイエンス

生成系AIを中心に、今、データ＆AI活用が一般社会に広まってきています。そもそも「データ」や「AI」「データ分析」「データサイエンス」とは何なのか。それらの概念を説明し、AI・データサイエンスの全体像を整理します。さらに、社会人がAI・データサイエンスを学ばなければならない理由と学ぶ方法を紹介します。

(2023年5月18日)

AI・機械学習の用語辞典：

AI効果（AI effect）とは？

用語「AI効果」について説明。「最新のAI」として話題になった技術が、一般社会に受け入れられて普通に使われるようなるにつれて、「AI」とは呼ばれなくなる現象を指す。

(2023年5月10日)

Deep Insider's Eye　一色＆かわさきの編集後記：

編集後記「chocoZAP始めました」「Deep Insiderの2023年の方針」

かわさきからは「chocoZAP始めました」という題で低価格でコンビニ的なジムでダイエットを始めたことについて、一色からは「Deep Insiderの2023年の方針」という題で「Deep Insiderって何を考えて今後の記事を出していくの？」という話について書きました。

(2023年4月27日)

AI・機械学習の用語辞典：

イライザ効果（ELIZA effect）とは？

用語「イライザ効果」について説明。コンピュータプログラム／AIモデルの動作が人間の動作に類似していると無意識に想定する傾向のこと、つまり例えばチャットボット／チャットAIを「擬人化」して感情移入することを指す。

(2023年4月17日)

AI・機械学習のデータセット辞典：

GLUE：英語用の一般言語理解評価ベンチマーク

データセット「GLUE」について説明。英語で自然言語処理モデルの性能を評価するための標準ベンチマーク。英語文法の正しさ判定などの9つのタスク（CoLA／SST-2／MRPC／STS-B／QQP／MNLI／QNLI／RTE／WNLI）に対応するデータセットのコレクション。

(2023年4月5日)

AI・機械学習の用語辞典：

ハルシネーション（Hallucination）とは？

ハルシネーションとは、チャットAIなどが、もっともらしい誤情報（＝事実とは異なる内容や、文脈と無関係な内容）を生成することを指す。AIから返答を受け取った人間が「本当かどうか」の判断に困るという問題がある。この問題を回避する方法として、独自の情報源を付与するRAGや、Webアクセスを含める機能などがある。

(2024年3月4日)

5分で分かるシリーズ：

5分で分かるデータサイエンス

データサイエンスをビジネスで活用したい人に向け、データサイエンスの概要と知るべき理由、データ分析やAIとの違い、必要なスキル、作業フロー、活用シーンを、5分で読めるコンパクトな内容で紹介。最後に、次の一歩を踏み出すための参考情報もまとめる。

(2023年3月20日)

AI・機械学習の用語辞典：

大規模言語モデル（LLM：Large Language Model）とは？

用語「大規模言語モデル」について説明。大量のテキストデータを使ってトレーニングされた自然言語処理のモデルのことを指す。

(2023年9月29日)

5分で分かるシリーズ：

5分で分かるデータ分析

データ分析をビジネスで活用したい人に向け、データ分析の概要と目的、データサイエンスとの違い、メリット、作業フロー、データ分析でできること、データ分析で役立つツールと思考法を、5分で読めるコンパクトな内容で紹介。最後に、次の一歩を踏み出すための参考情報もまとめる。

(2023年3月6日)

AI・機械学習の用語辞典：

基盤モデル（Foundation Model）とは？

用語「基盤モデル」について説明。大量のラベルなしデータを使って事前学習し、その後、幅広い下流タスクに適応できるようにファインチューニングする、という2段階の訓練工程を踏んだ、1つのAI・機械学習モデルのことを指す。

(2023年12月4日)

AI・機械学習の用語辞典：

自己教師あり学習（Self-Supervised Learning：SSL）とは？

用語「自己教師あり学習」について説明。ラベルなしの大量データセットを使って、プレテキストタスク（疑似的なラベルが自動生成された代替のタスク）を解くための事前学習を行う学習方法のこと。その後、ターゲットタスクを解くために、（少量の）別のデータセットを使って事前学習済みモデルをファインチューニングする。

(2023年2月15日)

AI・機械学習の用語辞典：

事前学習（Pre-training）と下流タスク（Downstream Tasks）とは？

用語「事前学習」「下流タスク」について説明。訓練の工程を2段階に分けて、最初に機械学習モデルを訓練することを「事前学習」、次にその事前学習済みモデルを新しいタスクに向けて転移学習／ファインチューニングすることを「下流タスク」と呼ぶ。自己教師あり学習でも同様の用語が使われる。

(2023年2月6日)

Deep Insider's Eye　一色＆かわさきの編集後記：

編集後記「データ＆AIを使う時代への変化」「誰かに何かを伝えるということ」

一色からは「学んできたことと、データ＆AIを使う時代への変化」という題で、自己紹介として学んでいることや時代変化について、かわさきからは「誰かに何かを伝えるということ」という題でDeep Insider編集部内で議論したり考えたりしていることについて書きました。

(2023年1月30日)

AI・機械学習の用語辞典：

ファインチューニング（Fine-tuning：微調整）とは？

用語「ファインチューニング」について説明。「事前学習」した訓練済みニューラルネットワークモデルの一部もしくは全体を、別のデータセットを使って再トレーニングすることで、新しいタスク向けにモデルのパラメーターを微調整することを指す。

(2023年9月11日)

.NET TIPS：

一色 政彦（いっしき まさひこ）

経歴

一色政彦（いっしきまさひこ）