メディア

一色政彦

一色 政彦(いっしき まさひこ)

機械学習、ディープラーニングの初心者として、記事を発信していきます。


●受賞・資格

- Microsoft MVP for Visual Studio and Development Technologies (11年連続)

- 2017/12/26 JDLA Deep Learning for GENERAL 2017

- 2017/10/11 第二種電気工事士


経歴

1975年8月、福岡県北九州市生まれ。

1999年4月、九州大学文学部を卒業後、ソフトウェア パッケージ ベンダーに入社。開発部で技術研究や基礎開発の業務に携わる。

2003年2月、福岡から上京。

2003年4月、フリーランスのテクニカル ライターとなり、開発者、ITプロ向けの記事を執筆。

2003年11月、(株)デジタルアドバンテージに入社して、@IT/Insider.NETの編集者兼ライターとなる。

2013年4月、@ITの編集者を兼務しつつ、新サイト「Build Insider」の編集長に就任。

2018年4月、機械学習エンジニア向けの新サイト「Deep Insider」の編集長に就任。編集に記事執筆に活躍中。


このエントリーをはてなブックマークに追加
記事一覧

5分で分かるシリーズ:

機械学習をビジネスで活用したい人に向け、最新技術情報に基づき、機械学習の概要、統計学との違い、機械学習の作業フローと学習方法、回帰/分類/クラスタリング/次元削減に使える手法、次の一歩を踏み出すための参考情報を、5分で読めるコンパクトな内容で紹介する。

()

5分で分かるシリーズ:

人工知能をビジネスで活用したい人に向け、最新技術情報に基づき、人工知能の概要、注目される理由、歴史と課題、できること、次の一歩を踏み出すための参考情報を、5分で読めるコンパクトな内容で紹介する。

()

AI・機械学習の独学リソース:

機械学習やディープラーニングに必要な数学項目をピックアップし、そういった項目を教科書的〜実践的にカバーしているオススメの「数学」本を紹介する。また中学〜大学までの数学全体を学び直したい人向けの本も紹介。

()

AI・機械学習の用語辞典:

用語「シンプソンのパラドックス」について説明。主に層別の分割表において、グループ間に見られる相関関係が「全体でも成り立つだろう」と直感的に推測されるのに対し、場合によっては、全体では異なる結果になる現象を指す。

()

AI・機械学習の用語辞典:

用語「身体性」について説明。物理的に身体が存在することによる効果を論じる問題を指す。現状のコンピュータ/人工知能は必ずしも身体性を有していないので、人間と同じようには知能を獲得できないとされる。

()

AI・機械学習のデータセット辞典:

4つの人気クラウドプラットフォームで手軽に利用できるオープンなデータセットの一覧ページである「Registry of Open Data on AWS」「Azure Open Datasets」「Google Cloud 一般公開データセット」「IBM Developerの『データセット』カテゴリー」を紹介する。

()

AI・機械学習の用語辞典:

用語「シンボルグラウンディング問題」について説明。記号(言葉)が実世界の意味に結び付いているかを論じる問題を指す。現状のコンピュータ/人工知能は必ずしも結び付いておらず、言葉を理解していないとされる。

()

AI・機械学習のデータセット辞典:

データセット「Wiki-40B」について説明。高品質に加工された、英語や日本語を含む40以上の言語におけるWikipediaテキストが無料でダウンロードでき、自然言語処理の言語モデルの作成などに利用できる。TensorFlowにおける利用コードも紹介。

()

気になるニュース&ネット記事:

2020年は、自然言語処理(NLP)のTransformer技術に基づくBERT/GPT-3や、画像生成のディープフェイクが大注目となる一方で、倫理に関する問題がさまざまな方面でくすぶり続けた。2021年の「AI/機械学習」界わいはどう変わっていくのか? 幾つかの情報源を参考に、5個の予測を行う。

()

AI・機械学習の用語辞典:

用語「中国語の部屋」について説明。チューリングテストへの反論として提起された思考実験。中国語による質疑応答テストで、英語しか分からない人が中国語の質問に適切に回答できる方法を提示することで、この種のテストに合格しても「中国を理解していることは意味しない」という点を反論の根拠とする。

()

AI・機械学習のデータセット辞典:

データセット「Food-101N」について説明。31万9枚、101種類の料理カラー写真(アップルパイや餃子など)の「画像+ラベル」データが無料でダウンロードでき、ラベルノイズ問題の研究や画像認識などのディープラーニングに利用できる。

()

AI・機械学習の用語辞典:

用語「チューリングテスト」について説明。機械(=人工知能)が人間の模倣をして、人間がそれに気付かないかをテストすること。手順としは、審査員と、機械もしくは人間とで、自然言語による会話を行い、最後に審査員は会話相手が機械か人間かを判定する。

()

AI・機械学習のデータセット辞典:

データセット「Food-101」について説明。10万1000枚、101種類の料理カラー写真(アップルパイや餃子など)の「画像+ラベル」データが無料でダウンロードでき、画像認識などのディープラーニングに利用できる。TensorFlowにおける利用コードも紹介。

()

AI・機械学習の用語辞典:

用語「トロッコ問題」について説明。「多くの人を助けるためなら、1人を犠牲にしてもよいのか」という倫理的ジレンマを問う思考実験を指す。この問題に正解はない。自動運転で注目されている。

()

AI・機械学習のデータセット辞典:

データセット「Open Images Dataset」について説明。物体検知用の境界ボックスや、セグメンテーション用のマスク、視覚的な関係性、Localized Narrativesといったアノテーションが施された、約900万枚と非常に膨大な数の画像データセット。その概要と使い方を紹介する。

()

AI・機械学習の用語辞典:

用語「フレーム問題」について説明。有限の処理能力しか持たないAI/ロボットは、無限の可能性を含む現実的な課題において、その課題に関係のあることだけを選び出して(=フレームを設定して)適切に実行するのが難しいことを指す。

()

AI・機械学習の用語辞典:

用語「Garbage In, Garbage Out」について説明。ゴミ(Garbage)のような不良データを入力すると、出来上がる機械学習モデルもゴミのように不良なものになる、という戒め/金言のこと。ゴミを入れないのは簡単なように見えて難しい。

()

イベントから学ぶ最新技術情報:

コロナ禍で日常業務や大学講義がオンライン&リモート化した人は多いだろう。そのメリットとデメリットは何か? デメリットを解消するために、どのような工夫をするとよいのか? データサイエンティスト人材の育成はコロナ禍でどういう状況なのか? データサイエンティスト協会主催Webセミナーにおけるパネルディスカッションの一部内容を紹介する。

()

AI・機械学習のデータセット辞典:

データセット「QMNIST」について説明。MNISTを改良してテストデータを1万から6万に増やし、合計12万枚となった手書き数字の「画像+ラベル」データが無料でダウンロードでき、画像認識などのディープラーニングに利用できる。PyTorchにおける利用コードやTensorFlowにおける情報も紹介。

()

AI・機械学習の用語辞典:

用語「トイプロブレム」について説明。迷路やオセロのようにルールとゴールが決まっている世界の問題をAIで解くことであり、転じて、そのような世界観の問題しか解けないことを指す。第1次AIブームを終焉(しゅうえん)させた理由とされる。

()

AI・機械学習のデータセット辞典:

データセット「EMNIST」について説明。81万枚〜7万枚の手書きアルファベットおよび数字の「画像+ラベル」データが無料でダウンロードでき、画像認識などのディープラーニングに利用できる。PyPIパッケージ、TensorFlow、PyTorchにおける利用コードも紹介。

()

AI・機械学習の用語辞典:

用語「モラベックのパラドックス」について説明。機械学習モデルを含むAI(人工知能)やロボット工学において、大人が行うような高度な知性に基づく推論よりも、1歳児が行うような本能に基づく運動スキルや知覚を身に付ける方がはるかに難しい、という定説を示す。

()

AI・機械学習の用語辞典:

用語「偏りと分散のトレードオフ」について説明。機械学習モデルによる予測において汎化誤差を最小化させるために、偏り誤差を小さくするとバラツキ(分散)誤差が大きくなり、逆にバラツキ誤差を小さくすると偏り誤差が大きくなるという、両者のトレードオフの関係性を示す。

()

AI・機械学習のデータセット辞典:

データセット「ImageNet」について説明。1400万枚以上のカラー写真(教師ラベルは2万カテゴリー)の画像データ(のURLなど)が無料でダウンロードでき、画像認識などに利用できる。主に研究/教育目的で用いられてきた歴史的に有名なデータセットであるが、現在では多くの問題も指摘されている。

()

AI・機械学習の用語辞典:

用語「内挿/外挿(Interpolation/Extrapolation)」について説明。機械学習モデルで、訓練データの範囲内で出力を求めることを「内挿」、範囲外で求めることを「外挿」と呼ぶ。機械学習モデルは、原理的に内挿は得意だが、外挿は苦手。

()

AI・機械学習のデータセット辞典:

日本政府が公開するオープンデータの中でも、機械学習/データサイエンスに活用できるお勧めのデータセットを厳選して紹介する。具体的には「e-Stat(政府統計の総合窓口)」「Tellus(衛星データプラットフォーム)」「過去の気象データ(気象庁)」の3つ。

()

TensorFlow 2+Keras(tf.keras)入門:

回帰問題や時系列予測で使える代表的な評価関数をまとめ、使い分け指針を示す。平均絶対誤差(MAE)、平均二乗誤差(MSE)とその平方根(RMSE)、平均二乗対数誤差(MSLE)とその平方根(RMSLE)、平均絶対パーセント誤差(MAPE)、平均二乗パーセント誤差の平方根(RMSPE)を解説。回帰分析用の決定係数にも触れる。

()

AI・機械学習の用語辞典:

用語「バーニーおじさんのルール(Uncle Bernie's rule)」について説明。ニューラルネットワークの重みパラメーター数の10倍以上の訓練データが最低限必要であるとする経験則を指す。

()

AI・機械学習のデータセット辞典:

「300個以上のデータセットを紹介している大型サイト」「毎週/毎月のようにアクティブに更新されているサイト」という条件に該当するお勧めのデータセット一覧サイトとして「arXivTimes/DataSets」「Awesome Public Datasets」「UCI Machine Learning Repository」の3つを紹介する。

()

AI・機械学習の用語辞典:

用語「ノーフリーランチ定理(No Free Lunch theorem)」について説明。全ての問題において優れた性能を発揮できる“万能”の「教師ありの機械学習モデル」や「探索/最適化のアルゴリズム」など(=無料のランチ)は理論上、存在しないことを指す。

()

AI・機械学習のデータセット辞典:

世界中のデータセットがググれる(=Google検索できる)「Dataset Search」を紹介。検索結果のフィルタリングや、日本語対応、対象ページを開く方法、内容記載などについて言及する。

()

AI・機械学習のデータセット辞典:

データセット「Large Movie Review」について説明。IMDbサイト上での5万件の「テキスト(映画レビューコメント)」+「ラベル(ポジティブ/ネガティブの感情)」が無料でダウンロードでき、二値分類問題などのディープラーニングや機械学習に利用できる。元データの内容や、TensorFlow、Keras、PyTorchなどにおける利用コードも紹介。

()

AI・機械学習のデータセット辞典:

データセット「Titanic」について説明。1309件の「タイタニック号乗客者の生存状況」の「表形式データ(年齢や性別などの13項目)」+「ラベル(生存状況)」が無料でダウンロードでき、分類問題などのディープラーニングや統計学/データサイエンスに利用できる。scikit-learn、TensorFlow、Kaggleにおける利用コードも紹介。

()

AI・機械学習の用語辞典:

用語「次元の呪い」について説明。特徴量などの次元が多くなるほど、必要な訓練データの量が「指数関数」的に増えてしまう現象を指す。

()

AI・機械学習のデータセット辞典:

データセット「Boston Housing」について説明。506件のボストンの住宅価格の「表形式データ(部屋数や犯罪率などの13項目)」+「ラベル(住宅価格)」が無料でダウンロードでき、回帰問題などのディープラーニングや統計学/データサイエンスに利用できる。scikit-learn、Keras/tf.keras、TensorFlowにおける利用コードも紹介。

()

AI・機械学習のクラウドサービス:

「AWS AIサービス」「Azure Cognitive Services」「Google Cloud AIビルディングブロック」「IBM Watson API」という主要AIサービスの一覧表を示し、各サービスを1行程度で説明する。自分でAI/機械学習モデルを作る前に、既存のAIサービスがないか(カスタマイズできないか)を、これで確認しよう。

()

AI・機械学習のデータセット辞典:

データセット「CIFAR-100」について説明。6万枚の物体カラー写真(動植物や機器、乗り物など100種類)の「画像+ラベル」データが無料でダウンロードでき、画像認識などのディープラーニングに利用できる。Keras/tf.keras、TensorFlow、PyTorchにおける利用コードも紹介。

()