メディア

ITmedia

一色政彦

一色 政彦(いっしき まさひこ)

機械学習、ディープラーニングの初心者として、記事を発信していきます。


●受賞・資格

- Microsoft MVP for Visual Studio and Development Technologies (11年連続)

- 2017/12/26 JDLA Deep Learning for GENERAL 2017

- 2017/10/11 第二種電気工事士


経歴

1975年8月、福岡県北九州市生まれ。

1999年4月、九州大学文学部を卒業後、ソフトウェア パッケージ ベンダーに入社。開発部で技術研究や基礎開発の業務に携わる。

2003年2月、福岡から上京。

2003年4月、フリーランスのテクニカル ライターとなり、開発者、ITプロ向けの記事を執筆。

2003年11月、(株)デジタルアドバンテージに入社して、@IT/Insider.NETの編集者兼ライターとなる。

2013年4月、@ITの編集者を兼務しつつ、新サイト「Build Insider」の編集長に就任。

2018年4月、機械学習エンジニア向けの新サイト「Deep Insider」の編集長に就任。編集に記事執筆に活躍中。


このエントリーをはてなブックマークに追加
記事一覧

AI・機械学習のデータセット辞典:

データセット「Food-101」について説明。10万1000枚、101種類の料理カラー写真(アップルパイや餃子など)の「画像+ラベル」データが無料でダウンロードでき、画像認識などのディープラーニングに利用できる。TensorFlowにおける利用コードも紹介。

()

AI・機械学習の用語辞典:

用語「トロッコ問題」について説明。「多くの人を助けるためなら、1人を犠牲にしてもよいのか」という倫理的ジレンマを問う思考実験を指す。この問題に正解はない。自動運転で注目されている。

()

AI・機械学習のデータセット辞典:

データセット「Open Images Dataset」について説明。物体検知用の境界ボックスや、セグメンテーション用のマスク、視覚的な関係性、Localized Narrativesといったアノテーションが施された、約900万枚と非常に膨大な数の画像データセット。その概要と使い方を紹介する。

()

AI・機械学習の用語辞典:

用語「フレーム問題」について説明。有限の処理能力しか持たないAI/ロボットは、無限の可能性を含む現実的な課題において、その課題に関係のあることだけを選び出して(=フレームを設定して)適切に実行するのが難しいことを指す。

()

AI・機械学習の用語辞典:

用語「Garbage In, Garbage Out」について説明。ゴミ(Garbage)のような不良データを入力すると、出来上がる機械学習モデルもゴミのように不良なものになる、という戒め/金言のこと。ゴミを入れないのは簡単なように見えて難しい。

()

イベントから学ぶ最新技術情報:

コロナ禍で日常業務や大学講義がオンライン&リモート化した人は多いだろう。そのメリットとデメリットは何か? デメリットを解消するために、どのような工夫をするとよいのか? データサイエンティスト人材の育成はコロナ禍でどういう状況なのか? データサイエンティスト協会主催Webセミナーにおけるパネルディスカッションの一部内容を紹介する。

()

AI・機械学習のデータセット辞典:

データセット「QMNIST」について説明。MNISTを改良してテストデータを1万から6万に増やし、合計12万枚となった手書き数字の「画像+ラベル」データが無料でダウンロードでき、画像認識などのディープラーニングに利用できる。PyTorchにおける利用コードやTensorFlowにおける情報も紹介。

()

AI・機械学習の用語辞典:

用語「トイプロブレム」について説明。迷路やオセロのようにルールとゴールが決まっている世界の問題をAIで解くことであり、転じて、そのような世界観の問題しか解けないことを指す。第1次AIブームを終焉(しゅうえん)させた理由とされる。

()

AI・機械学習のデータセット辞典:

データセット「EMNIST」について説明。81万枚〜7万枚の手書きアルファベットおよび数字の「画像+ラベル」データが無料でダウンロードでき、画像認識などのディープラーニングに利用できる。PyPIパッケージ、TensorFlow、PyTorchにおける利用コードも紹介。

()

AI・機械学習の用語辞典:

用語「モラベックのパラドックス」について説明。機械学習モデルを含むAI(人工知能)やロボット工学において、大人が行うような高度な知性に基づく推論よりも、1歳児が行うような本能に基づく運動スキルや知覚を身に付ける方がはるかに難しい、という定説を示す。

()

AI・機械学習の用語辞典:

用語「偏りと分散のトレードオフ」について説明。機械学習モデルによる予測において汎化誤差を最小化させるために、偏り誤差を小さくするとバラツキ(分散)誤差が大きくなり、逆にバラツキ誤差を小さくすると偏り誤差が大きくなるという、両者のトレードオフの関係性を示す。

()

AI・機械学習のデータセット辞典:

データセット「ImageNet」について説明。1400万枚以上のカラー写真(教師ラベルは2万カテゴリー)の画像データ(のURLなど)が無料でダウンロードでき、画像認識などに利用できる。主に研究/教育目的で用いられてきた歴史的に有名なデータセットであるが、現在では多くの問題も指摘されている。

()

AI・機械学習の用語辞典:

用語「内挿/外挿(Interpolation/Extrapolation)」について説明。機械学習モデルで、訓練データの範囲内で出力を求めることを「内挿」、範囲外で求めることを「外挿」と呼ぶ。機械学習モデルは、原理的に内挿は得意だが、外挿は苦手。

()

AI・機械学習のデータセット辞典:

日本政府が公開するオープンデータの中でも、機械学習/データサイエンスに活用できるお勧めのデータセットを厳選して紹介する。具体的には「e-Stat(政府統計の総合窓口)」「Tellus(衛星データプラットフォーム)」「過去の気象データ(気象庁)」の3つ。

()

TensorFlow 2+Keras(tf.keras)入門:

回帰問題や時系列予測で使える代表的な評価関数をまとめ、使い分け指針を示す。平均絶対誤差(MAE)、平均二乗誤差(MSE)とその平方根(RMSE)、平均二乗対数誤差(MSLE)とその平方根(RMSLE)、平均絶対パーセント誤差(MAPE)、平均二乗パーセント誤差の平方根(RMSPE)を解説。回帰分析用の決定係数にも触れる。

()

AI・機械学習の用語辞典:

用語「バーニーおじさんのルール(Uncle Bernie's rule)」について説明。ニューラルネットワークの重みパラメーター数の10倍以上の訓練データが最低限必要であるとする経験則を指す。

()

AI・機械学習のデータセット辞典:

「300個以上のデータセットを紹介している大型サイト」「毎週/毎月のようにアクティブに更新されているサイト」という条件に該当するお勧めのデータセット一覧サイトとして「arXivTimes/DataSets」「Awesome Public Datasets」「UCI Machine Learning Repository」の3つを紹介する。

()

AI・機械学習の用語辞典:

用語「ノーフリーランチ定理(No Free Lunch theorem)」について説明。全ての問題において優れた性能を発揮できる“万能”の「教師ありの機械学習モデル」や「探索/最適化のアルゴリズム」など(=無料のランチ)は理論上、存在しないことを指す。

()

AI・機械学習のデータセット辞典:

世界中のデータセットがググれる(=Google検索できる)「Dataset Search」を紹介。検索結果のフィルタリングや、日本語対応、対象ページを開く方法、内容記載などについて言及する。

()

AI・機械学習のデータセット辞典:

データセット「Large Movie Review」について説明。IMDbサイト上での5万件の「テキスト(映画レビューコメント)」+「ラベル(ポジティブ/ネガティブの感情)」が無料でダウンロードでき、二値分類問題などのディープラーニングや機械学習に利用できる。元データの内容や、TensorFlow、Keras、PyTorchなどにおける利用コードも紹介。

()

AI・機械学習のデータセット辞典:

データセット「Titanic」について説明。1309件の「タイタニック号乗客者の生存状況」の「表形式データ(年齢や性別などの13項目)」+「ラベル(生存状況)」が無料でダウンロードでき、分類問題などのディープラーニングや統計学/データサイエンスに利用できる。scikit-learn、TensorFlow、Kaggleにおける利用コードも紹介。

()

AI・機械学習の用語辞典:

用語「次元の呪い」について説明。特徴量などの次元が多くなるほど、必要な訓練データの量が「指数関数」的に増えてしまう現象を指す。

()

AI・機械学習のデータセット辞典:

データセット「Boston Housing」について説明。506件のボストンの住宅価格の「表形式データ(部屋数や犯罪率などの13項目)」+「ラベル(住宅価格)」が無料でダウンロードでき、回帰問題などのディープラーニングや統計学/データサイエンスに利用できる。scikit-learn、Keras/tf.keras、TensorFlowにおける利用コードも紹介。

()

AI・機械学習のクラウドサービス:

「AWS AIサービス」「Azure Cognitive Services」「Google Cloud AIビルディングブロック」「IBM Watson API」という主要AIサービスの一覧表を示し、各サービスを1行程度で説明する。自分でAI/機械学習モデルを作る前に、既存のAIサービスがないか(カスタマイズできないか)を、これで確認しよう。

()

AI・機械学習のデータセット辞典:

データセット「CIFAR-100」について説明。6万枚の物体カラー写真(動植物や機器、乗り物など100種類)の「画像+ラベル」データが無料でダウンロードでき、画像認識などのディープラーニングに利用できる。Keras/tf.keras、TensorFlow、PyTorchにおける利用コードも紹介。

()

AI・機械学習のデータセット辞典:

データセット「CIFAR-10」について説明。6万枚の物体カラー写真(乗り物や動物など)の「画像+ラベル」データが無料でダウンロードでき、画像認識などのディープラーニングに利用できる。scikit-learn、Keras/tf.keras、TensorFlow、PyTorchにおける利用コードも紹介。

()

TensorFlow 2+Keras(tf.keras)入門:

回帰問題の次は、分類問題の基礎をマスターしよう。二値分類/多クラス分類の場合で一般的に使われる活性化関数や損失関数をしっかりと押さえる。また過学習問題の対処方法について言及する。

()

AI・機械学習の用語辞典:

用語「SELU(Scaled Exponential Linear Unit)」について説明。「0」を基点として、入力値が0以下なら「0」〜「-λα」(λは基本的に約1.0507、αは基本的に約1.6733)の間の値を、0より上なら「入力値をλ倍した値」を返す、ニューラルネットワークの活性化関数を指す。ReLUおよびELUの拡張版。

()

AI・機械学習のデータセット辞典:

データセット「Fashion-MNIST」について説明。7万枚の写真(ファッション商品)の「画像+ラベル」データが無料でダウンロードでき、画像認識などのディープラーニングに利用できる。scikit-learn、Keras/tf.keras、TensorFlow、PyTorchにおける利用コードも紹介。

()

AI・機械学習の用語辞典:

用語「ELU(Exponential Linear Unit)」について説明。「0」を基点として、入力値が0以下なら「0」〜「-α」(αは基本的に1.0)の間の値を、0より上なら「入力値と同じ値」を返す、ニューラルネットワークの活性化関数を指す。ReLUの拡張版。

()

AI・機械学習の独学リソース:

今や無料の動画だけでも、AI・機械学習・ディープラーニングは手軽に楽しく学べる。「機械学習/ディープラーニングに必要な数学」「機械学習/ディープラーニングの概要」「ディープラーニングの技術理解」の観点で、初心者にお勧めの無料動画を紹介する。

()

AI・機械学習の用語辞典:

用語「PReLU(Parametric ReLU)」について説明。「0」を基点として、入力値が0より下なら「入力値をα倍した値」(αはパラメーターであり学習により決まる)、0以上なら「入力値と同じ値」を返す、ニューラルネットワークの活性化関数を指す。ReLUやLeaky ReLUの拡張版。

()

人気連載まとめ読み! @IT eBook(64):

人気過去連載を電子書籍化して無料ダウンロード提供する@IT eBookシリーズ。第64弾は、AI・機械学習・ディープラーニングの仕組み理解と初めての実践をサポートする連載記事。直感的に理解できる図解中心で気楽に学べる。

()

気になるニュース&ネット記事:

Kerasの公式サイト「keras.io」が完全リニューアル。Kerasのインストール方法やkerasモジュールのインポート方法に関する説明が変わった。「tf.kerasに一本化」とはどういうことなのかを解説する。

()

AI・機械学習の用語辞典:

用語「Leaky ReLU(Leaky Rectified Linear Unit)/LReLU」について説明。「0」を基点として、入力値が0より下なら「入力値とα倍した値」(α倍は基本的に0.01倍)、0以上なら「入力値と同じ値」を返す、ニューラルネットワークの活性化関数を指す。ReLUの拡張版。

()

AI・機械学習の用語辞典:

用語「Mish関数」について説明。「0」を基点として、入力値が0以下なら出力値は「ほぼ0」だが(わずかに「負の値」になる)、0より上なら「入力値とほぼ同じ値」を返す、ニューラルネットワークの活性化関数を指す。類似するReLUやSwish関数の代替として使われる。

()

@IT/Deep Insiderの歩き方:

Pythonや機械学習(ディープラーニング)を学ぶための学習リソースとして、@IT/Deep Insider上にある連載(技術解説記事)を、「Python」「開発環境」「数学/統計/データサイエンス」「ディープラーニング/機械学習」という4つの分野で紹介する(全18連載)。

()

AI・機械学習の用語辞典:

用語「ソフトプラス関数」について説明。途中から右肩上がりになる滑らかな曲線で、「0」〜「∞」の間の値(入力値が0以下なら「0」に近い数値、0より上なら「入力値と同じ値」に近い数値)を返す、ニューラルネットワークの活性化関数を指す。

()