このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。通常は新規性の高いAI分野の科学論文を解説しているが、ここでは番外編として“ちょっと昔”に発表された個性的な科学論文を取り上げる。
X: @shiropen2
フランスの研究者であるデビット・ピカールさんが2021年に発表した論文「Torch.manual_seed(3407)is all you need: On the influence of random seeds in deep learning architectures for computer vision」は、深層学習アーキテクチャにおいてランダムシード(乱数生成器の初期値)の選択が精度に大きな影響を与えるかを検証した研究報告である。
この研究では、CIFAR-10データセット(6万枚の画像データ)に対して最大1万の異なる乱数シードをResNet9で試し、さらにImageNetデータセットでは事前学習モデル3種を用いて少数のシードを検証した。今回はコンピュータビジョン分野の深層学習モデルに焦点を置く。
結果として、良い精度がでる当たりのシード(または悪いシード)が存在することが分かった。またCIFAR 10では同じモデルでも最大1.82%(89.01%〜90.83%)の精度差が、ImageNetでも約0.5%の精度差を確認できた。コンピュータビジョンの分野ではこの程度の精度差が“有意な差”として論文掲載の決め手になることがある。
つまり、モデル自体や訓練方法を変えなくても、単にランダムシードが異なるだけで論文に採択されるほどの精度差が生じる可能性がある。これは、研究者が試行錯誤の過程で無意識のうちに“良いシード”を選んでいる可能性を示唆している。
この問題を解決するためには、より多くのシードでテストを行い、平均値、標準偏差、最小値、最大値などの統計情報を報告することが重要だと主張している。これにより、単一の実験結果に依存せず、モデルの真の性能をより正確に評価できるようになる。
Source and Image Credits: Picard, David. “Torch. manual_seed(3407)is all you need: On the influence of random seeds in deep learning architectures for computer vision.” arXiv preprint arXiv:2109.08203(2021).
AIが100%突破できない「私はロボットではありません」 海外チームによる新CAPTCHA AI生成の“錯視画像”利用
米国「中国にはAIチップを輸出規制」→テンセントら中国AI企業は回避 “4つの回避法”とは?
“ピクサーの動く卓上ライト”を再現した実機、Appleが開発 人間のような「非人間型ロボット」
Geminiの記憶を「汚染」 生成AIの弱点を突くハッキングの手口、海外の研究者が報告
Google、科学者の研究を助けるマルチエージェントAI「AI co-scientist」提供開始Copyright © ITmedia, Inc. All Rights Reserved.