AIは強化学習で“人間のだまし方”を学ぶ──RLHFの副作用、海外チームが24年に報告　「正解っぽい回答」を出力（関連情報）：ちょっと昔のInnovative Tech（AI+）