このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
米Metaに所属する研究者らが発表した論文「balance - a Python package for balancing biased data samples」は、参加者グループの範囲指定により発生する、アンケート調査の偏ったデータをバランス調整するオープンソースのPyPythonパッケージを提案した研究報告である。
アンケートは重要な研究ツールであり、他の手段では測定できない感情や意見などの主観的な経験に関するユニークな測定値を提供する。しかし、調査データは自ら選択した参加者グループから収集されるため、そこから対象集団への洞察を直接推論したり、そのようなデータで機械学習モデルをトレーニングしたりすると、誤った推定や性能の低いモデルにつながる可能性がある。
この研究では、上記の原因で偏ったデータサンプルのバランスをとるためのPythonパッケージ「balance」を提案する。balanceは、データの重み付けとそのバイアス(偏り)を評価するためのシンプルで使いやすいフレームワークである。
このパッケージは、重みのベストプラクティスを提供するように設計されており、いくつかのモデリングアプローチを提供する。balanceの方法論は、調査データのアドホック分析だけでなく、継続的な自動調査データ処理をサポートできる。
balanceワークフローには、3つのステップがある。まず、推論したいターゲットに対するデータの初期バイアスを理解する。次に、傾向スコアに基づいてサンプル内の各ユニットの重みを作成し、データを調整してバイアスを補正する。そして最後に、適用した重みを評価して、最終的なバイアスとバリアンス(分散)を評価する。
調整ステップでは、「LASSO」(Least Absolute Shrinkage and Selection Operator)、「Covariate Balancing Propensity Scores」「Raking」「post-stratification」など、データサイエンティストや研究者が選択できるいくつかの手法が提供されている。
Source and Image Credits: Sarig, Tal, Tal Galili, and Roee Eilat. "balance--a Python package for balancing biased data samples." arXiv preprint arXiv:2307.06024(2023).
AIの仕組みをアニメーション化できるPythonライブラリ「ManimML」 米研究者らが開発
無料Webクローラー「EasySpider」 プログラミングスキル不要、マウスクリックだけで操作可能
ChatGPT、データ分析もできちゃうのか 新機能「Code interpreter」でデータ読み込み、Python実行が可能に アイデア続々
無料で商用可、ChatGPT(3.5)に匹敵する生成AI「Llama 2」 Metaが発表、Microsoftと優先連携
米Microsoftら、“コーディング専用”大規模言語モデル「WizardCoder」開発 文章から高品質なコード出力Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR