ITmedia NEWS > 科学・テクノロジー >

アンケート調査の偏ったデータをバランス調整するPythonモデル「balance」 米Metaが開発Innovative Tech

» 2023年07月24日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: @shiropen2

 米Metaに所属する研究者らが発表した論文「balance - a Python package for balancing biased data samples」は、参加者グループの範囲指定により発生する、アンケート調査の偏ったデータをバランス調整するオープンソースのPyPythonパッケージを提案した研究報告である。

「balance」のロゴ

 アンケートは重要な研究ツールであり、他の手段では測定できない感情や意見などの主観的な経験に関するユニークな測定値を提供する。しかし、調査データは自ら選択した参加者グループから収集されるため、そこから対象集団への洞察を直接推論したり、そのようなデータで機械学習モデルをトレーニングしたりすると、誤った推定や性能の低いモデルにつながる可能性がある。

 この研究では、上記の原因で偏ったデータサンプルのバランスをとるためのPythonパッケージ「balance」を提案する。balanceは、データの重み付けとそのバイアス(偏り)を評価するためのシンプルで使いやすいフレームワークである。

 このパッケージは、重みのベストプラクティスを提供するように設計されており、いくつかのモデリングアプローチを提供する。balanceの方法論は、調査データのアドホック分析だけでなく、継続的な自動調査データ処理をサポートできる。

 balanceワークフローには、3つのステップがある。まず、推論したいターゲットに対するデータの初期バイアスを理解する。次に、傾向スコアに基づいてサンプル内の各ユニットの重みを作成し、データを調整してバイアスを補正する。そして最後に、適用した重みを評価して、最終的なバイアスとバリアンス(分散)を評価する。

ワークフローの図

 調整ステップでは、「LASSO」(Least Absolute Shrinkage and Selection Operator)、「Covariate Balancing Propensity Scores」「Raking」「post-stratification」など、データサイエンティストや研究者が選択できるいくつかの手法が提供されている。

Source and Image Credits: Sarig, Tal, Tal Galili, and Roee Eilat. "balance--a Python package for balancing biased data samples." arXiv preprint arXiv:2307.06024(2023).



Copyright © ITmedia, Inc. All Rights Reserved.