アンケート調査の偏ったデータをバランス調整するPythonモデル「balance」 米Metaが開発:Innovative Tech
米Metaに所属する研究者らは、参加者グループの範囲指定により発生する、アンケート調査の偏ったデータをバランス調整するオープンソースのPyPythonパッケージを提案した研究報告を発表した。
Innovative Tech:
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
米Metaに所属する研究者らが発表した論文「balance - a Python package for balancing biased data samples」は、参加者グループの範囲指定により発生する、アンケート調査の偏ったデータをバランス調整するオープンソースのPyPythonパッケージを提案した研究報告である。
アンケートは重要な研究ツールであり、他の手段では測定できない感情や意見などの主観的な経験に関するユニークな測定値を提供する。しかし、調査データは自ら選択した参加者グループから収集されるため、そこから対象集団への洞察を直接推論したり、そのようなデータで機械学習モデルをトレーニングしたりすると、誤った推定や性能の低いモデルにつながる可能性がある。
この研究では、上記の原因で偏ったデータサンプルのバランスをとるためのPythonパッケージ「balance」を提案する。balanceは、データの重み付けとそのバイアス(偏り)を評価するためのシンプルで使いやすいフレームワークである。
このパッケージは、重みのベストプラクティスを提供するように設計されており、いくつかのモデリングアプローチを提供する。balanceの方法論は、調査データのアドホック分析だけでなく、継続的な自動調査データ処理をサポートできる。
balanceワークフローには、3つのステップがある。まず、推論したいターゲットに対するデータの初期バイアスを理解する。次に、傾向スコアに基づいてサンプル内の各ユニットの重みを作成し、データを調整してバイアスを補正する。そして最後に、適用した重みを評価して、最終的なバイアスとバリアンス(分散)を評価する。
調整ステップでは、「LASSO」(Least Absolute Shrinkage and Selection Operator)、「Covariate Balancing Propensity Scores」「Raking」「post-stratification」など、データサイエンティストや研究者が選択できるいくつかの手法が提供されている。
Source and Image Credits: Sarig, Tal, Tal Galili, and Roee Eilat. "balance--a Python package for balancing biased data samples." arXiv preprint arXiv:2307.06024(2023).
関連記事
- AIの仕組みをアニメーション化できるPythonライブラリ「ManimML」 米研究者らが開発
米ジョージア工科大学に所属する研究者らは、機械学習(ML)アーキテクチャの概念をアニメーションやビジュアライゼーションに変換できるPythonライブラリを提案した研究報告を発表した。 - 無料Webクローラー「EasySpider」 プログラミングスキル不要、マウスクリックだけで操作可能
シンガポール国立大学と中国の浙江大学に所属する研究者らは、Excelを使用するように視覚的にWebスクレイピングタスクを設計し、実行できるカスタマイズ可能なWebクローラーシステムを提案した研究報告を発表した。 - ChatGPT、データ分析もできちゃうのか 新機能「Code interpreter」でデータ読み込み、Python実行が可能に アイデア続々
米OpenAIがAIチャットサービス「ChatGPT」に「Code interpreter」という機能のβ版を追加した。これによりファイルをアップロードできるようになった他、ChatGPT上でのPythonプログラムの実行にも対応。Twitter上ではさまざまな利用方法が考え出されている。 - 無料で商用可、ChatGPT(3.5)に匹敵する生成AI「Llama 2」 Metaが発表、Microsoftと優先連携
米Metaは7月18日(現地時間)、大規模言語モデル「Llama 2」を発表した。利用は無料で商用利用も可能としている。最大サイズの70億パラメーターモデルは「ChatGPT(の3月1日版)と互角」(同社)という。 - 米Microsoftら、“コーディング専用”大規模言語モデル「WizardCoder」開発 文章から高品質なコード出力
米Microsoftや香港浸会大学に所属する研究者らは、米Hugging Faceが5月に発表したCode LLM(コーディング専用大規模言語モデル)「StarCoder」を軽量で高精度に強化する手法を提案した研究報告を発表した。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.