ニューラルネットが導き出した「とんでもない結論」既に始まっているコンピュータによる意思決定(後編)

機械学習やAIによる「自動意思決定」に期待がかかるが、そこには人間による偏り(バイアス)が入り込む余地があることに注意する必要がある。あるニューラルネットは、学習の結果驚くべき結論を導き出してしまった。

» 2018年01月10日 10時00分 公開
[SA MathiesonComputer Weekly]
Computer Weekly

 前編(Computer Weekly日本語版 2017年12月20日号掲載)では、コンピュータが算出したスコアを基に量刑が決まった裁判から、その妥当性やアルゴリズムの透明性が問題になっている現状を紹介した。

 後編では、学習データに入り込む偏りの問題の解決策を検討する。

Computer Weekly日本語版 1月10日号無料ダウンロード

本記事は、プレミアムコンテンツ「Computer Weekly日本語版 1月10日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。

なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。

ボタンボタン

データ駆動型の意思決定に潜む偏り

 認知科学者のジョアンナ・ブライソン氏は、データ駆動型の意思決定における「偏り」についての研究を進めて、主に3つの対処法があると考えている。

 第1の方法は、偏りがあると認識することだ。「機械学習が順調に稼働している理由は、人間の文化を活用しているからだ。善意も悪意も同時に学んでいる」と同氏は説明する。これは特に、数十年間にわたる意思決定に関するデータに影響を与える可能性がある。しかし、だからといって最近のデータだけを使用すると不規則性の偏りが助長される。

 第2の方法は、民族性、場所、年齢、性別など、偏ることが明白な領域で偏り具合をテストすることだ。この方法はおのずと、IT部門で働く人の多様化につながる可能性がある。人は、自分自身に対する影響を考える傾向が強まるからだ。ただしブライソン氏は、必ずしもそうなるとは限らないと断った上で、次のように注意を促す。「かつてプログラマーだった女性という立場から言うと、それぞれの現場で支配的なグループに吸収されてしまうことが少なくない」

 第3の方策として、データやアルゴリズムを利用する人々は、監査や監視に慣れなければならないとブライソン氏は指摘する。米国で強大な権力を持つ政府機関であるFDA(食品医薬品局)を引き合いに出し、「AI、ひいてはテクノロジー全般を対象とする、現在のFDAのような組織が今後設立されるかもしれない」と同氏は続けて説明する。2018年5月に発効し、英国がEU離脱後も維持するとみられている一般データ保護規則(GDPR)には、自動化された決定に異議を申し立てる、具体的な権利が盛り込まれている。「各自の利益のため、そうした社内プロセスが確立されているかどうか、事前に確認しておくことだ」と同氏は話す。

 企業の経営陣や上級管理職に就いている人々にとって、このような監査が社内の現状をチェックするのに役立つ場合もある。「ただし、この手のことが苦手なプログラマーは多い」とブライソン氏は指摘する。「プログラマーはこれまで、何度もテストを受けるような経験をあまりしてこなかったからだ。もっとも、大企業で働いている人々はテストを受ける機会も多く、慣れているだろう。一方、次のようにほとんど意図的に機械学習を誤解している人が組織の中に一定数存在する。『機械学習を使用すると、そうしたテストを実施する必要はなくなる。機械学習をチェックできる人間はいないからだ』と主張する人々のことだ。残念ながら、この考えは正しくない」

ぜんそくにかかると肺炎で死ぬ確率が下がる?

 機械学習を含むデータ駆動型の意思決定を行う方法について、将来は公平性が向上すると期待する専門家が増えている。1990年代、当時カーネギーメロン大学の大学院生だったリッチ・カルアナ氏は、ニューラルネットの機械学習システムのトレーニングに携わって、肺炎患者の死亡率を予測した。

 パラレルルールをベースとしたこのモデルは、「ぜんそく患者が肺炎で死亡する確率は、そうでない人々よりも低い」という、驚くべきルールを導き出した。現在はMicrosoftの研究部門であるMicrosoft Researchの上級研究員となっているカルアナ氏は、「医学の専門知識があまりない自分でも、これは有意義なのかと疑問を感じた」と話す。

 当時使用したデータは偏っていたが、それには正当な理由がある。ぜんそく患者は、呼吸に関する新たな問題に気付くと、すぐに医師の診察を受ける傾向にあった。医師はその問題を深刻だと受け止める可能性が高く、病院はその治療の優先順位を上げる傾向が高かった。患者と医療の専門家は、ぜんそく患者が肺炎を併発すると危険性が高まるという医学的な現実に基づいて行動したまでだが、機械学習エンジンはこのデータを逆に解釈し、先述のとんでもないルールが真実であるという結論に達した。

 結果的に、カルアナ氏も仲間の研究者たちも、このニューラルネットを使用しなくなった。導き出した予測の根拠を明らかにしないブラックボックスのモデルだからだ。より最近の研究では肺炎とぜんそくの関係と同様に、このデータから胸痛や心臓病を持つ患者は肺炎にかかりにくいと予測されていたことも明らかになっている。

偏りの特定とその修正

 カルアナ氏は、「GA2M」と呼ばれる、一般化された加算モデルの開発を支援してきた。GA2Mはニューラルネットと同等の精度を持つが、ユーザーはこのモデルが予測を立てる過程を確認できるし、例外的なデータを見分けることもできる。「この新しいモデルでは、最も恐れている変数を全て含めなければならない」と同氏は語る。偏り(バイアス)を特定し調整するためだ。

 これは、変数を削除するよりも適切な選択肢だ。バイアスは、関連するデータにも影響する可能性がある。

 「複雑なデータセットならどんなものでも、このような地雷が埋め込まれている」と、カルアナ氏は話す。「最も重要なのは、自分にも問題があると自覚しておくことだと分かった」

 こうした問題を重要視しないアプリケーションもある。生存率を計算しようとしている保険会社にとっては、肺炎の死亡率はどうでも構わない。「データが正しくないと、モデルは正しいことや間違ったことを学習していないことになる」とカルアナ氏は語る。ただしそのモデルを使ったアプリケーションには、学習できる可能性がある。

 プロセスの透明性が高く、問題へのテストを行ったデータを使用し、なおかつ完全で偏りのないデータなどというものは通常入手できないことをユーザーが理解していれば、データを使用して適切な意思決定を行うことは可能だ。理論上は、ぜんそく患者が肺炎に罹患(りかん)することの臨床的な真のリスクは、半数の患者を退院させて自宅療養させ、残り半数の入院患者と比べ、死亡率に差があったかどうかを調べれば断定できる。しかし、倫理的にこうした方法が許されないのは明らかだ。

 「望むデータを取得することは違法であり、また、そうあるべきだ」とカルアナ氏は主張する。だからこそ、入手したデータの利用法を学ぶことが合理的となる。

別冊Computer Weekly 脱Microsoft の理想と現実(転載フリー版)も公開中!

ヨーロッパ各国の政府機関で脱Microsoft プロジェクトが進んでいる。だが、さまざまな政治的な思惑や政府機関間の温度差、局所的なレベルにとどまっている運動はまた、脱Microsoftだけが唯一の正解ではないという現実を示している。

※本PDFは、TechTargetジャパン会員でなくても無料でダウンロードできます。


Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ