ITmedia NEWS > 速報 >
ニュース
» 2020年11月17日 11時31分 公開

Google、医療関係者向け文書解析サービスをプレビュー公開 機械学習で単語を抽出、文書検索をアシスト

Googleが機械学習を利用して医療機関に貢献しようとしている。

[笹田仁,ITmedia]

 米Googleはこのほど、機械学習を利用して、医療文書から治療や研究に役立つデータを抽出するサービス2種類をプレビューとして公開した。

 医療機関で保管している患者のデータは、カルテに文章の形で記入して保存するなど、構造化できていないことがほとんど。特定のキーワードで検索することや、キーワードごとにデータを分類して管理することはできない。必要なときは、医師などの専門知識を持つ人間が、長い時間をかけて大量の文書を読んで特定のデータを探すしかないのが現状だ。

 Googleが今回プレビューとして公開したサービスは「Healthcare Natural Language API」と「AutoML Entity Extraction for Healthcare」の2種類。どちらもREST形式のAPI(Application Programming Interface)となっており、APIのURLを指定して、UNIXコマンドの「curl」などを使ってアクセスする。

 Healthcare Natural Language APIは、医療文書を受け取るとクラウド側で機械学習を活用して文書を解析し、病名、薬剤の名称や投与量、医療処置などを指す単語を抽出する。医療の現場では、同じ疾病や薬剤を指す言葉が複数あることが普通で、医療関連文書でも複数の表記が使われていることが多い。そこで、同じ意味の言葉の表記を統一する機能も提供する。医療関係者の間では一般的な用語集であるMeSH(Medical Subject Headings:米国立医学図書館が作成)、あるいはICD(International Classification of Diseases:WHOが制定)の表記に統一する。

photo 鉄欠乏性貧血(iron deficiency anemia)の治療について記述した文書を解析したところ。薬剤の名称や投与量など、治療や研究に必要な部分を特定している

 AutoML Entity Extraction for Healthcareは、簡単な操作で機械学習モデルに学習させることを可能にしたサービス。医療文書を解析する機械学習モデルに、学習用データを与えて学習させれば、Healthcare Natural Language APIでは抽出できない言葉を特定できるようになる。

 学習モデルに学習させるには、50件〜10万件の医療文書が必要。それぞれの文書に文書中の特定の場所と関連する言葉を記したアノテーション(注釈)を付ける必要もある。文書とアノテーションはJSON Lines(JSONL)形式にまとめ、クラウド側にアップロードする。

photo AutoML Entity Extraction for Healthcareは、GUIの管理コンソールで操作することもできる

 GoogleはAutoML Entity Extraction for Healthcareの提供に合わせて、学習用文書にアノテーションを付ける際のガイドラインをGitHubにオープンソースで公開した。Googleは、医療関係者たちが協力してこのガイドラインの修正、追加、拡張などを進めていくことを期待しているという。

Copyright © ITmedia, Inc. All Rights Reserved.