ITmedia NEWS > AI+ >
ニュース
» 2019年12月27日 06時00分 公開

Innovative Tech:文書画像のゆがみや明るさ、深層学習で補正 香港科技大学やMicrosoftなど開発

読み取りにくい書類を正しい姿に戻す技術が開発された。OfficeLensに採用されるとスキャンがはかどりそうだ。

[山下裕毅,ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 香港科技大学とMicrosoft Research Asia、香港城市大学の研究チームが9月に発表した新技術は、深層学習を用いて1枚の入力画像からゆがんだ文書画像を補正する手法だ。

photo 上段行はモバイルカメラで撮影した入力画像、下段行が本提案手法を用いた出力結果

 一般的なモバイルカメラで撮影した文書画像は、文書が変形したり(傾き、湾曲、しわ等)、照明などの条件によって字が読みにくくなったりする。

 新技術では、単一の入力画像からさまざまなゆがみタイプの文書画像を補正するために、局所ベースの学習法を採用。入力画像をグリッド状に分割してから、分割した各パーツを訓練済みの深層学習ネットワークに送り、局所的なゆがみを検出。ゆがみや明るさを補正し、つなぎ合わせて出力する。いったん分割することで、従来の補正法よりも高品質に出力できるという。

photo 本提案手法のパイプライン

 これにより、まるでイメージスキャナーで読み込んだような平らな画像になる。ただし、ぐちゃぐちゃに丸めて伸ばしたように劣化がひどい文書や、ビンテージの手書き文書、光沢のある文書などは補正が困難という。

Copyright © ITmedia, Inc. All Rights Reserved.