文書画像のゆがみや明るさ、深層学習で補正　香港科技大学やMicrosoftなど開発：Innovative Tech

読み取りにくい書類を正しい姿に戻す技術が開発された。OfficeLensに採用されるとスキャンがはかどりそうだ。

[山下裕毅，ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

Innovative Tech：

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

　香港科技大学とMicrosoft Research Asia、香港城市大学の研究チームが9月に発表した新技術は、深層学習を用いて1枚の入力画像からゆがんだ文書画像を補正する手法だ。

上段行はモバイルカメラで撮影した入力画像、下段行が本提案手法を用いた出力結果

　一般的なモバイルカメラで撮影した文書画像は、文書が変形したり（傾き、湾曲、しわ等）、照明などの条件によって字が読みにくくなったりする。

　新技術では、単一の入力画像からさまざまなゆがみタイプの文書画像を補正するために、局所ベースの学習法を採用。入力画像をグリッド状に分割してから、分割した各パーツを訓練済みの深層学習ネットワークに送り、局所的なゆがみを検出。ゆがみや明るさを補正し、つなぎ合わせて出力する。いったん分割することで、従来の補正法よりも高品質に出力できるという。

本提案手法のパイプライン

　これにより、まるでイメージスキャナーで読み込んだような平らな画像になる。ただし、ぐちゃぐちゃに丸めて伸ばしたように劣化がひどい文書や、ビンテージの手書き文書、光沢のある文書などは補正が困難という。

文書画像のゆがみや明るさ、深層学習で補正　香港科技大学やMicrosoftなど開発：Innovative Tech

Innovative Tech：

関連記事

関連リンク

文書画像のゆがみや明るさ、深層学習で補正 香港科技大学やMicrosoftなど開発：Innovative Tech

Innovative Tech：

関連記事

関連リンク

文書画像のゆがみや明るさ、深層学習で補正　香港科技大学やMicrosoftなど開発：Innovative Tech