ニュース
文書画像のゆがみや明るさ、深層学習で補正 香港科技大学やMicrosoftなど開発:Innovative Tech
読み取りにくい書類を正しい姿に戻す技術が開発された。OfficeLensに採用されるとスキャンがはかどりそうだ。
Innovative Tech:
このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
香港科技大学とMicrosoft Research Asia、香港城市大学の研究チームが9月に発表した新技術は、深層学習を用いて1枚の入力画像からゆがんだ文書画像を補正する手法だ。
一般的なモバイルカメラで撮影した文書画像は、文書が変形したり(傾き、湾曲、しわ等)、照明などの条件によって字が読みにくくなったりする。
新技術では、単一の入力画像からさまざまなゆがみタイプの文書画像を補正するために、局所ベースの学習法を採用。入力画像をグリッド状に分割してから、分割した各パーツを訓練済みの深層学習ネットワークに送り、局所的なゆがみを検出。ゆがみや明るさを補正し、つなぎ合わせて出力する。いったん分割することで、従来の補正法よりも高品質に出力できるという。
これにより、まるでイメージスキャナーで読み込んだような平らな画像になる。ただし、ぐちゃぐちゃに丸めて伸ばしたように劣化がひどい文書や、ビンテージの手書き文書、光沢のある文書などは補正が困難という。
関連記事
- 蜘蛛の「眼」に学ぶ超小型深度センサー ハーバード大学など開発
正確に標的の場所を捉える蜘蛛の眼の仕組みを応用すると、超小型の深度センサーを作ることができる。 - 8種のインクを毎秒50回切り替え可能 超高速の3Dプリンタ、ハーバード大が開発
複数の素材を組み合わせて超高速にオブジェクトを作成できる技術が開発された。 - NVIDIA、1枚の静止画で動きを合成 GANを用いた手法を開発 ダビデ像も踊り出す
ダビデは踊り、モナリザは表情を変える。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.