防衛省がこのほど公表し、朝日新聞デジタルで公開された、自衛隊のイラク派遣の際の活動報告(日報)の「日誌」の内容が、「読みものとして面白い」などと話題になっている。ただ日報はPDF形式で、日ごとにファイルが分かれており、日誌部分はごく一部。PDFをいちいち開き、日報部分を探すのはとても大変だ。
そこで、日誌の部分だけを抜き出し、画像とテキストで読めるブログ形式のWebサイト「自衛隊イラク日報 バグダッド日誌/バスラ日誌 一覧」を、個人開発者の@akiyanさんが公開した。ツイートボタンも備えており、面白い日誌を見つけたらTwitterに投稿することもできる。
@akiyanさんは、日報のPDF(計約8000ページ)をダウンロードし、JPEGに変換した後、画像からテキストを抽出するOCR機能を備えたGoogleのAPI「Google Cloud Vision API」を使って文字を抽出。その上で、「バグダッド日誌」「バスラ日誌」のある約330ページを抜き出し、画像とテキストを並べてブログ形式のサイトに掲載した。
サイトは「Google App Enegine for PHP」にデプロイし、CDNには「CloudFlare」の無料プランを利用したという。
「日誌を読むだけなら、日誌ページだけまとめたPDFを作ればいいとも思ったが、ネット上で読みものとして楽しめるよう、ブログ形式のサイトに整えた」と@akiyanさん。開発期間は約半日。OCRに約1000円かかったが、サーバは無料という。
イラク日報が公開されて以降、個人開発者が関連サービスを開発する動きが出ている。日報を全文検索できる「イラク日報 全文検索【イラク日報村】」を@alea12さん公開しているほか、OCR済みのイラク日報を@insulmontoさんがGoogleドライブで公開している。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR