日本の住所表記の正規化・名寄せがTwitter上で話題になっている。きっかけとなったのは河野太郎デジタル大臣がテレビ番組で発した「AIを使って表記揺れを判断することがあり得るかもしれない」という言葉。これに対し、ネット上ではさまざまな議論が巻き起こっている。
Twitter上では「住所の揺らぎ程度のことでAIは不要」という意見が見られた。これに対して、ITエンジニアなどからは「住所の表記揺れはすぐ解決できる問題ではない」などと反論の声が上がり、「日本住所のヤバさをもっと知ってほしい」と訴えるユーザーも多数見られた。
そんな中、地図や地図データベースを手掛けるゼンリンもこの話題に反応。そこで住所の表記揺れを直すのがどのくらい難しいのか、またどうすれば解決できるのか。ゼンリンに話を聞いた。
そもそも住所の表記揺れとは「誤字ではないが、同じ意味、同じ読み方であるにもかかわらず使っている文字が違う状態を指す」(ゼンリン)という。具体例として、以下に3つの例を挙げた。
1つ目は「丁目・番地表記の省略(ハイフンで表現)や半角・全角表記の違い」だ。例えば、住所表記には「1丁目1番1号」と「1-1-1」のように、丁目・番地表記と数字とハイフンで表す2つの表記がある。「1-1」と書かれている場合、それだけでは「1丁目1番地」の可能性も「1番地1号」の可能性も否定できない。
さらに数字ならアラビア数字・漢数字の揺れ、半角・全角の揺れもあり、ハイフンなら伸ばし棒(ー)、横棒(━)、ダッシュ(―)などと混ざる。例えば、固有名詞の伸ばしい棒はそのまま、ハイフンにすべきところだけ適切に修正する必要がある。
次に考えられるのが「読みは同じだが使っている文字が異なる」という場合だ。例えば「自由が丘」(じゆうがおか)の住所ならば、「自由ヶ丘」「自由ケ丘」などに表記が揺れている場合があるという。
しかも、全て「自由が丘」に直せばいいわけではない。日本には「じゆうがおか」と読む地名が20以上あるが「自由が丘」が正しい場合と「自由ヶ丘」が正しい場合と「自由ケ丘」が正しい場合がある。大阪府には「自由丘」と書いて「じゆうがおか」と読む地名もある。機械的に一括修正するのは骨が折れる。
3つ目に挙がったのが「旧字体、新字体などによる文字の違い」だ。例えば氏名ならば「高橋」(旧字体ははしごだかの高)や「山崎」(旧字体はたつさきの崎)のように表記揺れが生じる。また、文字の違いは他にも法人ならば「『株式会社』と『(株)』」や、「『Office』と『office』『オフィス』」などでも表記が揺れるケースが存在する。どの表記が正しいかは情報源に当たらないと分からない。
これらが起こる要因について、ゼンリンは「『住所の表現方法に複数の方法があること』『IT化により文字コード化されているかどうか』『地名自体に揺れがあり、住所の表記や体系に一貫性がない状態が存在すること』『自治体が把握する住所と実際に利用されている住所が異なること』など原因が多岐にわたることが理由」と説明する。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR