読めなくなったTwitter日本語ドメインを正しく復元する方法3分LifeHacking

Twitterが短縮URLを導入したことで、日本語ドメイン名をうまく変換せずに短縮し、読めなくなるケースが相次いでいる。ツイート時点で読めなくなった日本語ドメイン名と思しきURLを復元する手掛かりと、その助けとなるツールを紹介しよう。

» 2011年10月17日 16時00分 公開
[kizuki,Business Media 誠]

 2011年10月10日に、Twitterは短縮URL「t.co」を全面的に導入した(参考記事:Twitter、短縮URL「t.co」をすべての投稿に適用:ITmediaニュース)。これまでは20文字数以上のURLのみ短縮していたが、これからは他の短縮URLを含む全てのURLが、この「t.co」で始まる短縮URLに置き換わる。

「http://日本.jp」とツイートすると、いったん「http://xn--wgv71a.jp」という英数字に変換。そこで短縮アドレスを適用して「http://t.co/****」になる
ツイート欄での表示は「xn--wgv71a.jp」だが、マウスオーバーしてみるとリンク先が「t.co」で始まる短縮URLであることが下段のステータスバーの表示で分かる

 もっとも、「http://総務省.jp/」のような日本語ドメイン名をはじめとする特殊なURLはうまく変換せずに一部の文字を残して短縮してしまったり、あるいは文字列の後ろに「.jp」と付いていると日本語ドメイン名と認識して否応なしに変換、短縮するなどのトラブルも起こっている。日を追うにつれ解消しつつあるようだが、RTした時点で書き換わることもあり、この短縮URLと日本語ドメイン名の組み合わせによる混乱は、まだしばらく続きそうな雲行きだ。

 さて、もともと日本語ドメイン名(またはその他の国際化ドメイン名)だったものを英数字に変換したURLは、頭に「xn--」という接頭辞が付くのですぐに見分けられる。例えば「xn--wgv71a.jp」であれば「日本.jp」、「xn--cckacad8ri1s.jp」であれば「アイティメディア.jp」というのが、もともとの日本語ドメイン名だ。そのままでは表示できないことから、英数字に置換しているというわけだ。

日本語と英数字が混在したドメイン名では、抽出した英数字がxn--の後ろに並び、その後ろに変換後の文字列が並ぶ

 この「xn--」で始まるコードはPunycode(ピュニコード)と呼び、日本人のツイートの中にこのPunycodeを含むリンクが出てくれば、高い確率で日本語ドメイン名だと考えて間違いない。Twitterの短縮URLがうまく機能せず、日本語URLをうまく変換しないまま短縮した場合も「xn--」という接頭辞をキーにすれば復元が容易になる。

「日本語.jp」を使えば、Punycodeへの変換および逆変換が簡単にできる。サイトはJPドメイン用となっているが、実際は特に制限なく利用可能だ
「xn--cckba2lg9m.jp」を逆変換すると「ティメディア.jp」と表示した。このやり方でツイートしたかったURLを推測できる

 例えば「アイxn--cckba2lg9m.jp」という謎のURLがあり、アクセスしてもNot Foundになってしまうとする。中に「xn--」が含まれていることから、誤って冒頭の「アイ」2文字を除いた日本語URLを変換してしまったと推測できる。従ってこの部分を復元し、冒頭の「アイ」と連結すれば、元の日本語ドメイン名が分かるわけだ。

 「xn--」で始まるドメインを逆変換するには、JPRSが提供しているサービス「日本語.jp」を用いるとよい。先の「アイxn--cckba2lg9m.jp」の後ろ「xn--cckba2lg9m.jp」を逆変換すると「ティメディア.jp」になるので、もともとは「アイティメディア.jp」という日本語ドメイン名だったことが分かる。これでようやく元のURLにアクセスできる。今回のTwitterの短縮URLの件に限らず、Tipsとして知っておけば、いざというときに役立つだろう。



本日のレシピ
サイト名 利用料 提供元
日本語.jp 無料 日本レジストリサービス

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ