404エラーが出ても“生きたURL”を特定してくれるアドオン 米Microsoftの研究者らが開発:Innovative Tech
米ミシガン大学、米コロンビア大学、米Microsoft、南カリフォルニア大学に所属する研究者らは、訪れたWebサイドから404エラーを検出して新しいURLを提供する自動システムを提案した研究報告を発表した。
Innovative Tech:
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
米ミシガン大学、米コロンビア大学、米Microsoft、南カリフォルニア大学に所属する研究者らが発表した論文「Reviving Dead Links on the Web with Fable」は、訪れたWebサイドから404エラーを検出して新しいURLを提供する自動システムを提案した研究報告である。
Webサイトを訪れる際に「Error 404 - Page Not Found」(404エラー - ページが見つかりません)というメッセージを目にする経験は、多くの人にとってなじみ深いものであろう。このようなメッセージは、特定のリンク先のページが存在しない、削除されている、またはページのURLが変更されている場合に表示される。
この研究では、無効なリンクを自動的に処理するシステム「FABLE」を提案する。FABLEは、壊れたリンクの検出だけでなく、同じサイト内で他のページの旧URLが新しいURLにどのように変わったかのパターンを学習し、それを活用して、該当ページの新しいURLを探索する。
FABLEは、ブラウザの拡張機能やページのリンクを書き換えるbotを組み込むフロントエンドと、バックエンドサービスの組み合わせで動作する。ユーザーがFableのブラウザ拡張機能を利用して無効なURLを訪れると、過去のアーカイブコピーまたはFableが予測する新しいURL(エイリアス)へのアクセスオプションが提供される。このエイリアスは、フロントエンドがバックエンドから以前に受け取ったURLの変換パターンに基づいて予測される。
FABLEのブラウザアドオンをインストールしたユーザーが404エラーのページを訪れた際の様子。アドオンは、最新のアーカイブコピーへのリンク(存在する場合)と、機能するエイリアスへのリンク(エイリアスが特定された場合)の2つの選択肢を提供
フロントエンドにおいて、エイリアスはオリジナルのリンクの代わりではなく、選択肢として提供される。従って、エイリアスが誤っていたとしても、ユーザーはオリジナルのリンクを訪れる選択肢を持ち続ける。
バックエンドの作業フローは、最初にサイト内の同じディレクトリ内の無効なURLをまとめる。次に、それぞれのグループにおいてエイリアスを探し、これらのURLがどのように変わって現存するページのURLになったのかの共通の変換パターンを発見する。
評価実験では、Wikipedia、Stack Overflow、Mediumの50万近いページを調べ、無効なリンクを見つけ、FABLEで2万を処理した。その結果、リンクの約4分の1が新しいURLであり、約90%が正しいページにリンクしていることが判明した。
Source and Image Credits: Jingyuan Zhu, Anish Nyayachavadi, Jiangchen Zhu, Vaspol Ruamviboonsuk, and Harsha V. Madhyastha. 2023. Reviving Dead Links on the Web with Fable. In Proceedings of the 2023 ACM on Internet Measurement Conference(IMC ’23). Association for Computing Machinery, New York, NY, USA, 131-144. https://doi.org/10.1145/3618257.3624832
関連記事
- IPAサイトリニューアルで多発した「404エラー」、どんな意味?
デキるITビジネスパーソンなら誰もが知っている基礎知識をクイズ化。今回はHTTPステータスコード・404番の意味。 - IPAのサイトリニューアルで「404エラー」多発、一体なぜ? 経緯を聞いた
IPAの公式Webサイトリニューアルにおいて、多くのページにリダイレクト設定がなされず問題視されている。どのような経緯でリダイレクト不足が発生したのかIPAに尋ねた。 - WordPressの“古いプラグインやテーマ”から侵入するサイバー攻撃、ロシアの企業が発表 標的のアドオンリストあり
ロシアのアンチウイルス製品を開発するDoctor Webは、WordPress CMSをベースとしたWebサイトをハッキングする悪意のあるLinuxプログラムを発見したと発表した。 - 入力中の個人情報が“送信ボタンを押す前に”収集されている問題 約10万のWebサイトを調査
ベルギーのKU Leuven、オランダのRadboud University、スイスのUniversity of Lausanneによる研究チームがは、まだ送信していないのにもかかわらず、オンラインフォームで入力した個人情報が打ち込んだだけで収集されている問題を調査した論文を発表した。 - コインで表か裏が出る確率は“50%ではない?” 49人の研究者が35万回投げて検証 肝は投げる親指の動き
オランダのアムステルダム大学をはじめとする研究者たちは、コイン投げにおける表と裏が出る確率が50%ではないという仮説を検証した研究報告を発表した。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.