ITmedia NEWS > 科学・テクノロジー >

404エラーが出ても“生きたURL”を特定してくれるアドオン 米Microsoftの研究者らが開発Innovative Tech

» 2023年11月10日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: @shiropen2

 米ミシガン大学、米コロンビア大学、米Microsoft、南カリフォルニア大学に所属する研究者らが発表した論文「Reviving Dead Links on the Web with Fable」は、訪れたWebサイドから404エラーを検出して新しいURLを提供する自動システムを提案した研究報告である。

404エラーのページ

 Webサイトを訪れる際に「Error 404 - Page Not Found」(404エラー - ページが見つかりません)というメッセージを目にする経験は、多くの人にとってなじみ深いものであろう。このようなメッセージは、特定のリンク先のページが存在しない、削除されている、またはページのURLが変更されている場合に表示される。

 この研究では、無効なリンクを自動的に処理するシステム「FABLE」を提案する。FABLEは、壊れたリンクの検出だけでなく、同じサイト内で他のページの旧URLが新しいURLにどのように変わったかのパターンを学習し、それを活用して、該当ページの新しいURLを探索する。

 FABLEは、ブラウザの拡張機能やページのリンクを書き換えるbotを組み込むフロントエンドと、バックエンドサービスの組み合わせで動作する。ユーザーがFableのブラウザ拡張機能を利用して無効なURLを訪れると、過去のアーカイブコピーまたはFableが予測する新しいURL(エイリアス)へのアクセスオプションが提供される。このエイリアスは、フロントエンドがバックエンドから以前に受け取ったURLの変換パターンに基づいて予測される。

FABLEのブラウザアドオンをインストールしたユーザーが404エラーのページを訪れた際の様子。アドオンは、最新のアーカイブコピーへのリンク(存在する場合)と、機能するエイリアスへのリンク(エイリアスが特定された場合)の2つの選択肢を提供

 フロントエンドにおいて、エイリアスはオリジナルのリンクの代わりではなく、選択肢として提供される。従って、エイリアスが誤っていたとしても、ユーザーはオリジナルのリンクを訪れる選択肢を持ち続ける。

 バックエンドの作業フローは、最初にサイト内の同じディレクトリ内の無効なURLをまとめる。次に、それぞれのグループにおいてエイリアスを探し、これらのURLがどのように変わって現存するページのURLになったのかの共通の変換パターンを発見する。

FABLEのアーキテクチャ

 評価実験では、Wikipedia、Stack Overflow、Mediumの50万近いページを調べ、無効なリンクを見つけ、FABLEで2万を処理した。その結果、リンクの約4分の1が新しいURLであり、約90%が正しいページにリンクしていることが判明した。

Source and Image Credits: Jingyuan Zhu, Anish Nyayachavadi, Jiangchen Zhu, Vaspol Ruamviboonsuk, and Harsha V. Madhyastha. 2023. Reviving Dead Links on the Web with Fable. In Proceedings of the 2023 ACM on Internet Measurement Conference(IMC ’23). Association for Computing Machinery, New York, NY, USA, 131-144. https://doi.org/10.1145/3618257.3624832



Copyright © ITmedia, Inc. All Rights Reserved.