今日のWebサーチエンジンの多くは,Webサイトの内容を示すために, Webページの先頭のテキストを利用している. これはWebページやWebサイトを自動的に要約する効果的かつ実 際的な手法がないためである. 一方,一つの有望なアプローチとして, ハイパーリンクの近傍にある紹介文を抽出し,参照先Webサイトの要約文として 用いる方法が提案されている. しかし,この方法が実際にサーチエンジンに適用された場合に 十分に機能するかどうかは明らかにされていなかった. 本稿では,このアプローチの精度を改善する方法を提案し, 1,000万URL以上の実在のWebページに適用した実験の結果に基づいて 提案手法の実用性を示す.
Most of the current search engines use leading text of web pages
to indicate contents of web sites
because there have been no other effective and practical means to
summarize web pages and sites automatically.
Meanwhile, a promising approach is proposed
that extracts descriptive annotations around
hyperlinks and uses them as summaries of referred web sites.
However, it is not clear how well this approach works
if it is applied to search engines actually.
In this report, we suggest an improved variant of the approach
and demonstrate its feasibility based on some results of
experiments using over 10 millions of web pages.
ここに掲載した著作物の利用に関する注意
本著作物の著作権は(社)情報処理学会に帰属します.本著作物は著作権者で
ある情報処理学会の許可のもとに掲載するものです.ご利用に当たっては「著
作権法」ならびに「
情報処理学会倫理綱領」に従うことをお願いいたします.
Notice for the use of this material
The copyright of this material is
retained by the Information Processing Society of Japan (IPSJ). This
material is published on this web site with the agreement of the
author (s) and the IPSJ. Please be complied with Copyright Law of
Japan and
the Code of Ethics of the IPSJ if any users wish to
reproduce, make derivative work, distribute or make available to the
public any part or whole thereof. All Rights Reserved, Copyright (C)
Information Processing Society of Japan.