論文・発表資料等
本文 [ipsj63.pdf]
発表スライド(PDF) [ipsj63ohp.pdf]
発表スライド(PowerPoint) [ipsj63ohp.ppt]
発表スライド(HTML)

参照元HTMLテキストからのWebサイト紹介文抽出

原田昌紀,風間一洋,佐藤進也

今日のWebサーチエンジンの多くは,Webサイトの内容を示すために, Webページの先頭のテキストを利用している. これはWebページやWebサイトを自動的に要約する効果的かつ実 際的な手法がないためである. 一方,一つの有望なアプローチとして, ハイパーリンクの近傍にある紹介文を抽出し,参照先Webサイトの要約文として 用いる方法が提案されている. しかし,この方法が実際にサーチエンジンに適用された場合に 十分に機能するかどうかは明らかにされていなかった. 本稿では,このアプローチの精度を改善する方法を提案し, 1,000万URL以上の実在のWebページに適用した実験の結果に基づいて 提案手法の実用性を示す.

Extracting descriptive hyperlinks for web site summaries

Masanori HARADA, Kazuhiro KAZAMA and Shin-ya SATO

Most of the current search engines use leading text of web pages to indicate contents of web sites because there have been no other effective and practical means to summarize web pages and sites automatically. Meanwhile, a promising approach is proposed that extracts descriptive annotations around hyperlinks and uses them as summaries of referred web sites. However, it is not clear how well this approach works if it is applied to search engines actually. In this report, we suggest an improved variant of the approach and demonstrate its feasibility based on some results of experiments using over 10 millions of web pages.


ここに掲載した著作物の利用に関する注意

本著作物の著作権は(社)情報処理学会に帰属します.本著作物は著作権者で ある情報処理学会の許可のもとに掲載するものです.ご利用に当たっては「著 作権法」ならびに「
情報処理学会倫理綱領」に従うことをお願いいたします.

Notice for the use of this material

The copyright of this material is retained by the Information Processing Society of Japan (IPSJ). This material is published on this web site with the agreement of the author (s) and the IPSJ. Please be complied with Copyright Law of Japan and the Code of Ethics of the IPSJ if any users wish to reproduce, make derivative work, distribute or make available to the public any part or whole thereof. All Rights Reserved, Copyright (C) Information Processing Society of Japan.


harada@ingrid.org