論文・発表資料等
本文(PDF) [DEWS2003-final.pdf]
本文(MS-Word) [DEWS2003-final.doc]
本文(postscript) [DEWS2003-final.ps.gz]
発表スライド(PDF) [dews2003-slides.pdf]
発表スライド(PowerPoint) [dews2003.ppt]
発表スライド(HTML)


索引篩法‐大規模サーチエンジンのための高速なランキング検索法

原田昌紀,佐藤進也,風間一洋

今日の文書検索システムの多くは転置索引方式を採用して高速かつ効率のよい検索を実現している.しかし,Webサーチエンジンのように検索対象となる文書集合が大規模になると,転置索引から読み出される出現位置情報も増大し,検索速度が低下してしまう.本論文では,利用者が閲覧するのは検索結果の上位のみであることに着目して,索引から読み出される出現位置情報の量を削減し,検索を高速化する索引篩法を提案する.索引篩法では,あらかじめ適合度に大きく寄与する出現位置情報のみを格納した索引を用意し,適合度の高い文書を最初に検索する.大量のWebページと実際のWebサーチエンジンで検索された質問を用いた実験により,提案手法の有効性を評価した.

Index Sieving - A Fast Ranking Search Method for Large-scale Search Engines

Masanori HARADA, Shin-ya SATO and Kazuhiro KAZAMA

Most of today's document retrieval systems use inverted indices to implement fast and efficient search. However, as the targeted document collection is getting large, postings read from the inverted index also become large and search speed is sacrificed. In this paper, we propose index sieving, a method of reducing the size of postings read from the index to accelerate search. With index sieving, we first search highly relevant documents using an index which stores postings that will largely contribute to relevance scores. Effectiveness of the proposed method is evaluated by experiments using a large number of web pages and queries to a real web search engine.


ここに掲載した著作物の利用に関する注意

本著作物の著作権は電子情報通信学会データ工学研究専門委員会に帰属します. 本著作物は
電子情報通信学会データ工学研究専門委員会著作権規程に 則って掲載するものです.



harada@ingrid.org