Unicodeベースの全文検索の実現方法について,索引づけ 方式を中心に検討を行い,N-gramの長さを文字ブロックごとに 可変とする索引づけ方式を提案する. 提案した方式をWWWサーチエンジンに適用し,日本語テキストに適したパラメータ を推定する.また,言語依存の処理を追加する方法について述べる.
We investigate some indexing methods in order to implement
an Unicode based full-text search engine
and propose an N-gram indexing method that
varies N-gram length per character block.
With the proposed indexing method applied to our WWW search engine,
we estimate parameters suitable for Japanese.
We also describe some possible language dependent extensions.
ここに掲載した著作物の利用に関する注意
本著作物の著作権は(社)情報処理学会に帰属します.本著作物は著作権者で
ある情報処理学会の許可のもとに掲載するものです.ご利用に当たっては「著
作権法」ならびに「
情報処理学会倫理綱領」に従うことをお願いいたします.
Notice for the use of this material
The copyright of this material is
retained by the Information Processing Society of Japan (IPSJ). This
material is published on this web site with the agreement of the
author (s) and the IPSJ. Please be complied with Copyright Law of
Japan and
the Code of Ethics of the IPSJ if any users wish to
reproduce, make derivative work, distribute or make available to the
public any part or whole thereof. All Rights Reserved, Copyright (C)
Information Processing Society of Japan.