論文・発表資料等
本文 [signl136.pdf]
発表スライド(PDF) [signl136-slides.pdf]
発表スライド(PowerPoint) [signl136.ppt]
発表スライド(HTML)


Unicodeを用いたN-gram索引の一実現方式とその評価

原田昌紀,風間一洋,佐藤進也

Unicodeベースの全文検索の実現方法について,索引づけ 方式を中心に検討を行い,N-gramの長さを文字ブロックごとに 可変とする索引づけ方式を提案する. 提案した方式をWWWサーチエンジンに適用し,日本語テキストに適したパラメータ を推定する.また,言語依存の処理を追加する方法について述べる.

An N-gram indexing method for Unicode based search engine

Masanori HARADA, Kazuhiro KAZAMA and Shin-ya SATO

We investigate some indexing methods in order to implement an Unicode based full-text search engine and propose an N-gram indexing method that varies N-gram length per character block. With the proposed indexing method applied to our WWW search engine, we estimate parameters suitable for Japanese. We also describe some possible language dependent extensions.


ここに掲載した著作物の利用に関する注意

本著作物の著作権は(社)情報処理学会に帰属します.本著作物は著作権者で ある情報処理学会の許可のもとに掲載するものです.ご利用に当たっては「著 作権法」ならびに「
情報処理学会倫理綱領」に従うことをお願いいたします.

Notice for the use of this material

The copyright of this material is retained by the Information Processing Society of Japan (IPSJ). This material is published on this web site with the agreement of the author (s) and the IPSJ. Please be complied with Copyright Law of Japan and the Code of Ethics of the IPSJ if any users wish to reproduce, make derivative work, distribute or make available to the public any part or whole thereof. All Rights Reserved, Copyright (C) Information Processing Society of Japan.


harada@ingrid.org