For Want Of A Better Word

全文検索について調べたのでメモ | 全文検索 分かち書き 形態素解析 namazu kakashi などなど

      2015/04/19

■Hyper Estraier

  • 全文検索エンジン
  • C言語で開発
  • JavaやRubyへのバインド用ライブラリがある。

■全文検索について

  • 全文検索と呼ぶとき、ポイントは「複数のファイルにまたがって」文字列を検索するということ。
  • grepも全文検索。
  • このとき「全文検索エンジン」がしばしば利用される理由はなぜか。
    • 単純に速度の問題。すべてをGREPしようとすると、大量の時間がかかるので、全文検索エンジンでは、インデックスをあらかじめ作成して、検索スピードを向上させている。
    • このインデックス作成の方法の一つが形態素解析や「分ち書き」である。(インデックスの作成方法には、他にもN-gram法などがある。)
    • ちなみにインデックス作成エンジンは全文検索エンジンが「namazu」の場合、「kakasi」である。kakasiは形態素解析法を用いている。
      • インデックス作成方法としての形態素解析には日本語において、漏れが発生する可能性がある。(日本語は「わかち書き」がされないため、形態素解析を用いて単語を抽出する必要があるが、日本語の特性から技術的な問題があり、完璧な検索が難しい。)
      • これに対してHyper EstraierはN-grm法を用いてインデックス作成が行われる。

N-gram法は形態素解析と比較して下記の問題がある。

    • メリット:検索漏れが生じず、辞書の必要も無い
    • デメリット:意図したものとは異なる検索結果(いわゆる検索ノイズ)の発生と、インデックスサイズの肥大化
    • 検索ノイズの一例として、「京都」で検索すると「東京都庁」

 - 未分類

  関連記事

no image
Symfony2をつかってみる②

app_devからアプリケーションを作ってみる。 そもそもSymfony2におけ …

no image
Cookieの書き換え方 参考リンク

「主要ブラウザでCookieを編集する方法 」 http://www.webto …

no image
HTMLコントロールとWEBサーバコントロールの使い分け。

HTMLありきで作る場合は、HTMLコントロールで、HTMLタグをASP化すると …

no image
js テキストエリアの文字数カウントして、OnKeyupで入力可能文字数出力

出力先のこっち …

no image
Google Font API

Google Font API っていうのがある