For Want Of A Better Word

全文検索について調べたのでメモ | 全文検索 分かち書き 形態素解析 namazu kakashi などなど

      2015/04/19

■Hyper Estraier

  • 全文検索エンジン
  • C言語で開発
  • JavaやRubyへのバインド用ライブラリがある。

■全文検索について

  • 全文検索と呼ぶとき、ポイントは「複数のファイルにまたがって」文字列を検索するということ。
  • grepも全文検索。
  • このとき「全文検索エンジン」がしばしば利用される理由はなぜか。
    • 単純に速度の問題。すべてをGREPしようとすると、大量の時間がかかるので、全文検索エンジンでは、インデックスをあらかじめ作成して、検索スピードを向上させている。
    • このインデックス作成の方法の一つが形態素解析や「分ち書き」である。(インデックスの作成方法には、他にもN-gram法などがある。)
    • ちなみにインデックス作成エンジンは全文検索エンジンが「namazu」の場合、「kakasi」である。kakasiは形態素解析法を用いている。
      • インデックス作成方法としての形態素解析には日本語において、漏れが発生する可能性がある。(日本語は「わかち書き」がされないため、形態素解析を用いて単語を抽出する必要があるが、日本語の特性から技術的な問題があり、完璧な検索が難しい。)
      • これに対してHyper EstraierはN-grm法を用いてインデックス作成が行われる。

N-gram法は形態素解析と比較して下記の問題がある。

    • メリット:検索漏れが生じず、辞書の必要も無い
    • デメリット:意図したものとは異なる検索結果(いわゆる検索ノイズ)の発生と、インデックスサイズの肥大化
    • 検索ノイズの一例として、「京都」で検索すると「東京都庁」

 - 未分類

  関連記事

no image
リモートでのrootログイン禁止下でのリモートrsyncの実行のための設定

要は、sudoをパスワードなしで実施できるようにすればよいのだけれど。 【参考】 …

no image
好きなもの嫌いなもの即座に登録。管理

良い!と思ったものをすぐ登録(スマートフォン・PC) 嫌い!と思ったものをすぐ登 …

no image
Windowsでの操作自動化

IEの操作にはvbscriptを使っていたけど、 vbscriptって変な仕様だ …

no image
【Xcode5】「Identity and Type」の場所が分からねぇ!! | プロジェクトコピー時のプロジェクト名変更

プロジェクトをコピーしたくて調べてた。要はプロジェクトのリネームなんですが、 ① …

no image
インターネット BGP-4 フルルート

なんか、恰好よく感じた。 フルルートとは インターネット上の全経路数。 インター …