« ちょこちょこ変更してみた | メイン | バージョンアップふたつ »
2004年06月26日
Similarity Search powered by Bulkfeeds
[ネットとか]
以前にもちょこっとご紹介した、Bulkfeedsの「似たものエントリーサーチ」ですが、書くエントリーの下にリアルタイムで表示するようにさせてみました。結構面白いですねぇ。
へんてこなものが似たもの紹介される場合も、「ああ、このキーワードに引っかかったのかな」なんて考えてみて楽しんでみたり。
…でも、結構重たいのかな。確か以前、これを軽くする方法が載っていたような。調べてみなくては。
※追記:軽くするというのは、自分のサーバーにキャッシュをおいておくという方法でした。やってみたけど軽くなったかな?
しかしこの「似たもの」を検索する仕組み、特に日本語の文脈、文意を汲み取って似た文章を探すというのは、ほんとにさくっとできたら面白いんだよね。
このテーマでは、むかーし Justsystem の ConceptBase というエンジンを突っ込んで、自然分検索を組み合わせるソリューションをテストしたことがあった。ま、単純にいうとQ&A形式のナレッジシステムを作っていたときの話で、いろいろと面白い結果が出た。Q&Aがそれぞれテキストとして分離している(投稿者が別だから当然ですな)ために、自然分で質問を検索すると、その質問の部分のみで検索をかけて、評価の高い回答部分を表示させる(もちろん順位付けして、上位何個って感じでね)。
当時で数万の質問と、数十万の回答がすでにDB内に入っていたので、試してみた結果としては…。
オールジャンルで検索かけちゃうとだめ。これは、ConceptBase の限界でもあるんだけど、同じ用語が違うジャンルではまったく違う意味になってしまう。たとえば「エアロ」という言葉は、スポーツではエアロビクス、車ではエアロパーツ、といった具合でかなりつらい結果になった。
けど、ジャンルで検索対象となる質問文を絞り込んで同じことをさせてやると…、これがかなりヒットする。
面白いのが、質問が簡潔であるほどヒット率は悪くなり、周辺状況も含めてダラダラと質問したほうがいい結果が出てきた。ただ、これもよしあしで、回答も含めて引っ掛けてやったほうが、ダラダラの場合はよかったみたい。
で、結局は「似た質問」を表示させて、選ばせた後に回答を表示させるというのが結果一番効率がよい結果となった。やはり人間にはかなわない部分なんですなぁ。
システムとしては結果実現できたのが、「質問文を入力」→「検索結果をまずレコメンド」→「なければ、そのまま質問文を投稿」という感じのもの。これはこれで結構面白い結果になったが、やはり最初に溜め込んだデータベースの質次第になってしまうのよね。それと必ず問題になるのが、検索エンジンそのものの単価が高いこと。
投稿者 akio : 2004年06月26日 10:44
