Tuesday, January 12, 2010

フリー・テキスト・クエリ大問題を抱えているサーチ・エンジン達を助けましょう!




[このポストは"Help struggling search engines solve the free text query problem!"の和訳です。]

現在の全文検索システムは上記のようです。全然セクシーではありません。なぜですか?

考えられるのは、例えばフリー・クエリ・パーサですね。
フリー・クエリ・パーサって不器用なものです。
クエリに含まれているキーワードの間に於ける関係って普通の全文検索システムですと、ブール演算子から成り立っていると思い込まれていて、それらのブール演算子を推測しようとしていること自体が不器用です。

しかし、なぜ推測しようとする必要がありますか?これは、ユーザーが普段は明示的にキーワード間の演算子を指定していないからです。
実際、入力インタフェース、つまりサーチバーが狭すぎて沢山の検索語を入力するのが困難です。

現在のサーチ・インタフェースは未だに基本的なサーチバーだけであって、AND,ORまたはNOTという演算子がいくら指定可能であっても、やはり一般ユーザーにとって扱えにくいという今日この頃です。

”クエリ内のキーワードを繋ぐ関係が論理積だということを普及させたグーグルのようなサーチ・エンジンでクエリを入力すると、全てのキーワードにマッチしている文書しか結果として取り出されてきません。”
この発言は「情報検査への導入」という論文に載っています。著者はクリストファー・マニング氏です。彼はスタンフォード大学にて1997の頃にラリー・ペイジ氏とサーゲイ・ブリン氏という大学院生を指導した先生です。。。

ユーザーが何を言いたかったのかを一生懸命推測しようとするのを、一旦やめましょう。
その代わりに、ユーザーに対してもっと自由を与えましょう。
より多いキーワードを入力できるようにしましょう。
そして、ユーザーから得られた情報を効率的に且つ素早く処理できるようにしましょう。こうやって得られたデーターに、独自のアルゴリズムを掛けて、よりいい推測能力が得られるのではないかと考えています。

私は、イノベーションって"人間"と"機械"との緊密なコラボに基づいているかと思います。
人間は電気化学のコンピュータであり、マシーンは電子のコンピュータであります。

イノベーションはマシーンと脳が交互に貢献していくことによって生まれるかと思います。
サーチは例外ではありません。

No comments:

Post a Comment