Monday, May 31, 2010

Graduation




[en]

We attended the Tech Crunch Japan Demo Pit last Thursday (May 27th) and this was the opportunity for Ascot project to graduate. 
We are now Mindbucket
Start uncovering the words of your mind with Mindbucket.


[jp] 

5月27日のテッククランチジャパンデモピットをもってアスコットプロジェクトはマインドバケットになりました。 
貴方の脳の中で潜んでいる単語のふたを取る時代が来ました。

Sunday, February 14, 2010

クエリーのブロケン・テール



[この記事はThe broken tail of queriesの和訳です]

つい前のポストで大きなミスを犯してしまいました。
結果のロングテールではなく、クエリーのロングテールです。
そして、それも健全な、滑らかな、長い尻尾ではなく、壊れている尻尾です。

より詳しく説明していきましょう。

まずは、ウィキペディアによる定義をもう一度見てみましょう。

”The Long Tail(ロングテール)とは、「あまり売れない商品が、ネット店舗での欠かせない収益源になる」とする考え方です”。
その概念を示すグラフはこちらになります:





商品売り上げのグラフです。縦軸を販売数量、横軸を商品名として販売数量順に並べると、あまり売れない商品が恐竜の尻尾のように長く伸びます。
つまり、販売数量が低い商品は沢山あるということを示せます。
そして、それぞれの領域に於ける面積が一致しています。

従って二番目のミスを犯してしまいました。
20-80ではなく、実は20-50です。
言い換えれば、全アイテムの20%は全ダウンロードの50%に当たるわけです。
残りの80%は残りの50%に当たります。
以前の記事で考えられていた数字よりも低いです。全アイテムの2割が全ダウンロードの8割を占めていると思っていたものです!

さて、サーチの世界に戻り、代わりに「結果」且つ「クエリー」という測定法を利用しましょう。
サーチに於いてもポピュラーなクエリーが、つまりごく普通のクエリーが沢山の検索結果を生み出すわけですが、特殊なクエリーは比較的に少ない検索結果を持ってきます。
言い換えれば、検索量数が低いクエリーは数々あります。
従って、以前のように人気度ランキングのようなグラフが得られます。
実際、ロングテールみたいなグラフが得られる筈です:





しかし、前回の記事で示したように、現在のサーチエンジンは非常に単純なクエリに対する処理しか出来ず、平均2.1キーワードで構成されているクエリーにしか検索結果を与えられません。
結果的にはほとんどのクエリーに対しては結果が出ません。
最終的にはクエリに関する壊れたロングテールが得られます:







それは残念な現象です。サーチエンジンの使用回数の半分に対しては結果が得られません。

しかし、実はそんな、単純なわけにはいきませんと貴方はもしかしたら言い返すかもしれません。
場合によって、ユーザーが探している商品名を正確に知っていることもあります。
そういう場合はサーチバーをフェッチドッグとして利用し、データベースにさえ入っていれば結果は当然出ます。
しかし、全く知らない商品を見てみたい場合は、その商品名は正確に知っています?
当然、知りません。
従って、先ほど初めて導入された、「壊れたロングテール」はほとんど変更されません。強いて言えば壊れる瞬間がちょっと遅れてしまいます。

検索結果が表示され、ユーザーは興味のある結果を選択し、好きな商品をダウンロードします。
ダウンロードするにはお金を払う必要がありますので、売り上げ数はダウンロード数に反映されています。
従って、もともと売り上げが発生する筈だったところには巨大なフラットゾーンが置き換えられます。





これは小売店に対しては大きな金の損失に繋がります。
ユーザーに対しては大きな時間の損失を生み出します。

ところが我々アスコットプロジェクトでは、特定の、パーソナルな、非常にカスタマイズされたクエリーに対する処理が出来るサーチエンジンのプロトタイプを作りました。
現在のサーチエンジンは沢山の情報が含まれているクエリーに対して結果を得るのに失敗しているのですが、我々は適合率の高い結果を提供することが出来たと確信しています。

ユーザーそして小売店、互いに得をする状況です。
ユーザーは今まで取り出せなかったアイテムを簡単に探し、入手します。
小売店は今まで利益を全く上げれなかった商品に対して売り上げを生み出すようになります。。。

Friday, February 12, 2010

The broken tail of queries



I made a huge mistake in the last post...
It's not a long tail of results, but it's a long tail of queries.
And in fact, it's not even a healthy, smooth long tail, but a broken long tail.

Let me explain myself.

Let's get back first to Wikipedia.

"The Long Tail or long tail is a retailing concept describing the
niche strategy of selling a large number of unique items in relatively
small quantities – usually in addition to selling fewer popular items
in large quantities."
Let's look at the graph that illustrates that concept.



It's just a graph showing popularity ranking. To the right is the long
tail; to the left are the few that dominate. Notice that the volumes
of both areas match.

So I made a second mistake.
It's not 20-80 but 20-50. In other words, 20% of all items account for
50% of all downloads. The remaining 80% account for the remaining
50%.
That's less that previously thought. In the previous post, it was
believed that those 20% of total items accounted for 80% of total
downloads!

Now, let's get back to the search world and use "results" and
"queries" for metrics.
Since popular queries generate lots of results and specific queries
generate few results, we can say that we get a graph that shows a popularity ranking.
In fact, we should get a long tail of queries:





But as noticed in the previous post, we have a problem: current search
engines are only able to handle very simple queries, those queries
comprised in average of 2.1, boring keywords.
Thus, most of the queries give no results.
In fact, we get eventually a broken tail of queries:





That's a pity. That means that 50% of the time we get nothing.

You would tell me that's not exactly what's happening.
Why?
Because there are cases where users know exactly the name of the
product they are looking for.
In that case, they are using the search bar as a fetch dog and if the
item is in the database, well indeed that will yield results.
But when you wanna discover new things based on personal criteria, do
you know the exact name of the item you are looking for?
The answer is of course no.
So it doesn't change drastically the previously tail of queries, perhaps delay a little bit the moment when the graph breaks down.

Once the user has obtained the results, he chooses the items that he
likes and then can decide whether or not to download them.

Since a download automatically translates into a sale (assuming that
download are not for free), we get eventually a huge zone where the
sales that should have been done have vanished:




That's a huge loss of money for the retailer and a huge loss of time
for the user.

But ascot project has come up with a new way to specify the search
criteria and a new way to deal with those specific, customized, personal queries.
And we are confident that we are able to give good results where
current search engines are failing to give any results.

In fact, that's a win-win situation for both users and retailers:
users will be able to discover new items and retailers will be able to
make cash on items that were not reached so far...

Wednesday, February 10, 2010

検索結果のロング・テール

[this post is a translation of "the long tail of search results" written by Pascal Hideki Hamonic.]


ロング・テール:"全アイテムの20%は全結果の80%を占めている"。
(ロング・テールをご存知ない方はwikiを参考してくださいませ。)

問題:"私は個人的なニーズを持っており、ロング・テールの右手に遠く離れている特殊なアイテムに興味を持っております。どうすれば検索できますか?"

まあ、世界のデジタル化を行うしかありません。
デジタル化することによって、ロング・テールの残りの80%に及ぶことが出来るようになります。
Amazon.comの場合はそうですが、ウォルマートの場合はそうではありません。物理的な制限があり、店内に全ての商品を置くことが出来せん。

従って、デジタル化によって、消費者は、個人的に好きな商品を簡単に手に入れることができます。
しかし、一つの条件があります:それらのアイテムを検索できる必要があります。

もう既にご存じかもしれませんが、物を検索するには2つの方法があります。

1)サーチバー
2)推薦エンジン

1)と2)、それぞれの長所及び短所を分析していきましょう。

探している物の名前を知っているのであれば、サーチバーは素晴らしい道具かと思います。言い換えれば、フェッチドッグとして利用します。つまり、アイテムのIDを指定して、そのアイテムを「持って来い!」という命令を検索エンジンに出せば良いのです。
例えば、『2001年宇宙の旅』という映画をAmazon.comで探していると仮定しましょう。サーチバーに「2001年宇宙の旅」という文字列を入力し、データベースの中に存在さえしていれば直ぐに画面に表示されます。

しかし、探している物の名前が不明だったらどうすれば良いのでしょうか?
その場合は、適合確率原理に基づきます。(推定された適合確率がユーザーにとっての最高の検索結果になるという原理)
探している商品に関する基準をサーチバーに入力し、情報検索システムはそれらの基準に最も適合している結果を先に出します。
人気度、アイテムの投稿日付、顧客の評価などによってランク付けを行います。
グーグル社だって同じ原理を使っています。但し、ページランクはリンク型データベースに適用します。

しかし、ここですぐ問題点が見えてきます。出されてくる結果はあくまでも人気度の高い結果で、つまり、全結果の8割だけです。その全結果の8割は全商品の2割に該当しています。従って、特定の商品に及ばず終わってしまいます。
結局、サーチバーでは自分だけに合った基準に合っている結果を出すことが出来ません。自分だけが探しているものを簡単に見つけ出すことが出来ません。
つまり、サーチバーだけでは本格的なカスタマイズ・サーチは出来ません。

そこで、推薦エンジンの良さが見えてきます。ロング・テールの右手にある遠く離れているアイテムを提案してくれます。しかも利用者には何も要求されません。
推薦されてきた商品を目で閲覧して、脳の持っている視覚情報に関するパターン認識の素晴らしい能力に基づき好きな物を選んでいけば良いのです。
しかし、なぜその商品を推薦されたのかはよく分かりません。把握するための道具は提供されません。その裏づけはありません。
もしかしてランダムな推薦かも知れませんと時々思ったりもします。

要点を繰り返しましょう:私が決めた基準で私に合っている商品だけを探しています。しかし、それらの商品の名前を知りません。
サーチバーのパラダイムでは、その基準を制御出来ますが、結果には未知の物が含まれません。
推薦エンジンのパラダイムでは、未知の商品を見つけ出してくれますが、探している基準は把握されません。

従って、入力される基準を把握するのみならず、未だ知らないアイテムを多く探してくれる情報検索システムを作り出すべきかと思います。
ユーザーは自分自身の基準を満たす新製品を発見したいものですから。

解決策の提案:ユーザーにより多くのキーワードを入力してもらうこと、つまり、より多くの情報を入力してもらうこと。

可能かと思いますが、二つの問題点がすぐに見えてきますね:

あ) まずは、現在の検索エンジンは沢山のキーワードの処理が困難です:ブール演算子に頼ると、入力キーワード数は平均で2.1だけです。より多くのキーワードを入れると結果の品質が悪化してしまいます。


い) そして、ユー

ザーにとって沢山のキーワードを入れるのが面倒くさいです:人間の脳は物を認識する能力が優れているのですが、物を思い出す能力が劣っています。

我々はアスコット・プロジェクトでは、両方の問題に対する解決法を見つけ出したかと思います。

最近では情報検索に関する特許に申請しました。 2つの重要な要素から成り立っています:概念入力と索引語推薦

実際、

あ)は、概念を処理することができる検索エンジンを作成することによって解決することができます。


い)は、関連する索引語や概念を推薦することができる検索エンジンを作成することによって解決することができます。

乞うご期待!因みにVCの方に連絡を取っております。。。

Tuesday, February 9, 2010

The long tail of search results...

The long tail: "20% of all searchable items account for 80% of all search results."


(For those that don't know what the tong tail is, have a look at:http://en.wikipedia.org/wiki/Long_Tail)

Problem: "I have specific needs that correspond to specific items that are far away on the right hand of the tail. How can I do?"

Well, digitize the world.
Thanks to the digitization of the world, consumers can now reach easily the remaining 80% of all possible items that exist in the collection.
This is the case in Amazon.com. But it's not the case in Walmart: you cannot have everything in the store because of the physical limitations.

So by relying on a Web site, people can now reach the items they are interested in.
Well on one condition: to be able to search for those items.

As you may know, there are two ways to search for things on the Internet:

1) search bar
2) recommendation engine.

Let's see the pros and cons of each one.

The search bar is a wonderful tool if you know exactly the name or the ID of the item you are looking for. In other words, you use the search bar as a fetch dog. Let' s say that you wanna buy "2001: A Space Odyssey" on Amazon.com. You will just have to input the characters string into the search bar and it will immediately display the movie if it's in the database.

But let's say now that you don't know the name of that thing you are looking for.
In that case, you rely on the probability ranking principle of information retrieval: you put the criteria that you are looking for into the search bar and the system will figure out the items that are the most relevant to those criteria.
This can be based on popularity ranking, items recentness, customers' evaluation etc...

In the same way, Google outputs popular results based on PageRank. They use in fact the same principle but applied to a linked database.

You see the problem here: the system will display only popular results, that is, those 80% of all results that correspond to 20% of all items, and therefore you would not be able to reach the specific items, the ones that exactly fit your personality and your criteria, the ones that are in the remaining 80% of the long tail. In other words, you cannot do customized search based on a search bar.

Conversely, the recommendation engine is good in the sense that the system can suggest you items that are far away on the right hand of the long tail without asking you to do anything: you only have to see with your eyes (and your wonderful visual patterns recognition ability) and choose what you like. But the thing is that the suggestions are displayed and proposed to you without any proper justification: you don't know why the system has displayed those particular suggestions. In other words, you don't have control over them. Therefore it may be very frustrating sometimes since you may think that the recommendations are random.

Let's recap: "I wanna discover new items that correspond to my taste and my criteria but I don't know the name of those items."


In the search bar paradigm, you have full control over the criteria but the system outputs only popular items that you are likely to already know or that are likely to be boring.

In the recommendation engine paradigm, the system outputs items that you don't know yet but you don't have full control over the criteria.

I personally think that It's high time that we built an information retrieval system where, not only you have full control over the criteria but also where you can discover things you don't know yet.

A solution: to enable searchers to put more keywords, in other words much more information, much more criteria.


Well there are two big problems in this stuff.

a) the fact that current search engines are not able to handle many keywords: a Boolean paradigm is stuck to 2.1 keywords. (See the previous post on that). Put more keywords and you get worse results.


b) the fact that it's just troublesome for the user to put many keywords: the human brain is good at recognizing but not at remembering things.

With ascot project, we believe we found an elegant solution for both problems. In fact, we recently applied for a patent in the field of information retrieval.

Two important ideas in that patent: "concepts-based search", "suggested terms".

Indeed,

a) can be solved by creating a search engine that is able to handle concepts.
b) can be solved by creating a search engine that is able to suggest related terms and related concepts.

Stay tuned. We are in contact with a VC right now...

Tuesday, January 12, 2010

フリー・テキスト・クエリ大問題を抱えているサーチ・エンジン達を助けましょう!




[このポストは"Help struggling search engines solve the free text query problem!"の和訳です。]

現在の全文検索システムは上記のようです。全然セクシーではありません。なぜですか?

考えられるのは、例えばフリー・クエリ・パーサですね。
フリー・クエリ・パーサって不器用なものです。
クエリに含まれているキーワードの間に於ける関係って普通の全文検索システムですと、ブール演算子から成り立っていると思い込まれていて、それらのブール演算子を推測しようとしていること自体が不器用です。

しかし、なぜ推測しようとする必要がありますか?これは、ユーザーが普段は明示的にキーワード間の演算子を指定していないからです。
実際、入力インタフェース、つまりサーチバーが狭すぎて沢山の検索語を入力するのが困難です。

現在のサーチ・インタフェースは未だに基本的なサーチバーだけであって、AND,ORまたはNOTという演算子がいくら指定可能であっても、やはり一般ユーザーにとって扱えにくいという今日この頃です。

”クエリ内のキーワードを繋ぐ関係が論理積だということを普及させたグーグルのようなサーチ・エンジンでクエリを入力すると、全てのキーワードにマッチしている文書しか結果として取り出されてきません。”
この発言は「情報検査への導入」という論文に載っています。著者はクリストファー・マニング氏です。彼はスタンフォード大学にて1997の頃にラリー・ペイジ氏とサーゲイ・ブリン氏という大学院生を指導した先生です。。。

ユーザーが何を言いたかったのかを一生懸命推測しようとするのを、一旦やめましょう。
その代わりに、ユーザーに対してもっと自由を与えましょう。
より多いキーワードを入力できるようにしましょう。
そして、ユーザーから得られた情報を効率的に且つ素早く処理できるようにしましょう。こうやって得られたデーターに、独自のアルゴリズムを掛けて、よりいい推測能力が得られるのではないかと考えています。

私は、イノベーションって"人間"と"機械"との緊密なコラボに基づいているかと思います。
人間は電気化学のコンピュータであり、マシーンは電子のコンピュータであります。

イノベーションはマシーンと脳が交互に貢献していくことによって生まれるかと思います。
サーチは例外ではありません。

Sunday, January 10, 2010

特許出願完了!





[このプストは Patent Application Filled の和訳です]


その出願書を送ったのは、ついこのあいだの月曜日でした。
16ヶ月のもの、研究開発を形式化しづつけてきたその直接な成果なので、満足感いっぱいです。
結果は、ポテンシャルいっぱいの有用な発明になる可能性が少なくはありません。


ちょっと、その辿りを振り返ってみましょう。
Ascot Project [アスコット・プロジェクト]をスタートさせたのは、2008年9月だった。
仮特許出願書(すなわち優先権利申込書)を出したのは、2008年12月だった。
そして、6ヶ月のもの、2009年1月〜6月の間は、研究開発が進んでいなかった。
しかし、2009年の6月にて、新たなソフトウェア・エンジニアを見つけ、進歩が一気に増えて、まるで元気を取り戻すことができました。


現在は、「サーチ・バー」と「BooleanOR」とを、「アスコット・プロジェクト」の性能を比較するデモを用意しています。
次の重大なステップは我々のプロジェクトに興味を持ち、アスコット・プロジェクトに本当に貢献できるチーム・メートを募集中です。技術、キャシュ、収益化モデル、ユザビリティー、デザインに関わっている方、人手、またはなんでも、マジで!


極端な話し、本プロジェクトをひどく批判する人でさえ、大変興味があり、「かかってこい!」って感じです。
もちろん、ちゃんとした説明も付いてですね。


早いもん勝ちだよ☆

Saturday, January 9, 2010

Patent application filled!




We filled the patent application last Monday. 16 months of work rewarded by a satisfactory formalization and a potential useful invention.
Some flashbacks.
We started Ascot project in September 2008. We filled a provisional patent application in December 2008. During 6 months between January 2009 and June 2009, nothing was going on, really. But then we found another software engineer in June 2009 and nd since then we' ve been doing much better, much much better, I can tell you folks. You don't have to believe me, though.
We' ve got a demo that compares "ascot project" with "search bar" and "Boolean OR".
The next step is to look for any person that can have a substantial opinion on our prototype, whether it's related to technology, cash, business model, usability, design, people or anything else, really.
We'd be even excited (not delighted though) to hear someone that says: "your prototype is s..t!", provided that's justified and convincing.
First-come, first-served.

Friday, January 8, 2010

Help struggling search engines solve the free text query problem!





Currently, this is how a full search system looks like.
This is rather ugly, at least not sexy at all.
Isn't?


It's based on clumsy ideas such as that free query parser that tries to guess which Boolean operators link each keyword together.
But why trying to guess? Because the searcher doesn't input explicitly any operators inside the query. The user's information input interface provided by the search bar is too narrow.


The fact of the matter is that current search interfaces are still basic search bars and therefore don't get you excited about using "AND", "OR" or "NOT".
Right?


"Web search engines such as Google have popularized the notion that a set of terms typed into the query box carries the semantic of a conjunctive query that only retrieves documents containing all or most query terms".
This is a quotation from "Introduction to information retrieval", written by Christopher Manning , the associate professor at Stanford that helped Larry and Sergey do some cool stuff in 1997...


Again, let's stop trying to guess systematically for the user, for a minute. Let's enable searchers to put more information. Let's try to process that additional information in an elegant and efficient fashion. And let's try to create some substantial data that will be used to create algorithms that will be the basis for systems whose purpose will be to guess for the user.


I think that technological innovation is based on a very tight collaboration between "humans" and "machines", a "human" being an electrochemical computer, a "machine" being an electronic computer. I think that technological innovation is based on an alternation between humans' brains contribution and machines contribution, all the time.


And search is no exception.

Friday, January 1, 2010

マリサ様よ、SMARTは全然スマートじゃないよ。

Googleは世界のデジタル化を実行しつつあって、全世界にAPIをオープンにしています。

Googleは依然として最も信頼性の高い検索エンジンであり、Webに埋め込まれた情報に於いては未だに最も包括的なサーチエンジンです。

しかし、"サーチは未解決の問題です。我々はその解決策の90〜95%を持っていますが、残りの10%に於いてはまだまだです。"と語るマリサ・マイヤー。

その通りです。未だに大きな問題が残っています。未だにサーチに於いての入力インタフェースが古風であるということですよ。

マリサ様よ、貴方は、なぜ未だに古いサーチのやり方に拘っていますか?グーグルのサーチバーは60年代のSMARTに於けるキーワード入力法とそれほど変わらないでしょうね。
(因みに、写真はG. サルトン様によって作られた、初代のモダンな情報検索システムに当たる写真らしいです。)

マリサ様よ、どうしてユーザーさんにもっと自由を与えたくないと思うのですか

驚きとイライラ感しか沸いてきません。

特に、貴方はは語義判別問題は未だコンピュータに任せるべき問題だと思い込んでいるでしょう。イギリスのオートノミー社みたいにね。


語義判別問題は先ず人間の脳に任せるべきと思わなきゃいけない時代が来ました。