February 25, 2003

googleとblog

googleがBLOGGERを買収したニュースについて
特に新しい情報のない状態ではあるが
blog界隈やニュースサイトを見てみた感想をまとめてみる。


googleがコンテンツ分野に乗り出す。
短期的にはこれは無いと思う。
検索屋にはblogも検索エンジンの種に見えるのではないか。

 
検索エンジンが何をしているのかというと
いろんなページをクロールしてデータを集め、それらを解析し
検索結果として表示できるようにしておくということ。
ここでキーになるのがデータ量、鮮度、検索結果のアルゴリズム。
データ量については今後もどんどんと増殖し続けるだろうし
それに対応するにはロボットを増やし続け
キャッシュの保存領域を増やし続けるしかない。
ただ、やはり効率よく集められるならそのほうがよいはず。
そこでならRSS/RDFを効率的に使えるはず。
キャッシュがあるのでhtmlのクローリングも必要ではあるが
情報の解析ということにかけてはRSS/RDFのほうが効率がよい。
定型フォーマットの利点と言える。
鮮度ということでもblogサイトは更新頻度が高いので
gooが一時やっていたニュースサイト検索のようなものの
対象とする可能性もある。


そしてgoogleが最もぬきんでているのが
検索結果表示のアルゴリズムであり公表されているpagerankのシステム。
相互言及性が高く、他サイトへのリンクで構成されるblogサイトは
pagerankシステムに与える影響が大きいはず。


実はこれはBLOGGERを買収しようとしまいと関係のない話。
なぜ買収する必要があったかということになると
ソースコードが必要だったのか、人が必要だったのか。
個人的には人なのではないかと思う。
上のようなblogの特徴をgoogleの検索エンジンに取り込む際の
アドバイザー的な役割を期待しているとか。
BLOGGERを研究材料にしようとしているとか。
そのあたりなのではないだろうか。


何か新しい発表があるまでわからないままだけど
いろいろ考えてみるのは面白いものではある。

Posted by kengochi at February 25, 2003 02:12 PM
Comments (2)

どうでしょう。Googleは豊富に蓄積したデータをもとに、統計から意味情報を抽出するというアプローチを目指しているように思われます。(PageRankも一種の統計的アプローチですね)。例えばGoogleが実験的に公開している以下のような機能をみてみると、彼らはWeb全体をデータベースと見倣しているような気がしてきます。

http://labs.google.com/glossary
http://labs.google.com/sets

さて、bloggerで何をするかですが、既に作られてアップされたスタティックなhtmlだけでなく、それが作られて行く過程の情報も収集することで、統計から意味を抽出するというアプローチを補強するのではないか、とぼんやり考えています。利用者に目に見える形での新機能はすぐには出て来ないかもしれませんが、例えば一つのニュースソースからそれに言及する形でblog間に情報が広がって行く様子を統計的に処理すると、何かが見えて来るかもしれません。

Posted by: shiro on February 25, 2003 03:41 PM

なるほど。
確かにhttp://labs.google.com/で実験されていることとか
「はじめから検索エンジンを作りたかったわけではなくてwebに注釈をつけたかったんだ」
という話を考えても
> 彼らはWeb全体をデータベースと見倣しているような気がしてきます。
はその通りなんだろうなぁと思います。

http://www.j-bradford-delong.net/movable_type/2003_archives/000032.html
ここでコメントしている人の意見も含んでますが
人が情報の信頼度をあげている全体としてのblogの仕組みが
今は検索エンジンという形に結実しているgoogleの試みに
近いところがあるという感じでしょうか。

統計的処理には単純に興味があります。
面白そう。

Posted by: kengochi on February 25, 2003 08:01 PM
TrackBack (0)
このentryへのTrackBack URL
http://gnk.s15.xrea.com/x/mt-tb.cgi/49
(文字コード自動判別)
Post a comment