リアルタイム検索メモ

ついにリアルタイム検索の時代がやってきたようなのでメモ。

11月にリアルタイム検索のテストサイトをクローズしたグーグルが、早くもUS版の検索エンジンにリアルタイム検索を組み込んできた。

Googleが英語リアルタイム検索発表、Twitterも数秒~数分以内に -INTERNET Watch

米Googleは7日、英語によるリアルタイム検索サービスを発表した。数日以内に全世界で公開する。

 リアルタイム検索とは、一般的にはWebに書かれた内容を数秒以内に検索可能にする技術のことだ。Googleでは10月、Twitterを含むリアルタイム検索を開始することを明らかにしていた。今回、新たにFacebook、MySpace、FriendFeed、Jaiku、Identi.caとも提携したことを発表した。Googleはリアルタイム検索のために、数十億ドキュメントをモニターし、1日に数百万回の更新を行う。

Twitterでもいつのまにか、日本語によるリアルタイム検索が可能になっていた。

特定のキーワードで検索すると、検索語に投稿されたツイートも表示できる。タイムラインが自動更新される専用クライアントを使えば、テレビを観るみたいに、あるキーワードについての情報を監視できる。

10月にTwitter検索で先行したBingだが、今回のGoogleの変更で、逆に大きなビハインドとなってしまった。

BingのTwitter検索は、GoogleのLatestのように、どんどんとTwitterの新着がタイムラインのごとく流れてくるわけではない。

しかも、GoogleはTwitterやFacebookに加えてニュースやブログにも対応している。

Microsoft、『Bing』で『Twitter』リアルタイム検索を開始 – japan.internet.com Webマーケティング

Microsoft は21日、同社の新検索サービス『Bing』における大規模な試みとして、人気の高いマイクロ Blog サービス『Twitter』のリアルタイムによるつぶやきを Bing に取り込めるようにする取り決めについて発表した。この機能は米国では同日公開され、『Bing TWITTER BETA』で利用できるようになった。

こちらがGoogleリアルタイム検索の発表の元ソース

Official Google Blog: Relevance meets the real-time web

Our real-time search enables you to discover breaking news the moment it’s happening, even if it’s not the popular news of the day, and even if you didn’t know about it beforehand. For example, in the screen shot, the big story was about GM’s stabilizing car sales, which shows under “News results.” Nonetheless, thanks to our powerful real-time algorithms, the “Latest results” feature surfaces another important story breaking just seconds before: GM’s CEO stepped down.

Click on “Latest results” or select “Latest” from the search options menu to view a full page of live tweets, blogs, news and other web content scrolling right on Google. You can also filter your results to see only “Updates” from micro-blogs like Twitter, FriendFeed, Jaiku and others. Latest results and the new search options are also designed for iPhone and Android devices when you need them on the go, be it a quick glance at changing information like ski conditions or opening night chatter about a new movie — right when you’re in line to buy tickets.

And, as part of our launch of real-time on Google search, we’ve added “hot topics” to Google Trends to show the most common topics people are publishing to the web in real-time. With this improvement and a series of other interface enhancements, Google Trends is graduating from Labs.

Our real-time search features are based on more than a dozen new search technologies that enable us to monitor more than a billion documents and process hundreds of millions of real-time changes each day. Of course, none of this would be possible without the support of our new partners that we’re announcing today: Facebook, MySpace, FriendFeed, Jaiku and Identi.ca — along with Twitter, which we announced a few weeks ago.

リアルアイム検索って、どうやって実現するのか? と気になったのでググったら、実際に作ってみた人がいた。

140行で作る分散リアルタイム検索エンジン(Twitter Streaming API対応) – 古橋貞之の日記

新しいつぶやきを受信するたびに、リアルタイムで転置インデックスを作成していきます。インデックスを作成するノードを複数用意して負荷を分散させられるのがポイントです。

 これは、TwitterのAPIを使った例。 TwitterのAPIから流れ込んでくる新規投稿を、次々とインデックスを作成してデータベースに保存していく。インデクサを並列化できれば、どんどんと流れ込むドキュメントも滞りなくインデックス化できるわけだ。
 たぶん、一番難しいのはクローリングの方法。上記のサンプルはTwitterのAPIを使うことで、そこをうまく回避した。
 天下のGoogleもそこのところは変わらないらしく、TwitterやFacebookからデータの提供を受けるている。ニュースとブログもリアルタイム検索の対象になっているが、それはRSSや更新pingという仕組みがあるからだろう。
 高速なインデクシングもテーマとなる。上記のサンプルは日本語には対応していない。Googleもまだ日本語には対応していない。これはとくに空白によるわかち書きがされない日本語では重要な問題だ。
 ただ、リアルタイム検索の人気が高まると、リアルタイム検索に掲載されないと人が集まらないということになるかもしれない。そうなると、ニュースやブログ意外でもRSSや更新pingがSEO的に必須になるのかもしれない。

リアルタイム検索の課題。流れてくるデータを表示するだけならTwitterで十分。そのなかから価値の高い情報を探し出す技術を、検索専門のGoogleは提供しなければならない。
グーグルのリアルタイム検索–大量に生成されるデータをいかに整理するか:スペシャルレポート – CNET Japan

 ここで問題になるのが、Googleはどうやってリアルタイム結果に索引を付け、ランク付けするのかという点だ。Googleには、ウェブページをそのページにリンクしているほかのページの数によって評価する「PageRank」のリアルタイム版を開発する必要がある。Googleのプレゼンテーションに続いて行われた質疑応答で、Mayer氏は、Googleがその「実験を始めている」と述べた。

関連記事

投稿者:

ともゆき@zubapita

ともゆき@zubapita

作ったモノ 雑誌:月刊アスキー(デスク)、アスキー.PC(副編集長)、インターネットアスキー(編集長)、アスキーPCエクスプローラー(編集長) Webサイト:東京グルメ/ライブドアグルメ、映画を語ろう、本が好き 著書:「Twitter 使いこなし術」「facebook 使いこなし術」 最近は、株式会社ブックウォーカーにて、「BWインディーズ」をやってます。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>