BLOOM journal

GoogleクローラーがWebサイトの情報を収集する仕組み

投稿日:2015年03月09日
Webの知識

  • このエントリーをはてなブックマークに追加

どうもブルームプロモーションの高橋です。

昨年9月の時点で、世界のウェブサイト数が10億件を突破したそうです。ものすごい数ですが、Googleはその全てを調べ整頓し続けています。

10億を超えるWEBサイトを網羅するGoogleは、一体どうやってこの膨大なWebサイトに対応しているのでしょうか?

今回はGoogle検索エンジンの仕組みを知るための第一歩、Webサイトの情報を収集する「クローラー」についてお伝えします。

スパイダー

クロールするからクローラー

Web上の情報を収集することを「クロール」といいます。Webという海を泳いでいる感じからなんでしょうか?

クロールしているのは、Googleが開発した自動巡回プログラム「Googlebot(グーグルボット)」です。WEB上をクロールするロボットのことを総称で「クローラー」と呼びます。

クローラーは私たちユーザーと同じように、WEBページのリンクをたどって移動します。Webの世界に無数に張り巡らされたリンクからリンクをハイスピードでクモのように這い回るので、スパイダーとも呼ばれています。

人とクローラーに優しくあれ

「リンクが切れているページがあるサイトは良くない」と言われるのは、ユーザビリティ(ユーザーの使いやすさ)の問題だけでなく、クローラーがリンクをたどれなくなり、サイトのなかの情報を把握しきれなくなるからです。

ちなみに、ユーザビリティと似た言葉でクローラビリティ(クローラーの使いやすさ)という言葉もあります。カッコつけたい時に使ってみてもいいかも知れません。

クローラーは世界中の公開されているウェブページをクロール(情報を取得)し、そのページの情報をGoogleのサーバーへ持ち帰って蓄積します。
誰かが何かを知るために検索をすると、そのキーワードとマッチする結果に選ばれたページが表示されます。

 

たくさんあるクローラーの種類

一番有名なクローラーはGooglebotですが、ほかにもロボットの種類はたくさんあります。

画像専門のクローラーや広告専門のクローラー、Google以外の検索エンジン専門のクローラーなど、Googleは複数のマシンを開発しています。

情報集めの仕事を分業することで、10億にも及ぶ増大するWebの世界に対応しているわけです。

 

Googleはテキストが好き?

クローラーのことで、一つ覚えておきたいことがあります。

それは「画像の中にある文字は理解できない。」ということ。

テキストは文字コードでできているので、プログラムであるクローラーも理解できますが、所詮ロボットなので今のところ、デザインや画像の美しさ、動画の楽しさも理解できません。

「Googleはテキストが好き」と言われますが、逆に言えば、Googlebotは「テキストしか理解できない」ということです。

もし、あなたがサイトやブログで、伝えたい情報があるとしたら、それをしっかりとテキストで表現することが大事です。

そして同時にクローラーが、サイト内の情報を集めやすくしてあげるように、内部リンクを適切に渡らせるなど、サイトの構造を設計し施策をすることが必要です。

それは、ユーザーにとっても有益なサイトになる施策と通じる点が非常に多いのです。

次回は、検索エンジンのインデックスの仕組みとチェック方法についてお伝えします!

 まとめ

・クロールとはGoogle検索の仕組みのプロセス
・クロールするロボットはクローラーと呼ばれる
・Web全体の利便性のためクローラーにはたくさん種類がある

2015/12/03 ちょっと追記しました。

  • このエントリーをはてなブックマークに追加