検索エンジンの使い方。

ものすごーく初歩的な題なのだけど、前々から書いてみようと思っていた記事。
検索エンジンの使い方なんて、キーワード入れて、出てきた結果をクリックすればいいんですよ。それが普通なんですよ。でも、もうちょっと見てみようね、というのが主な題。

例を見る。

「あまた Opera」でググると、次のような結果を得ることができます。
f:id:amatanoyo:20110124223650p:image
さて、まずあなたは何を見るでしょうか?ここで見るべき点は、主に4つあります。

タイトル

ひとつは、タイトル。
当然ですよね。そりゃあ、タイトル見ないと何のページなのかが分かりませんよ。

URL

次にに見るべきは、URL。
スニペット*1を読む前に、URLを見るべきですね。例えば、DMM.comかと思ったらDMM.co.jpだったりするわけです(これは殆どあり得ない事例ですけど)。
スクリーンショットでいうと、このURLは、

ということがわかります。URLを確認するということは、そのページの特徴を確認する上で良い手がかりとなります。

スニペット

さて、その次に見るべきはスニペットでしょう。ですが、スニペットを読むのには注意が必要です。
例えば、上スクリーンショットは次のようになっていますね。

2008年4月13日 ... [Opera]数多が使うOpera Extension。 [Opera]Operaに日本語組版を迫る会。 [Apple]Mac App Storeアフィリエイトについて (2011年1月18日現在) · [ow]告知通り。 [web] Dropboxの容量をタダで2GB増やす方法。 ...

しかし、URL先の記事本文にはこんな文字列は含まれていません。このスニペットの殆どは、サイドバーにある最新タイトルを反映しているのです。
クローラは、クロールしたときにページに在ったものからスニペットを作りますから、スニペットを読んでこういうことが書かれているからこのページに行こうだとか、書かれていないからこのページにはないのだとか、そういう判断をしてはなりません。そういう理由で、タイトルとURLをまず先に見た方がいいのです。
ちなみに、スニペットは、そのページの構成について文字をもって表している箇所があります。それが、" ... "です。この記号が入っているということは、その前後の間にはまったく繋がりのない文章が存在するということを意味しています。
例えば、次のようなスニペットがあったとしましょう。

本当に有り難うございました ... ふざけるなこのやろう! ... このような言動に感心した。

この場合、「本当に有り難うございました」と「ふざけるなこのやろう!」、「このような言動に感心した。」は、同じ記事中に書かれていることはまずありません。ある記事では有り難うといい、ある記事は怒鳴り散らし、ある記事では心打たれている、というサイト構成を想像してください。スニペット中の" ... "は、記事の省略などではありません。クロールされた時点での、そのページの状況を、数行にまとめるために利用した記号なのです。

キャッシュ

タイトル、URL、スニペットを確認した後、このページにほしい情報が載っていると思い、いざアクセスすると、ごく稀に全く情報が文章がなかったりしませんか?スニペットには書いてあったのに、どうして、と。
このような事態は、スニペットの特性と関連しているのですが、スニペットが"当時クロールされた時点の、ページの情報の省略"であることに留意すれば、検索結果に表示されるスニペットは(数年前の過去か1秒前の過去かを含めて)古い情報だということがわかります。
では、スニペットに書かれた情報だけを抜き出すにはどうすればいいのでしょうか。
答えは簡単で、そのページのキャッシュを見ればいいのです。スニペットがクロールした時点のページの構成を反映しているのならば、クロールした際のキャッシュにその文字が書かれているはずなのですから、キャッシュを見てみれば答えに繋がるのです。
ただし、ものによってはキャッシュがなかったり、あるいはキャッシュの更新日時*2は古いはずなのに、キャッシュページが新しかったりと、若干不完全な場合もあります。

4つの情報を駆使する

というわけで、検索結果を見る場所は4つあります。

  1. タイトルを確認し、
  2. どんなサイトに掲載されているのかを確認し、
  3. それがどういう文章と一緒に掲載されている(かもしれない)かを見て、
  4. もし掲載されていなかったら、キャッシュを見る。

という流れです。


ちなみに、Googleについていえば、もうちょっと気にするべき点があったりなかったりなんですけど、この記事はこれで終わり。

*1:検索結果の、タイトル下に出てくる切り取られた文章のこと。

*2:「このページは * に取得されたものです。」という表示がキャッシュページ上部に表示される。