検索結果を弄る。

移行後にこまったことは、数日たっても検索結果が古いままだったこと。まあ、それはクローラ(検索ボット)が来ていないから仕方がないことだとしていたのですが、PukiWikiへのリンクを何とかしないとなぁと思っていたのです。既にそのリンク先には該当記事がないわけでして、この不案内が続くようならいけないなと*1
リンク先に期待されるコンテンツがなくてもメインページが開くようになっていました。しかしこれで不案内さを解消したわけではないですし、そのような結果が出続けるのもどうだろうということで、各検索エンジン(ここではGoogleについて)から該当リンクを削除しようといろいろやっていたわけであります。(迷走とはこのこと)

robots.txtで頑張る。

答え:無駄。
長い目で見たら出来たのかもしれないのですが、クローラがなかなか来てくれませんでした。ちなみに、Googleウェブマスターツールではrobots.txtは1日に1回これを更新するそうですが、数日たっても反映はされませんでした。

サイトマップで頑張る

クローラが来ない時点であまり期待できません。

放置する。

Googlebotが3/5に、メインページに一度来ましたが検索結果を更新してはくれませんでした。これでは困ります。なぜなら、既にコンテンツがないにしてもURL先は404ではないので、下手すると次回クローラが来てもインデックス(検索結果)からは消えないかもしれないわけです。

サイトそのものを一度削除する。

jaなんてことしていたのは、このため。一度PukiWikiに戻してサイトそのものを全部削除したのです。
この方法をとった理由は、

  1. "URLの削除"が使えなかったから。
    • 個別に削除することが出来るのですが、インデックスに残っているキャッシュはPukiWikiで、サイト認証がされていないのです。URLの削除は認証されているサイトでしか使えませんので、失敗に終わりました。
    • そういった意味ではPukiWikiに戻す必要はありませんでした。しかし、次の点を考慮して一応やっておきました。
      • サイトの内容がキャッシュと同一であることをGoogleに知らせる。
      • MediaWikiのままサイトを削除した場合、既にGoogleに送信したサイトマップが無効になることになる。そのサイトマップは削除完了後再登録される予定である。一度無効になったサイトマップを再び登録することをGoogleがどう判断するのか。PageRankが下がるのは仕方がないにしても八分されてはたまらない。
  2. ウェブページ削除リクエスト ツールが使えない。
    • 申請するための該当項目がない。
      • URL先は404ではないから。
  3. 対応が早い。
    • robots.txtはサイト管理者が用意してGoogleが読み込んでくれるのを待たなければなりませんが、この方法をとるとGoogleがいち早く対応してくれます。
    • ただし、対応には遅くとも数日かかるかもしれないということ、実際に削除された場合90日間はサイトがクローラの対象外になること、その90日以内に再びサイトを登録することが出来るが全て削除されたのかがわからないこと、という不安要素があります。
      • サイトの削除リクエストなのだから対応が遅くなることはあまりないと思います。実際1日で済みました。
      • 「HTTP ステータス コード 404 または 410 を返すように」するか「robots.txt ファイルまたは noindex メタ タグを使用して、クローラがコンテンツにアクセスしないように設定」するかの方法をとった後、削除リクエストを申請することが出来ます。私はrobots.txtを使いました。
      • 削除リクエストが受理されると削除されていますと表示されますが、再登録のボタンを押すとキャンセルされましたと表示されます。これだとサイトが完全に削除されたかわかりません。
      • 事実、http://opera-wiki.com/のスニペットは依然としてPukiWikiのままです。90日を経ずに再登録するとインデックスから完全に削除はされないと考えられます。
      • 従って、削除されたのではく、robots.txtによって除外されたと思われます。
        • しかしサイトの削除リクエストはGoogleに"早くrobots.txtを反映させる"手段として有用でしょう。


この方法で十分な結果が得られました。現在MediaWikiサイトマップを再登録して様子を見ています。

別の検索エンジンでは?

Yahoo!Japanにはサイトエクスプローラーがあります。

これはrobots.txtを使わずにサイトエクスプローラー上で簡単に除外設定ができるので(しかも処理が早い)、Googleほど手こずりませんでした。
Live Searchには、Live Search Webmaster Centerがありますが、(これ以上は何も言いません。)

*1:PukiWikiの記事を削除しないという方法もありましたが、重複コンテンツだと見なされると危ないだろうなぁと判断しました。