10 4月 2007 Archives

先月22日から2分に1回の頻度で、BaiduspiderというROBOTから絨毯爆撃が来ています。おかげでログがBaiduspiderの名前で埋まってしまいました。

このROBOT、どうやら中国"国内"限定の"百度"と言う検索エンジンのようです。中国国内ということは、幾ら百度の検索TOPになっても、我々日本人には恩恵が少ないと思われます。それよりも、このDOS攻撃に近い絨毯爆撃によるサーバ負荷のほうが遥かに問題。ご丁寧にも同じURLを何度もリクエストしてくる行儀の悪さです。

そこで、robots.txtで規制をする事にしました。まずは温厚に1時間1回のアクセスにしてもらうようお願い。

User-agent: baiduspider
Disallow:
Crawl-delay:3600

User-agentにはBaiduspider(最初大文字)やBaiduspider+(最後に+)を書くと認識してくれません。ログのUser-agentと認識名が違うところに悪意さえ感じてしまいます。

さて、この状態で20日経ちましたが、アクセス頻度が下がりません。更に問題なのが「Robots.txt」を読みに来ないこと！一体何ヶ月待てば設定が反映されるんでしょう。

どうしたものかと調べてみると、この百度のクローラーBaiduspiderは、巷でも評判が悪いらしい。先のWikipediaの記事でも、それが窺い知れると思います。

そこで、Robots.txtで一切拒否。サーバ側でも弾くようにしてしました。行儀が良くなってから開放する予定です。百度は今後日本にも進出するらしいですが、これでは先が思いやられますね。

User-agent: baiduspider
Disallow: /

その他、行儀が悪かった最近のROBOT。

BecomeBot←ショッピングリサーチ用
BecomeJPBot←上記日本語版

日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Wolfish BLOG

日別アーカイブ: 2007/04/10 火曜日

百度からのアクセスを制限する方法

技術話、時事ネタ、雑記と何でもござれ