百度からのアクセスを制限する方法

先月22日から2分に1回の頻度で、BaiduspiderというROBOTから絨毯爆撃が来ています。おかげでログがBaiduspiderの名前で埋まってしまいました。

このROBOT、どうやら中国"国内"限定の"百度"と言う検索エンジンのようです。中国国内ということは、幾ら百度の検索TOPになっても、我々日本人には恩恵が少ないと思われます。それよりも、このDOS攻撃に近い絨毯爆撃によるサーバ負荷のほうが遥かに問題。ご丁寧にも同じURLを何度もリクエストしてくる行儀の悪さです。

そこで、robots.txtで規制をする事にしました。まずは温厚に1時間1回のアクセスにしてもらうようお願い。

User-agent: baiduspider
Disallow:
Crawl-delay:3600

User-agentにはBaiduspider(最初大文字)やBaiduspider+(最後に+)を書くと認識してくれません。ログのUser-agentと認識名が違うところに悪意さえ感じてしまいます。

さて、この状態で20日経ちましたが、アクセス頻度が下がりません。更に問題なのが「Robots.txt」を読みに来ないこと！一体何ヶ月待てば設定が反映されるんでしょう。

どうしたものかと調べてみると、この百度のクローラーBaiduspiderは、巷でも評判が悪いらしい。先のWikipediaの記事でも、それが窺い知れると思います。

そこで、Robots.txtで一切拒否。サーバ側でも弾くようにしてしました。行儀が良くなってから開放する予定です。百度は今後日本にも進出するらしいですが、これでは先が思いやられますね。

User-agent: baiduspider
Disallow: /

その他、行儀が悪かった最近のROBOT。

BecomeBot←ショッピングリサーチ用
BecomeJPBot←上記日本語版

2019/10/27 日曜日【悲報】米オライリー、DRMフリー電子書籍の取扱いを中止してた
2018/03/16 金曜日 Googleマップで大規模接続障害発生、路頭に迷う恐れ
2011/07/11 月曜日 Value Domainからの他社への移管方法2011年版
2010/11/25 木曜日他サイトからiframe経由で自ページを読み込まれないようにする方法
2010/09/28 火曜日 Firefox Portableとインストール版を同時起動する方法

Wolfish BLOG

百度からのアクセスを制限する方法

関連記事

技術話、時事ネタ、雑記と何でもござれ

2024年4月
日	月	火	水	木	金	土
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30