先月22日から2分に1回の頻度で、BaiduspiderというROBOTから絨毯爆撃が来ています。おかげでログがBaiduspiderの名前で埋まってしまいました。
このROBOT、どうやら中国"国内"限定の"百度"と言う検索エンジンのようです。中国国内ということは、幾ら百度の検索TOPになっても、我々日本人には恩恵が少ないと思われます。それよりも、このDOS攻撃に近い絨毯爆撃によるサーバ負荷のほうが遥かに問題。ご丁寧にも同じURLを何度もリクエストしてくる行儀の悪さです。
そこで、robots.txtで規制をする事にしました。まずは温厚に1時間1回のアクセスにしてもらうようお願い。
User-agent: baiduspider Disallow: Crawl-delay:3600
User-agentにはBaiduspider(最初大文字)やBaiduspider+(最後に+)を書くと認識してくれません。ログのUser-agentと認識名が違うところに悪意さえ感じてしまいます。
さて、この状態で20日経ちましたが、アクセス頻度が下がりません。更に問題なのが「Robots.txt」を読みに来ないこと!一体何ヶ月待てば設定が反映されるんでしょう。
どうしたものかと調べてみると、この百度のクローラーBaiduspiderは、巷でも評判が悪いらしい。先のWikipediaの記事でも、それが窺い知れると思います。
そこで、Robots.txtで一切拒否。サーバ側でも弾くようにしてしました。行儀が良くなってから開放する予定です。百度は今後日本にも進出するらしいですが、これでは先が思いやられますね。
User-agent: baiduspider Disallow: /
その他、行儀が悪かった最近のROBOT。
- BecomeBot←ショッピングリサーチ用
- BecomeJPBot←上記日本語版