今天无聊看了一下 httpd 的 log, 发现这个地方真是 Bot 的乐园,一眼看去无数行 log 里面一个正常访问的用户都没有,有名的无名的 Bot 哗啦哗啦抓得不亦乐乎。还好我的带宽不要钱,要是虚拟主机用户岂不是要哭死。

简单统计了一下 User-Agent:

cut -d " " -f 12- access.log | sort | uniq -c | sort -k 1 -n -r > /tmp/uastat.log

结果见附件。

肉眼观察了一下,大概有如下这些 Bot,按照出现频率排序。

“Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)" // 毫无疑问,yahoo china 的是抓的最狠的。
“Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
“Baiduspider+(+http://www.baidu.com/search/spider.htm)” // google 和 baidu 这俩其实不分上下,今天 g 抓的狠,明天 b 抓的狠
“Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)" // 美国和中国 yahoo 的 spider 明显是分开的。
“Mozilla/4.0 (compatible; MSIE 6.0)” // 这个肯定是什么玩意伪装的, 真正 IE 没有这么沉默,要加很多系统版本号之类。
“msnbot/1.0 (+http://search.msn.com/msnbot.htm)”
“lanshanbot/1.0” // 这是什么?
“Anothr spider(http://www.anothr.com; RServer 0.5)” // 这个貌似是新冒出来的,以前没有见过。
“lilina 0.9 (+http://lilina.sf.net/)” // 谁家装的这个东东来抓我?
“Bloglines/3.1 (http://www.bloglines.com; 1 subscriber)”
“Feedfetcher-Google; (+http://www.google.com/feedfetcher.html)” // Google 他们家的 Bot 也分好几种
“Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0 qihoobot@qihoo.net)” // qihoo 也来凑热闹了,以前没有见过
“iaskspider/2.0(+http://iask.com/help/help_index.html)” // 这东西是死灰复燃了么?感觉跟快没了似的。。
“Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; )” // yodao 貌似 bot 改过很多次名字了。
“CafeRssCatch1.0” // 这个是啥?
“Mozilla/5.0 (compatible;YodaoBot-ZZZ/0.2;http://www.yodao.com/help/webmaster/spider/;zzzyzzz@gmail.com)/0.2 http://www.yodao.com/help/webmaster/spider/; zzzyzzz@gmail.com)” // 不能不说 yodao 这个 Bot 描述写的太次了,描述就是简要描述,不是给你在里面写小说用的,要不要把手机号也写里面给大伙看看?
“MagpieRSS/0.72 (+http://magpierss.sf.net) (Tiny Tiny RSS/1.2.5)”
“curl/7.15.1 (i386-redhat-linux-gnu) libcurl/7.15.1 OpenSSL/0.9.8a zlib/1.2.3 libidn/0.6.2” // 经典且传统
“Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.2.1; Rojo 1.0; http://www.rojo.com/corporate/help/agg/; Aggregating on behalf of 3 subscriber(s) online at http://www.rojo.com/?feed-id=2586324) Gecko/20021130” // 原来除了 yodao 那个,还有更恶心的描述,ft
“NewsGatorOnline/2.0 (http://www.newsgator.com; 2 subscribers)”
“InetURL:/1.0” // 超赞,这是哪个控件的默认 UA ?
“Zhuaxia.com 9 Subscribers”
“Berrylines-rssbot (Berrylines-rssbot 0.1; 1 users)”
“FeedOnFeeds/0.1.8 (+http://minutillo.com/steve/feedonfeeds/)”
“Liferea/1.2.7 (Linux; zh_CN.UTF-8; http://liferea.sf.net/)" // 懒得看这个是客户端还是 Bot 了,先当 bot 算
“sogou spider”
“sogou js robot” // 有人喋喋不休就有人惜墨如金,加个描述网页的 URL 会被罚款吗?还是怕人找上门来算帐?
“Mozilla/3.0 (compatible; Indy Library)” // Delphi/BCB !
“iearthworm/1.0, iearthworm@yahoo.com.cn” // 又是一个小本经营的啊。没有网页给大家看就放个邮箱。不过这名字听起来有点危险 – worm,,
“TrackBack/1.02” // 我没有名字,就叫我路人甲好了。。
“Wget/1.9.1” // wget 明显不行了啊,比 curl 少那么多。。
“larbin_2.6.3 (larbin2.6.3@unspecified.mail)” // 连默认配置都不改一下的一定是个懒人。。
“User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)” // 还有程序写错了的,自己有没有抓包看看啊。。
“P.Arthur 1.1” // 久仰久仰,不过你到底是啥?
“Mozilla/4.0 (compatible; NaverBot/1.0; http://help.naver.com/delete_main.asp)" // 哇,韩国搜索引擎也对我这中文 blog 感兴趣么?
“IRLbot/3.0 (compatible; MSIE 6.0; http://irl.cs.tamu.edu/crawler)"
“daye” // 你才大爷,你们全家都大爷,来抓还不说自己是谁。
“libwww-perl/5.79”
“findlinks/1.1.3-beta9 (+http://wortschatz.uni-leipzig.de/findlinks/)”
“CFNetwork/129.20”

uastatlog.txt