分类 Network 下的文章

在 Fedora 9 下面配置 ISATAP IPV6 tunnel

Fedora 9 终于换成了 2.6.25 kernel,2.6.25 支持 ISATAP 方式的 ipv6 tunnel 接入。于是把自己的机器简单配置了一下支持 IPV6

1: 保证 kernel 支持 ipv6
2: 编辑 /etc/sysconfig/network ,增加下面这行

IPV6_DEFAULTGW=your ipv6 gateway

3: 编辑 /etc/sysconfig/network-scripts/ifcfg-sit1, 内容如下

DEVICE=sit1
ONBOOT=yes
IPV6INIT=yes
IPV6TUNNELIPV4=your isatap tunnel IP
IPV6TUNNELIPV4LOCAL=your local ipv4 ip
IPV6ADDR=your ipv6 address

4: ifup sit1

UPDATE: 我还没有试验过这个在 F9 上重启是否有效,但在 centos 5.1 上面不好用,似乎 ifup-sit 不会创建对应的 sit1 设备,先得手动创建以后才有效。

启用 reCAPTCHA

CAPTCHA 这名字听起来很诡异,其实中文里面我们管他叫图片认证码,是用来防机器人注册发帖的。现在互联网上面机器人遍地都是,没有个认证码挡着,用不了多久就会被灌满垃圾广告。这东西最早似乎是卡内基梅隆大学的人研制的,然后把技术提供给了 Yahoo 之类的地方。如今 CAPTCHA 可谓是遍地开花,各种开源的商业的实现一把一把,还有 QQ 的中文认证码之类扩展版本。

这个小 blog 也尝试过一些图形认证码插件,比如 SecureImage 之类,但是最后还是放弃了,SecureImage 的性能实在是不敢恭维,Yodao 和 Baidu 不知道为什么看上生成图片的那个链接了,总是没完没了地抓它,虽然频率并不是非常高,大概也就每秒一次,但是系统的负载已经很高了。最后我终于无法忍受,换成了另外一个基于 Javascript 计算的 WP-HashCash。然后我就发现原来支持 Javascript 的机器人已经很多了,以前用 SecureImage 的时候,几乎没有 spam,WP-HashCash 用了以后每天进来我都要从一大堆留言里面捡出来有用的批准。实在是非常不爽。

reCAPTCHA 是卡内基梅隆大学的一帮人搞出来的,它的技术并没有什么先进之处,但是创意有点意思。世界上面有很多将图书电子化的计划,基本是把书籍扫描了以后用 OCR 软件识别。有些情况下面 OCR 软件自己觉得某些词的识别结果并不是非常有把握。通常情况下面是通过雇佣劳力来肉眼校对。reCAPTCHA 项目认为这个工作不妨交给全世界大量填写认证码的人来完成。

一般图形认证码系统都是只生成一个单词的,reCAPTCHA 生成的图片里面有两个单词,其中一个是机器生成的,有正确结果的单词,另一个则是扫描出来的有问题的单词,这个词没有正确结果。如果用户提交上来的结果里面机器生成的那个是对的,那么系统就认为另外一个也很有可能是对的。一幅扫描图片展示给多个用户如果结果都是一样的,他就将这个结果作为最终校对结果。这样就实现了利用人力来分布式校对文稿的目的。更具体的细节可以看 http://recaptcha.net/learnmore.html

reCAPTCHA 对一般用户使用没有限制,但是为了防止滥用,也要像 Google Maps API 那样用一个 Key 来限制一下,在 recaptcha.net 上面可以免费申请。同时还有常见系统的认证插件,比如这个 blog 使用的就是那里提供的 wordpress 插件。

PS: 各位留言的时候要注意一下,因为 reCAPTCHA 的目标是校对书籍,因此认证码是大小写敏感的,有时候你还能看到里面有标点符号,这时候也麻烦你把标点符号输入了。虽然这时候基本能判断出来有标点符号的那个是扫描图片,就算填错也可以过认证,但是出于校对书籍的需要,还是填写全面比较好一些了。

终于又搞定了 MTU 问题.

为什么要说又呢? 以前似乎搞定过一次,但是这次不知道链路中间过了什么, MTU 又小了, 导致我 1400的 MTU 又失败了, 刚才听了一阵子包终于发现是这个问题,于是把 MTU 缩小到 500. 发现终于可以用了…

ADSL IP 段变了

似乎是换到新的 BRAS 上面了, 明显网速快了很多很多,北京网通总算干了一件好事。
带来的问题是新的 IP 段(125.33.3.0/24)目前还不是教育网免费 IP 段,完全连不上了。

Bot 凶猛

今天无聊看了一下 httpd 的 log, 发现这个地方真是 Bot 的乐园,一眼看去无数行 log 里面一个正常访问的用户都没有,有名的无名的 Bot 哗啦哗啦抓得不亦乐乎。还好我的带宽不要钱,要是虚拟主机用户岂不是要哭死。

简单统计了一下 User-Agent:

cut -d ” ” -f 12- access.log | sort | uniq -c | sort -k 1 -n -r > /tmp/uastat.log

结果见附件。

肉眼观察了一下,大概有如下这些 Bot,按照出现频率排序。

“Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)” // 毫无疑问,yahoo china 的是抓的最狠的。
“Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
“Baiduspider+(+http://www.baidu.com/search/spider.htm)” // google 和 baidu 这俩其实不分上下,今天 g 抓的狠,明天 b 抓的狠
“Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)” // 美国和中国 yahoo 的 spider 明显是分开的。
“Mozilla/4.0 (compatible; MSIE 6.0)” // 这个肯定是什么玩意伪装的, 真正 IE 没有这么沉默,要加很多系统版本号之类。
“msnbot/1.0 (+http://search.msn.com/msnbot.htm)”
“lanshanbot/1.0” // 这是什么?
“Anothr spider(http://www.anothr.com; RServer 0.5)” // 这个貌似是新冒出来的,以前没有见过。
“lilina 0.9 (+http://lilina.sf.net/)” // 谁家装的这个东东来抓我?
“Bloglines/3.1 (http://www.bloglines.com; 1 subscriber)”
“Feedfetcher-Google; (+http://www.google.com/feedfetcher.html)” // Google 他们家的 Bot 也分好几种
“Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0 qihoobot@qihoo.net)” // qihoo 也来凑热闹了,以前没有见过
“iaskspider/2.0(+http://iask.com/help/help_index.html)” // 这东西是死灰复燃了么?感觉跟快没了似的。。
“Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; )” // yodao 貌似 bot 改过很多次名字了。
“CafeRssCatch1.0” // 这个是啥?
“Mozilla/5.0 (compatible;YodaoBot-ZZZ/0.2;http://www.yodao.com/help/webmaster/spider/;zzzyzzz@gmail.com)/0.2 http://www.yodao.com/help/webmaster/spider/; zzzyzzz@gmail.com)” // 不能不说 yodao 这个 Bot 描述写的太次了,描述就是简要描述,不是给你在里面写小说用的,要不要把手机号也写里面给大伙看看?
“MagpieRSS/0.72 (+http://magpierss.sf.net) (Tiny Tiny RSS/1.2.5)”
“curl/7.15.1 (i386-redhat-linux-gnu) libcurl/7.15.1 OpenSSL/0.9.8a zlib/1.2.3 libidn/0.6.2” // 经典且传统
“Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.2.1; Rojo 1.0; http://www.rojo.com/corporate/help/agg/; Aggregating on behalf of 3 subscriber(s) online at http://www.rojo.com/?feed-id=2586324) Gecko/20021130” // 原来除了 yodao 那个,还有更恶心的描述,ft
“NewsGatorOnline/2.0 (http://www.newsgator.com; 2 subscribers)”
“InetURL:/1.0” // 超赞,这是哪个控件的默认 UA ?
“Zhuaxia.com 9 Subscribers”
“Berrylines-rssbot (Berrylines-rssbot 0.1; 1 users)”
“FeedOnFeeds/0.1.8 (+http://minutillo.com/steve/feedonfeeds/)”
“Liferea/1.2.7 (Linux; zh_CN.UTF-8; http://liferea.sf.net/)” // 懒得看这个是客户端还是 Bot 了,先当 bot 算
“sogou spider”
“sogou js robot” // 有人喋喋不休就有人惜墨如金,加个描述网页的 URL 会被罚款吗?还是怕人找上门来算帐?
“Mozilla/3.0 (compatible; Indy Library)” // Delphi/BCB !
“iearthworm/1.0, iearthworm@yahoo.com.cn” // 又是一个小本经营的啊。没有网页给大家看就放个邮箱。不过这名字听起来有点危险 — worm,,
“TrackBack/1.02” // 我没有名字,就叫我路人甲好了。。
“Wget/1.9.1” // wget 明显不行了啊,比 curl 少那么多。。
“larbin_2.6.3 (larbin2.6.3@unspecified.mail)” // 连默认配置都不改一下的一定是个懒人。。
“User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)” // 还有程序写错了的,自己有没有抓包看看啊。。
“P.Arthur 1.1” // 久仰久仰,不过你到底是啥?
“Mozilla/4.0 (compatible; NaverBot/1.0; http://help.naver.com/delete_main.asp)” // 哇,韩国搜索引擎也对我这中文blog感兴趣么?
“IRLbot/3.0 (compatible; MSIE 6.0; http://irl.cs.tamu.edu/crawler)”
“daye” // 你才大爷,你们全家都大爷,来抓还不说自己是谁。
“libwww-perl/5.79”
“findlinks/1.1.3-beta9 (+http://wortschatz.uni-leipzig.de/findlinks/)”
“CFNetwork/129.20”

uastatlog.txt

最近评论

时光机

其他