关于合理使用爬虫等自动化行为的公告
各位会员大家好:7月24日和7月25日凌晨,服务器记录到2个不同ip的爬虫伪装成正常用户以超高速度爬取论坛信息,总计有约45万请求,导致了论坛服务器短时间内下线。TY_Board一直以来对论坛数据的使用保持一个开放的态度,对爬虫没有任何限制。不过,我们认为这样的关系应该是双向的,进行相关行为的用户应当保证其行为不会影响到论坛的正常运行。在此,我们想提醒各位相关用户对自己的使用行为负责,不做如伪装成正常用户等违反公序良俗的行为。
在未来,论坛存有的文本和图片数据量会越来越大,价值也会越来越高,届时肯定会吸引更多AI大语言模型开发团队进行获取,我们希望可以形成一个共赢的关系,使用者在不影响论坛正常运行的情况下爬取,而论坛也不对爬取做任何限制。对于有违反公序良俗的行为,尤其是严重影响到论坛正常用户的,我们在未来将视情况采取临时或永久封禁ip的方式处理。
感谢各位会员的支持与理解。 感觉可以用fail2ban来自动封禁频繁请求的IP 45万请求……非常恐怖啊
正常论坛的日请求数大概多少呢? 质子衰变 发表于 2024-7-29 18:52
感觉可以用fail2ban来自动封禁频繁请求的IP
可以,不过目前只发现过这一例,暂时没有必要,如果后面有再说 9916-Bart 发表于 2024-7-29 21:34
45万请求……非常恐怖啊
正常论坛的日请求数大概多少呢?
可以看2024年TY_Board论坛主题与回复日总数统计
就最近1个月的数据来说,在每天15-100万之间浮动
就我们收集到的数据来看,大概75%左右是来自正常用户 20%来自正常爬虫 其他非正常的占了不到5%
爬虫是什么,有什么危害,请教王总 一只布拉万 发表于 2024-7-30 22:58
爬虫是什么,有什么危害,请教王总
爬虫实际上就是Python,爬取数据那玩意,危害在于数据泄露和丢失,隐私得不到保障。 一只布拉万 发表于 2024-7-30 22:58
爬虫是什么,有什么危害,请教王总
利用软件(非浏览器类)、脚本等工具进行数据抓取的都叫爬虫。如果请求的并发数过大可以导致带宽的拥堵和服务器的高负载,造成网站无法正常访问。有个简单明了的案例就是余麻子的“压测网站”(虽然不知道是不是段子)。
页:
[1]