栏目分类

热点资讯

你的位置:金沙巴黎人娱乐城 jīn shā bā lí rén yú lè chéng > 新闻资讯 >

金沙巴黎人娱乐城app(中国)官方网站LLM 爬虫成为新的贫窭-金沙巴黎人娱乐城 jīn shā bā lí rén yú lè chéng

发布日期:2025-08-17 14:20    点击次数:129

整理 | 苏宓金沙巴黎人娱乐城app(中国)官方网站

时下,AI 爬虫把多样网站折腾得不轻,不是让其崩了就是卡了,导致运行也变得极为不分解,哪怕革新了用于法例搜索引擎执取器具不错走访网站上哪些网址的 robots.txt 文献、屏蔽已知的爬虫象征(User-Agent)、以致过滤可疑流量,它们如故能绕过禁闭,伪造身份、用住宅 IP 代理,若何齐拦不住......

跟着 AI 技艺的快速迭代,不幼年型建造商、开源建造者发出吼怒,他们称我正直被 AI 爬虫逼到崩溃角落,而这究竟是若何一趟事?

个东说念主建造者:的确没观念的话,只可关就业器了

身为技艺教悔者、AI 艺术家的 Xe Iaso 就是广博“受害者”之一。

本年 1 月,她公开叱咤亚马逊的 AI 爬虫,称其恣意执取我方的 Git 代码托管就业,导致网站往往崩溃,简直无法平方运行。

Xe Iaso 示意,我方发布这篇帖子的指标并不是为了共享信息,而是一种求援。她径直向 AmazonBot 运营者喊话,但愿对方能将我方的 Git 就业器 git.xeserv.us 加入屏蔽列表。“若是你们有任何旨趣非要爬取我的 Git 就业器,请先干系我,咱们不错研究如何支付相应的用度来升级硬件,以匹配你们夸张的资源销耗。”

但问题远比想象的辣手。Xe Iaso 已经在就业器的 robots.txt 文献中明确隔绝整个爬虫:

User-agent: * Disallow: /

然而,这并莫得起到任何作用。多样 AI 爬虫器具依旧猖獗,它们会伪造身份、修改 User-Agent,以致使用住宅 IP 代理来绕过断绝。

“我简直不想把我的 Gitea 就业器透顶关闭对公众的走访,但若是莫得别的观念,我只可这样作念”,Xe Iaso 坦言。

无奈之下,她在 Ingress 设立中添加了约束 Amazon 爬虫的代码:

nginx.ingress.kubernetes.io/configuration-snippet: |if ($http_user_agent ~* "(Amazon)" ){return 418;}

但这些爬虫依然接续更换 IP 不绝轰炸,其中约 10% 的肯求以致莫得使用 AmazonBot 的 User-Agent,完全无法通过惯例技能阻遏。「我已经不知说念还能若何办了。我歧视这个异日。」

雷同的情况不啻发生在 Xe laso 身上。本年 1 月,咱们曾经报说念过乌克兰一家专注于东说念主体 3D 模子的网站 Trilegangers 倏得崩了,起先,该公司 CEO Oleksandr Tomchuk 仅仅收到一则警报,进而发现公司的电子商务网站已完全瘫痪了。还是排查,罪魁罪魁果然是——OpenAI 此前研发的一款机器东说念主 GPTbot。

“他们的爬虫门径正在迫害咱们的网站!”Oleksandr Tomchuk 无奈说念,“这基本上是一次 DDoS 报复。”

彼时,网友曾质疑 Trilegangers 反爬机制不够强,但执行就像 Xe Iaso 说的——根柢防不住。

除了 Trilegangers、Xe Iaso 的遭受以外,开源名堂也成重灾地。

开源名堂也成为 AI 爬虫的重灾地

近日,Fedora Pagure 项指标系统料理员 Kevin Fenzi 发布博文涌现,AI 爬虫的影响愈演愈烈,以致导致 pagure.io(Fedora 代码托管平台)瘫痪。尽管团队尝试禁闭部分子网,但要在不影响平方用户的情况下完全约束爬虫,简直不可能。

“上周四和周五,情况变得更糟”,Fenzi 写说念。“咱们发现,大部分坏心流量来自 .br(巴西)的 IP 段,终末只可禁闭通盘 .br(巴西)的走访,才强迫收复网站反应。”

但他也承认,这仅仅临时设施,流量减少后(按理说,爬虫发现没法不绝执取后就会不竭)就会捣毁禁闭。“咱们需要更好的处分决议”,Fenzi 示意。他盘算商讨 mod_qos 来优化流量料理,同期已为 pagure.io 加多 CPU 资源,以缓解就业器压力。

“请不要当着我的面,把特别的老本转接到我身上”

不言而谕,AI 爬虫的鼎力执取不仅对就业器带来千里重压力,也让广博技艺团队靠近腾贵的运营老本。

对此,开源软件建造平台 SourceHut 首创东说念主兼 CEO Drew DeVault 于上周发布了一篇《请不要再当着我的面把你们的老本转嫁给我了》,直指 AI 公司无视 robots.txt,大边界执取数据,导致 SourceHut 就业器往往中断。

DeVault 涌现,在往时几个月里,本该专注于 SourceHut 中枢责任的他,却不得不在每周花 20% 到 100% 的时间去应酬 LLM 爬虫整个。

“这已经不是 SourceHut 第一次被坏心举止盯上,也不是第一次被动为别东说念主转嫁的老本买单——简直每隔几年,总有东说念主能发明出新的情势来折磨我”,他写说念。

DeVault 称,四年前,SourceHut 被滥用于挖矿,被动改为付费使用 CI 就业;两年前,平台遭受 Go 模块镜像的滥用,逐日需处理 TB 级 Git 克隆肯求。如今,LLM 爬虫成为新的贫窭。

DeVault 指出,这些爬虫不仅无视 robots.txt,还会伪装成普通用户流量,运用飞快 User-Agent 和巨额住宅 IP 地址,绕过禁闭战术,有利针对高销耗 API(如 git blame、Git 日记页面、每个仓库的提交纪录等)。

「当今,咱们每周齐会经验数十次片晌宕机,我每天齐得屡次查验并调度珍爱设施,以免情况变得更糟。即便偶尔有时间处理其他事务,也往往不得不中断,因为珍爱设施又失效了、警报又响了。SourceHut 的许多要道任务已经被推迟了数周以致数月,因为咱们接续被这些爬虫报复打断。况兼,由于爬虫和平方用户的流量难以分手,咱们的珍爱技能有时也会误伤用户,导致他们的体验受损」,DeVault 说说念。

不啻 SourceHut,其他开源项指标系统料理员们一样苦不可言。DeVault 示意,每当和同业换取,话题总会转向如何应酬爬虫,而谜底长期是:“没东说念主找到透顶处分观念。”

「 这种凄怨的花样肉眼可见。」

面对 AI 公司无节制的数据执取,DeVault 不满说念:“我已经受够了。这些外部老本被赤裸裸地甩到我脸上,而我只可被动应酬。作念点对社会有预想的事情,偶而从我的就业器上滚出去。在烧掉大齐资金之前,至少先想想如何为全球利益作念点孝顺吧,不然等系统料理员们痛心疾首,哪天不平了,你们就等着吧。”

不消置疑,AI 爬虫的恣意执取让路源名堂堕入了辛勤境地。这些名堂依赖社区配合,但资源远远比不上交易公司。

正在不平的建造者们

天然,为了抵挡爬虫,不少建造者也想过观念。

上文提到的 AI 艺术家的 Xe Iaso 在我方博文中示意,我方建造了一套叫 “Anubis” 的系统( https://git.xeserv.us/ )。这是一个基于责任量评释(Proof-of-Work)的挑战机制,责任旨趣是,当用户走访启用了 Anubis 的网站时,Anubis 会条款浏览器完成一个基于 SHA-256 的 PoW 挑战。这一挑战需要销耗一定的计较资源,普通用户简直察觉不到蔓延,但关于大边界爬虫而言,这种特别的计较支拨会显耀加多执取老本,从而起到扼制作用。

自后,GNOME 的 GitLab 实例应用了这一方法,在页面加载时运行出现一位动漫仙女。

在 Mastodon 上,GNOME 系统料理员 Bart Piotrowski 鼓吹地共享了一些数字,让东说念主们充分了解问题的范围。据他先容,在梗概两个半小时内,他们总共收到了 81000 个肯求,其中只消 3% 通过了 Anubi 的责任量评释,这意味着 97% 的流量来自机器东说念主——这是一个恣意的数字!

固然 “Anubis” 照实能有用约束爬虫,但它也给平方用户带来了忙碌。若是有许多东说念主同期走访淹没个 GitLab 邻接,比如在群聊等共享邻接时,网站加载可能会变得格外慢。据报说念,有用户反馈,他们遇到了长达 1 分钟的蔓延,而另一位用户在手机上恭候了梗概 2 分钟。

除了这种方法以外,据悉,全球最大的网罗基础设施公司之一 Cloudflare 最近发布了一个叫作念 「AI迷宫」(AI Labyrinth) 的全新器具,有利用来对付那些未经允许、到处执取网页内容的爬虫机器东说念主。

Cloudflare 涌现,每天 AI 爬虫在他们的网罗上发起逾越 500 亿次肯求,占他们总流量的近 1%。

左证 Cloudflare 在官方博客上的先容,当系统检测到有“荒谬的爬虫举止”时,这个免费的可选器具就会运行发扬作用。它会提醒这些坏机器东说念主走进一个充满邻接的迷宫。这些邻接指向的统统是AI自动生成的「乌有页面」,而这些页面里的内容齐是毫无价值、用来招引机器东说念主的谎话。指标是:“让这些居心不良的机器东说念主变得越来越慢、越来越阴晦,最终耗尽他们我方的资源”。

另外,据科技媒体 Ars Technica 报说念,也有一位匿名建造者 “Aaron” 想象了一个器具 “Nepenthes”,有利让爬虫掉进用之不竭的假页面迷宫长达“几个月”,销耗巨额时间和计较资源。他直言:“让这些爬虫白白烧钱,它们正本就还没盈利,这对它们但是个大忙碌。”

https://zadzmo.org/code/nepenthes/

跟着 AI 模子的快速迭代,数据已经成为“稀缺”的资源,这俨然已经成为 AI 模子公司和诸多建造者之间的一场长期“博弈”。

有东说念主觉得,AI 生成的垃圾内容正在充斥互联网,而 AI 爬虫则在接续榨取数据资源。若是 AI 公司不绝无节制地执取数据,而不给开源名堂任何抵偿,最终可能会挟制到扶持当代互联网的基础设施。

也有网友示意,「与其单纯屏蔽爬虫,不如让它们得回“负价值”信息,举例投喂乌有或意外想的内容,让爬虫执取到的内容变得毫无价值。」

更有建造者评价说念:

目下来看,这些大模子爬虫还算“蠢”,它们仅仅浮浅犀利地执取数据,并莫得什么高等战术。不外,万一它们以后变闪耀了,也许不错运用这小数来反制它们。

但即使它们如故这样笨,如故有观念对付的。比如,不错查验爬虫的 User-Agent(它声明我方是什么浏览器或器具),若是它说的和它骨子作念的不符,就给它复返失误信息(这样像 Lynx 这种老旧浏览器的平方用户就不会受影响)。

另一种观念是用多样技能“忽悠”爬虫,比如:

让它们接续重定向到无效地址,偶而把它们提醒到一些公司里面 API,扯后腿它们的融会逻辑;复返无效的 UTF-8 编码或损坏的压缩数据,让它们融会失败;发送“ZIP 炸弹”(一个小文献,解压后造成超大文献),让爬虫耗光计较资源;使用 EICAR 测试文献(平凡用来检测杀毒软件),望望爬虫会不会被吓跑;若是知说念爬虫的信得过身份,还不错尝试“反向 ping”来对付它们。

这些方法具体能不可奏效,得看爬虫用的是什么软件,可能需要多试几种情势才气找到最有用的技能。

你如何看待这一欢悦?是否有过干系的经验?接待留言共享。

参考:

https://news.ycombinator.com/item?id=43476337

https://www.scrye.com/blogs/nirik/posts/2025/03/15/mid-march-infra-bits-2025/

https://drewdevault.com/2025/03/17/2025-03-17-Stop-externalizing-your-costs-on-me.html

https://arstechnica.com/ai/2025/03/devs-say-ai-crawlers-dominate-traffic-forcing-blocks-on-entire-countries/

https://thelibre.news/foss-infrastructure-is-under-attack-by-ai-companies/金沙巴黎人娱乐城app(中国)官方网站



我的网站