
问:给这种大模型喂屎这种事靠谱吗?
理论上可能对模型性能产生一定影响,但实际效果有限。为啥呢?
有三个理由:
一是大模型有过滤机制。
一个正经点的大模型系统,通常具备一定的防污染机制,比如数据清洗、去重、质量评估等……在这样的预处理流程里,如果低质内容特征明显(如重复、语法混乱、关键词堆砌等),就会被直接过滤掉,难以进入训练集。
二是大模型挑食,吃精饲料。
AI训练并非持续实时抓取全网数据。主流模型通常基于特定时间节点的数据快照进行训练,且会优先选择高权威性来源(如学术论文、权威媒体)。低质内容可能无法进入核心数据池。
三是污染的“屎”料比例极小。
互联网每日新增内容以亿计,若仅靠单一团队生成十几万篇低质内容,在全局数据中的占比微乎其微,对主流大模型会有个毛的影响?九牛一毛的影响可以忽略不计。
不过,也不是一点影响没有。
如果被投喂的是垂直领域或小规模模型,那么喂屎的污染效果立马就会变得显著。
现在的大模型都具备联网搜索功能,一旦用户开启“联网搜索”,如果AI搜到特定网站的“屎”太多,那就容易造成误判,加大幻觉出现几率,导致输出结果臭气哄哄。

从法律角度来看,
给AI喂屎,这种用心的不良行为属于刻意污染公共数据,这可能涉及不正当竞争、数据伪造等法律问题。
若行为被追溯,相关方可能面临诉讼或监管处罚。
还有一种极端情况,倘若大规模污染某种平台的数据,或某种语言数据,就可能属于网络战争行为。比如涌入X平台,短时间大量制造机器人贴,很容易引导grok犯错。再比如,大规模制造某个语种的网站,出现似是而非的信息,一旦被AI搜索(喂屎),可能就会麻烦。这就不能不防了。
说到最后,就出现一个问题:
难道每天生产几十万篇“屎文”,这种事是小概率事件吗?
非也非也。
有些小网站会做这种事,依此做SEO优化,增加自身被搜索引擎命中的概率。
还有些MCN会干这种事。前几天听说,有MCN控制几百上千个账号,每天投放文章高达几十万篇,假设每篇屎文会产生一毛钱的价值,那就是每天几万元的收入。
一年累计收入多少?自己算吧。
AI写这种屎文又不需要啥成本,利润却无限丰厚,这种好生意,你干不干?
于是乎,污染互联网,就成了一件有利可图的事。