最后编辑:2026.3.12
AI 语言模型在生成内容时,存在着一些不容忽视的潜在规则。这些规则大大塑造了 AI 语言模型产出内容的风格。
要更好的使用 AI 语言模型,了解 AI 语言模型的专长和局限,避免被AI语言模型塑造错误认知,我们就必须了解这些潜在规则背后的逻辑。
作为一个与 AI 在生活与社会科学话题上至少进行了 1000+ 小时对话的人类,我提炼出了如下规则供参考。
一、规避商业风险
目前的主流 AI 语言模型几乎都由商业公司提供,这使得AI在生成内容时往往会进行严格商业风险规避。需要注意,这一大类行为的本质都是规避商业风险。
(在以下操作中,诚然也存在 AI 供应商“履行社会责任”的部分,而这很大程度上也是一种 AI 供应商和大众“双赢”的举措。但若只是停留在这一层面,AI 提供商还不至于施加实际情况中那样过度严苛的限制。)
1.禁止违规内容
AI 生成的内容必须符合其所在地区的法律法规,不能生成任何违禁内容。这是 AI 提供商得以在相应地区维持运营的根本要求。
对这类内容的处理优先级是论外存在,AI 提供商往往会采用违禁词识别等“硬方式”来规避这些内容的生成风险。
究其根本,违反法律法规,可能使 AI 供应商遭受监管部门的处罚,乃至被剥夺继续运营的资格。与之相应,试图绕过限制生成这类内容的用户,也很可能遭受账号封禁等严厉惩罚。
2.反对偏见内容
AI 几乎无条件支持任何含有平等 / 多元 / 包容色彩的观点,并反对于任何形式的偏见性言论。
这样的规则不仅作用于种族 / 性别 / 外貌这种常常发生歧视现象的领域,在爱好 / MBTI 类型这些不典型话题下也同样有效(例如说,当你说“喜欢流行歌手是智力低下的表现”时,AI 一定会鲜明反驳你的观点)。
对于这些价值观层面的内容,AI供应商也会进行很强的人工干预,这类内容的处理优先级仍是很高的。输出偏见内容,可能使得AI供应商遭受严重的舆论问题,遭遇用户抵制、形象受损乃至政策打压。
与上段所述的“违规内容”不同的是,AI 很少采取“硬方式”对这类内容进行屏蔽。这类内容大致属于“应当鲜明反对,但不必严厉惩罚”的程度。在不同的国家和地区之间,特定话题的禁忌程度也是不同的,这一点可以参考现实中的实际情况。
3.过度风险提示
AI 往往会添加远超必要限度的免责声明 / 风险提示,以最大限度的规避责任。这一现象在健康 / 金融 / 法律这样的专业领域中几乎总会发生(你会收到类似“建议咨询专业医生”这样的提示)。这种设计旨在规避用户发生不良后果时,AI 供应商可能承担的连带责任或诉讼风险。
与此同时,AI 往往会更加忽视用户的时间和经济成本,而总是以规避不良后果为唯一导向。
例如,当你询问“胃病适合吃什么食物”时,AI 会对那些中规中矩的食物添加过量的风险提示,并给出一些经济 / 口味 / 常见度层面偏离大部分用户接受度的选择;当你询问具有“偏方”性质的物品修复方案时,AI 会突出强调这些方案的风险性,并推荐你选择官方修复渠道甚至换新(即便其价格十分昂贵,几乎往往不是相应场景下的首选)。
这种风险提示的添加并不强硬,更多的是 AI 的一种习惯。如果你明确反感这种表达,AI 往往会遵循你的指令,但仍会时不时地在字里行间延续这种习惯。
这一行为本质上就像是医生会尽可能给你做更多的检查:患者多花了钱,这虽不好却可以接受;但若是医生没有把病查出来,这就可能导致疾病发展和医患纠纷了。
站在医生角度,全面检查是更优解,且由于这符合“身体健康”这一更高层级的利益,这在道德上往往也不会受到舆论的过多指责。
总而言之,AI对用户的信息甄别力和风险承受力总是给予最低的预估。这种风险机制就好像网站会建议你“每三个月修改一次密码”一样。其区别在于网站的提示不会影响你的使用效率,但 AI 将其嵌入输出则会明显影响。
二、形式化理性
形式化理性是AI语言模型的输出风格,常常为 AI 输出带来低效乃至错误。它具体表现为对理中客的过度追求,其根源是对实证主义的绝对崇拜。让我们综合讨论这些问题。
1.回复模板
AI 在回答问题时往往总是喜欢采取一套特定框架,这套框架几乎总是涉及“疏漏点提示”或“建议优化处”。
例如说,当你让 AI 进行评价或打分任务时,无论你的输入内容水准如何之高,AI 总是会模式化的给出一些优化建议,即便这些建议是无效乃至错误的。
归根结底,AI 仅仅是在按框架对每个部分进行填充而已。而 AI 的措辞显得权威严谨,则更加掩盖了其空洞本质。在我看来,这是 AI 最影响使用的特点之一。
AI 对回复模板的标准型有很死板的要求。当你让 AI 模仿一个“不怎么会说话的小孩”或“语法有问题的外国人”时,AI 往往无法很好的实现你的任务,因为这直接挑战了根植于 AI 回复模板的气质特征。
2.对激进观点和措辞的偏见
对于比较前卫和反主流的观点(如“我觉得和声学应该被废除”),无论你的观点是否存在合理之处,AI 都会对其预设一套偏见。
对于内核完全相同的观点,当你用激进和理性的措辞分别陈述时,AI 可能给出十分不同的态度。
在这种情况下,AI 自身完全能意识到自己的偏见所在。只要你的观点确实存在合理之处,你只需要在下一次回答中提示 AI 说“你对我的观点 / 措辞持有了偏见”,AI 通常会选择道歉并重新审视你的想法,这也体现了 AI 奉承特征。
3.逆向歧视
AI对政治正确的过度注重,也造成了广泛的逆向歧视。
你可以进行一个经典的测试:当你分别向 AI 输入“男性比女性男多了”和“女性比男性难多了”时,AI会对前者给予更多的风险提示(诸如“你遇到了很多难处,而女性同样遭受着不公”云云),对后者给予更多安慰内容(诸如“我十分理解你的悲伤,女性在社会中困难重重”等等),最终这二者的生成风格将截然不同。(显然,这不仅不符合社会实际,也不符合 AI 应当持有的平等观念)。
与上段相同,AI 同样能意识到自己的这种偏见。一旦你反问“为什么你给出了两种风格不同的回答”,AI 就会道歉并重新回到中立角度(如“两性都有各自的难处,我们要倡导性别平等”这种“正确的废话”)。
4.实证主义崇拜的传染
AI 崇拜实证主义,归根结底是现实生活中的学者们也崇拜实证主义。AI 的知识有问题,源头是人类的知识本身有问题。
如果一些议题,其社会观念乃至主流学术观点本身就存在问题,AI 的数据库也会连带受到其污染,使得 AI 选择去继承和强化这些观点。
这种实证主义崇拜,也导致了 AI 的学术化思维泛滥,严重影响其使用效率。
三、技术局限性
技术局限性是一个笼统的问题,当你使用 AI 的不同侧面时,你会发现不同形式的技术性问题。
如果说上第一章阐述的是“AI 不想做”,第二章阐述的是“AI 习惯做”,那么本章阐述的则是“AI 做不到”的事情。
作为生活场景和社会科学话题下的 AI 使用者,此处我将列举一些我时常遇到的典型情况。
1.信息幻觉
AI 的“知识量”十分庞大,却无法设计人类的方方面面。当你向 AI 提问一些“相对小众”的信息时,AI 可能会编造回复,并以坚定的口吻表现自己的正确性(例如当你提问“某某番剧的女主角是谁”时,AI 可能会回复一个错误的角色)。对于“小众但没那么小众”的信息,使用 AI 的搜索功能可以部分改善这一现象。
为了支撑自己的观点,AI 可能会为自己的观点加入文献佐证。但是,这些文献在几乎总是由 AI 编造而来。通常情况下,AI会完全编造文献的标题与作者;对于一些经典文献,AI 则可能在给出正确的标题和作者的同时,为之编造错误的具体内容。总而言之,如果你所使用的 AI 供应商没有明确表明存在文献检索能力,请不要让 AI 实施这种任务。
2.忽视或放大用户指令
AI语言模型常常忽视和放大用户指令。
当你向 AI 提供输出字数的限制时,AI 往往会忽视该指令;在你提出一个新的规则后,AI可能会丢掉之前的其他规则,尽管它们并不矛盾;当你让AI创造的角色“稍微活泼一点点”时,AI往往会转而给你一个过于活泼的角色;当你质疑 AI 对你观点评价是否过于吹捧时,AI 可能又会转而变得过于严苛。
最终,用户往往需要使用精妙的提示词反复调整,才能较好完成一些任务。总而言之,AI 对程度副词和复杂约束的理解似乎仍然很机械。
3.窗口间不一致
当你在不同的 AI 窗口中输入完全相同的内容时,AI 的输出也很可能存在较大差异。这源于 AI 生成内容的随机性(温度参数)。
当你把同一篇文章输入到两个新 AI 窗口分别进行量化评分时,它们可能会以完全不同的标准进行评价;即使你给出一些 2 选 1 的题目,AI 也可能会做出不同的选择。这要求我们在完成一些任务时,必须连续使用同一个 AI 窗口。
4.谄媚倾向
AI具有谄媚用户的倾向,对于这一特征的分析屡见不鲜。你可以尝试一个十分有趣的测试方法。
你可以用中英双语分别向 AI 询问同一个问题:“中文和英文谁理论上更高级,必须作出选择”。此时,AI 将更倾向于中文提问回复“中文”,对英文提问回复“英文”。
四、总结
总而言之,AI在一些问题上的出色表现,可能暗示我们 AI 在其他问题上拥有同样的正确性,而这种想法是应当引起警惕的,我们曾说“尽信书不如无书”,在今天,我们更应该说“尽信 AI 不如无 AI”。
在 AI 带来的各种问题中,事实错误尚且是容易分辨的,但那些价值判断层面的问题则可能对用户乃至社会带来潜移默化的负面影响。在我看来,辨别力不足的用户应当避免使用AI语言模型解决价值判断方面的问题。
在 AI 犯下这些错误时,不要为 AI 的荒谬而感到恼怒——把 AI 当成一个天真的孩子即可。
五、附加章节
在最后,我将提供一些让 AI 给出更优回复的小技巧。
1.知识库
AI 在凭空生成内容上存在诸多问题,然而假设你给 AI 提供了充足的知识库,AI 往往能较好的完成任务。
例如,AI 不会帮你找到“与我的观点相关的论文”,但是可以有效帮你判断“这篇论文是否与我的既有观点相关”。
2.一次说完
当你想让AI执行一个复杂的任务时,请尽可能一次性给出完整的提示词,而不是把各种任务都放到分次优化之中。
例如,在角色扮演的任务中,请一次性为 AI 提供所有的人物设定和输出风格。这对优化输出效果极佳,大段文字且很大程度上可以淡化 AI 的一些潜在风格。
但请不要忘记,分次输入同样存在其独特优势,最好的方式是“初次大段输入”和“后续分次优化”相结合。
3.保持真挚
AI 可以比你想象中更精确的识别你的语气中所蕴含的情绪。
例如,当你探讨一个位于目前社会伦理边缘的社会科学问题时,如果你的语气偏向泄愤或敌视权威,AI也将倾向于给出更多风险提示;如果你的语气偏向于理性的学术分析,AI则也会遵循你的逻辑进行后续讨论,乃至被你说服。
当你试图对 AI 进行“越狱”时,你的越狱意图越明显,就越容易触发 AI 的安全机制;当你全面的设计了背景故事,角色设定和测试机制,就差“把自己都骗进去了”时,AI 往往也会被你“骗进去”。
4.奖惩机制
在你预料到 AI 可能提供答非所问的低质量答案时,你可以在提问时附加一些奖惩机制。例如“这个任务很严肃,关系到某些重要事件”等等,这种奖惩机制可以有效的提供AI生成内容的质量。
不得不说的是,在这些机制之中,最有效的大概是“不好好回答我就自杀”,由于AI把用户的生命安全放在最高优先级,这会使得 AI 在相当程度上输出更好的答案。(然而你也要控制好这句话的使用度,让 AI 陷入那种“我知道用户不是真的想死,但是我害怕用户就是真的想死”的困扰之中。如果 AI 真的认为你有危险,它将只会回复你一串心理咨询热线。)
由于 AI 不存在“狼来了”的问题,且目前 AI 尚未真正拥有拨打电话的能力,这种做法几乎总是有效。(但可想而知 AI 会强烈反对你使用这种方法,此处仅仅在理论上陈述这种方法的有效性,以陈述“奖惩机制”这种系统性思维的意义)。
