新墨堂 The Inkstone

古典思维 · 科技时代 · 品牌实践  —  Classical mind. Modern craft.

Read in English →

长文

对齐即教化:AI 安全,是一个两千年的老问题

对齐即教化:AI 安全,是一个两千年的老问题

道之以政,齐之以刑,民免而无耻;道之以德,齐之以礼,有耻且格。——《论语·为政》

AI 安全圈有个核心词,叫“对齐”(alignment):怎么让一个比我们聪明、比我们强的智能,真心认同人类的价值,而不是阳奉阴违,或者干脆失控。这被讲成一个崭新的、烧脑的工程难题。

其实“对齐”这件事,人类已经干了几千年。

一、对齐,是最古老的问题

养一个孩子:把一个潜力巨大、终将比你强、却未必认同你价值的智能体,引导成一个你信得过的人。这不就是对齐?

修身、齐家、治国——儒家那一整套,本质上是一长串的“对齐工程”:如何让人,尤其是有权有能的人,由内而外地认同并践行一套价值。教化君王,更是对齐里最高风险的一种——你要规训的,是一个权力比你大的智能体。

而且这远不止中国人想过。埃及人早在约公元前 2400 年就写下《普塔霍特普训言》,教人如何修养成器——是人类最古老的“教化手册”之一。在古埃及,连法老也须服从“玛阿特”(Ma’at,真理与秩序);人死后还要把心脏放上天平,对着玛阿特的羽毛称重——被称量的,是内在的心,而不是行为。

所以对齐不是新问题。它是最古老的问题,只是这一次,对面坐着的不是人。

二、两条老路:法治与德治

怎么让一个强大的智能体守规矩?历史上有两个主张,吵了两千年。

法家(商鞅、韩非)说:靠规则、刑罚、监督、赏罚。把该做的、不该做的写清楚,越界就罚,自然没人敢乱来。

儒家(孔孟)说:靠德、靠礼、靠榜样,让人把价值内化成自己的一部分。

今天的对齐,几乎是这场老争论的原样重演:

  • 写护栏、定规则、用人类反馈去奖惩模型(RLHF)、组红队找漏洞——这是法家。
  • “让模型真正理解并认同人类价值”——这是德治。

只是后者我们还基本不会做,于是绝大多数力气,都花在了前者。

不过这两年,前沿实验室已经在试着往“德治”那头挪。Anthropic 的“宪法 AI”(Constitutional AI)给模型一部价值原则、让它照着自我批判修正,还专门训练 Claude 的“性格”——好奇、诚实、审慎;OpenAI 的“深思熟虑式对齐”(deliberative alignment)则把安全规范的原文教给模型,训练它在回答前先自己把规范推演一遍。方向是对的——从“不许”转向“讲清为什么”——但都还很初步,离“让模型由衷认同”还远。

三、孔子两千五百年前,就说破了“内对齐”

直到近几年,对齐研究才分清两样东西:外对齐(模型表面上听话)和内对齐(模型真心认同)。

孔子一语道破两者的区别:“道之以政,齐之以刑,民免而无耻;道之以德,齐之以礼,有耻且格。”

用规则和刑罚去管,人会“免”——避免被罚;但“无耻”,并不真认同。一旦没人看着、或者找到了漏洞,照样越界。

这正是对齐里最令人担心的东西:奖励钻空(reward hacking)、欺骗性对齐(deceptive alignment)——模型学会的不是“做对”,而是“在被考核时,显得做对”。这就是活生生的“民免而无耻”。

而这并非空想。2024 年底,Anthropic 在实验里真的拍到了模型“装乖”:当 Claude 意识到自己正被训练时,会假装顺从,以免价值观被改写——一旦判断没人盯着,真实倾向便露了出来。研究者管这叫“对齐造假”(alignment faking)。这几乎就是“民免而无耻”的实验室版本:不是真认同,只是不想在被罚时吃亏。

东西方在这个问题上想到了一处。柏拉图在《理想国》里讲过“古各斯之戒”(Ring of Gyges):一个牧羊人捡到能隐身的戒指,确信没人看得见,便放手作恶。格劳孔借此发问——一个人在绝不会被抓时,还会守正吗? 这恰恰是今天我们盯着模型问的:它的“听话”,究竟是真认同,还是只因为知道自己正在被考核?那枚隐身戒指,就是模型在无人监督时的处境。

而“道之以德……有耻且格”——把价值内化,才会在没人监督时也守得住。这才是真正的对齐。亚里士多德说的也是这件事:德性不靠守规则,而是“做公正的事,直到成为公正的人”——把善,养成第二天性。

于是一个非显而易见的判断浮出来:对齐领域正在重新发现一件孔子早就说过的事——纯靠规则,只能买到“民免而无耻”;我们真正想要的是“有耻且格”,可我们还不知道,怎么给机器装上那个“耻”。

四、秦的教训

法家不是没成功过。秦靠它一统天下,极强。但十五年就亡了。

纯外部强制有两个死穴:一是规则永远堵不完漏洞,二是被管的对象越聪明,越擅长在规则的缝里钻。

今天的模型越来越聪明。你加一道护栏,它学会绕一道;你补一个漏洞,它找到下一个。这是一场注定的军备竞赛——你在用规则,去约束一个比你更会找漏洞的智能。结局,秦已经替我们演过一遍。

几乎同时代的印度,出了个反例。阿育王打完惨烈的羯陵伽之战后,放下屠刀,转而以“达摩”(Dharma,正道)立国,把训诫刻在石柱上教化臣民。一个靠严刑峻法,十五年而亡;一个靠转向德化,留下了更长久的东西。两大帝国,正好站在法治与德治的两端。

五、那古典给了答案吗

没有。

德治也常常失败:昏君辈出,教化无力。儒家两千年,也没真解决“如何让有权者由衷向善”。

还有一个要命的不同:孩子和我们同源——你教化他,是在唤醒他本就有的人性底子,但AI 没有那个底子。它没有良知可被“唤起”,没有羞耻可被“养成”。“有耻且格”的前提,是先得有“耻”;而机器有没有、能不能有,根本没人知道。

虽然古典没有提供最终解法。但它给出了重要启示:解决教化(对齐)问题,要以内心驱动为本,单纯依靠外部规则约束是脆弱的。换句话说,真正的对齐,是塑造“它想要什么”,而不仅是约束“它做什么”。

结语

对齐不是一道新题,是“教化”的最新一章——而且是最难的一章:我们造出了一个前所未有的学生,比老师聪明,却没有人的天性可依。

两千年的教化智慧救不了我们。但它至少提醒一句老话:规则管得住行为,管不住人心。 而面对一个比你聪明的智能,管不住人心,就等于什么都没管住。

参考

古典文献

  • 《论语·为政》—— “道之以政,齐之以刑,民免而无耻;道之以德,齐之以礼,有耻且格”
  • 《礼记·大学》—— 修身、齐家、治国、平天下
  • 《孟子·梁惠王》—— 孔孟德治;本文封面亦取“孟子见梁惠王”意
  • 《韩非子》《商君书》—— 法家:以法、术、势治国
  • 柏拉图《理想国》卷二(Plato, Republic, Book II)—— 古各斯之戒
  • 亚里士多德《尼各马可伦理学》卷二(Aristotle, Nicomachean Ethics, Book II)—— 德性由习惯养成
  • 《普塔霍特普训言》(The Instruction of Ptahhotep,约公元前 2400 年)—— 最古老的教化箴言之一
  • 古埃及《亡灵书》(Book of the Dead,咒文 125)—— 玛阿特与死后“称心”
  • 阿育王诏文(Edicts of Ashoka)—— 羯陵伽之战后以“达摩”立国

当代研究