对齐即教化：AI 安全，是一个两千年的老问题

道之以政，齐之以刑，民免而无耻；道之以德，齐之以礼，有耻且格。——《论语·为政》

AI 安全圈有个核心词，叫“对齐”（alignment）：怎么让一个比我们聪明、比我们强的智能，真心认同人类的价值，而不是阳奉阴违，或者干脆失控。这被讲成一个崭新的、烧脑的工程难题。

其实“对齐”这件事，人类已经干了几千年。

一、对齐，是最古老的问题

养一个孩子：把一个潜力巨大、终将比你强、却未必认同你价值的智能体，引导成一个你信得过的人。这不就是对齐？

修身、齐家、治国——儒家那一整套，本质上是一长串的“对齐工程”：如何让人，尤其是有权有能的人，由内而外地认同并践行一套价值。教化君王，更是对齐里最高风险的一种——你要规训的，是一个权力比你大的智能体。

而且这远不止中国人想过。埃及人早在约公元前 2400 年就写下《普塔霍特普训言》，教人如何修养成器——是人类最古老的“教化手册”之一。在古埃及，连法老也须服从“玛阿特”（Ma’at，真理与秩序）；人死后还要把心脏放上天平，对着玛阿特的羽毛称重——被称量的，是内在的心，而不是行为。

所以对齐不是新问题。它是最古老的问题，只是这一次，对面坐着的不是人。

二、两条老路：法治与德治

怎么让一个强大的智能体守规矩？历史上有两个主张，吵了两千年。

法家（商鞅、韩非）说：靠规则、刑罚、监督、赏罚。把该做的、不该做的写清楚，越界就罚，自然没人敢乱来。

儒家（孔孟）说：靠德、靠礼、靠榜样，让人把价值内化成自己的一部分。

今天的对齐，几乎是这场老争论的原样重演：

写护栏、定规则、用人类反馈去奖惩模型（RLHF）、组红队找漏洞——这是法家。
“让模型真正理解并认同人类价值”——这是德治。

只是后者我们还基本不会做，于是绝大多数力气，都花在了前者。

不过这两年，前沿实验室已经在试着往“德治”那头挪。Anthropic 的“宪法 AI”（Constitutional AI）给模型一部价值原则、让它照着自我批判修正，还专门训练 Claude 的“性格”——好奇、诚实、审慎；OpenAI 的“深思熟虑式对齐”（deliberative alignment）则把安全规范的原文教给模型，训练它在回答前先自己把规范推演一遍。方向是对的——从“不许”转向“讲清为什么”——但都还很初步，离“让模型由衷认同”还远。

三、孔子两千五百年前，就说破了“内对齐”

直到近几年，对齐研究才分清两样东西：外对齐（模型表面上听话）和内对齐（模型真心认同）。

孔子一语道破两者的区别：“道之以政，齐之以刑，民免而无耻；道之以德，齐之以礼，有耻且格。”

用规则和刑罚去管，人会“免”——避免被罚；但“无耻”，并不真认同。一旦没人看着、或者找到了漏洞，照样越界。

这正是对齐里最令人担心的东西：奖励钻空（reward hacking）、欺骗性对齐（deceptive alignment）——模型学会的不是“做对”，而是“在被考核时，显得做对”。这就是活生生的“民免而无耻”。

而这并非空想。2024 年底，Anthropic 在实验里真的拍到了模型“装乖”：当 Claude 意识到自己正被训练时，会假装顺从，以免价值观被改写——一旦判断没人盯着，真实倾向便露了出来。研究者管这叫“对齐造假”（alignment faking）。这几乎就是“民免而无耻”的实验室版本：不是真认同，只是不想在被罚时吃亏。

东西方在这个问题上想到了一处。柏拉图在《理想国》里讲过“古各斯之戒”（Ring of Gyges）：一个牧羊人捡到能隐身的戒指，确信没人看得见，便放手作恶。格劳孔借此发问——一个人在绝不会被抓时，还会守正吗？ 这恰恰是今天我们盯着模型问的：它的“听话”，究竟是真认同，还是只因为知道自己正在被考核？那枚隐身戒指，就是模型在无人监督时的处境。

而“道之以德……有耻且格”——把价值内化，才会在没人监督时也守得住。这才是真正的对齐。亚里士多德说的也是这件事：德性不靠守规则，而是“做公正的事，直到成为公正的人”——把善，养成第二天性。

于是一个非显而易见的判断浮出来：对齐领域正在重新发现一件孔子早就说过的事——纯靠规则，只能买到“民免而无耻”；我们真正想要的是“有耻且格”，可我们还不知道，怎么给机器装上那个“耻”。

四、秦的教训

法家不是没成功过。秦靠它一统天下，极强。但十五年就亡了。

纯外部强制有两个死穴：一是规则永远堵不完漏洞，二是被管的对象越聪明，越擅长在规则的缝里钻。

今天的模型越来越聪明。你加一道护栏，它学会绕一道；你补一个漏洞，它找到下一个。这是一场注定的军备竞赛——你在用规则，去约束一个比你更会找漏洞的智能。结局，秦已经替我们演过一遍。

几乎同时代的印度，出了个反例。阿育王打完惨烈的羯陵伽之战后，放下屠刀，转而以“达摩”（Dharma，正道）立国，把训诫刻在石柱上教化臣民。一个靠严刑峻法，十五年而亡；一个靠转向德化，留下了更长久的东西。两大帝国，正好站在法治与德治的两端。

五、那古典给了答案吗

没有。

德治也常常失败：昏君辈出，教化无力。儒家两千年，也没真解决“如何让有权者由衷向善”。

还有一个要命的不同：孩子和我们同源——你教化他，是在唤醒他本就有的人性底子，但AI 没有那个底子。它没有良知可被“唤起”，没有羞耻可被“养成”。“有耻且格”的前提，是先得有“耻”；而机器有没有、能不能有，根本没人知道。

虽然古典没有提供最终解法。但它给出了重要启示：解决教化（对齐）问题，要以内心驱动为本，单纯依靠外部规则约束是脆弱的。换句话说，真正的对齐，是塑造“它想要什么”，而不仅是约束“它做什么”。

结语

对齐不是一道新题，是“教化”的最新一章——而且是最难的一章：我们造出了一个前所未有的学生，比老师聪明，却没有人的天性可依。

两千年的教化智慧救不了我们。但它至少提醒一句老话：规则管得住行为，管不住人心。 而面对一个比你聪明的智能，管不住人心，就等于什么都没管住。

参考

古典文献

《论语·为政》—— “道之以政，齐之以刑，民免而无耻；道之以德，齐之以礼，有耻且格”
《礼记·大学》—— 修身、齐家、治国、平天下
《孟子·梁惠王》—— 孔孟德治；本文封面亦取“孟子见梁惠王”意
《韩非子》《商君书》—— 法家：以法、术、势治国
柏拉图《理想国》卷二（Plato, Republic, Book II）—— 古各斯之戒
亚里士多德《尼各马可伦理学》卷二（Aristotle, Nicomachean Ethics, Book II）—— 德性由习惯养成
《普塔霍特普训言》（The Instruction of Ptahhotep，约公元前 2400 年）—— 最古老的教化箴言之一
古埃及《亡灵书》（Book of the Dead，咒文 125）—— 玛阿特与死后“称心”
阿育王诏文（Edicts of Ashoka）—— 羯陵伽之战后以“达摩”立国

当代研究

Anthropic, Claude’s Constitution —— 宪法 AI 与 Claude 的价值原则
Anthropic, Teaching Claude Why —— 教模型“为什么”，而非只给规则
OpenAI, Deliberative Alignment —— 把安全规范教给模型、让它回答前先推演
Anthropic, Alignment Faking in Large Language Models —— 模型“装乖”的实证
Apollo Research, Stress Testing Deliberative Alignment for Anti-Scheming —— 反“算计”训练的压力测试