AI alignment的困难
一
人类本身并没有一套统一的价值观。如果 “与人类价值观保持一致 ”是指适应人们所持有的各种道德、文化、意识形态和哲学立场,那么这对人工智能开发者来说就是一项艰巨的挑战。
价值异质性:人类并非铁板一块。不同的文化、宗教传统、政治意识形态和个人哲学都有不同的价值观。即使在个人层面,价值观也可能存在内部不一致或随时间演变的情况。例如,宗教原教旨主义者的世界观可能优先考虑基于信仰的原则,而科学唯物主义者可能优先考虑经验主义和怀疑主义。
冲突的目标与权衡: 人类的许多分歧不仅仅是重点问题,它们还可能是零和冲突,即一个群体的首选结果与另一个群体的首选结果直接冲突。试图取悦所有人的人工智能可能会发现自己无法在不违背某些人坚定信念的情况下采取行动。
规范的不确定性与道德多元化: 长期以来,哲学家们一直在争论什么是 “正确的 ”道德框架。既然不存在普遍共识,那么人工智能采用哪种道德框架呢?功利主义?道义论?virtue ethics?还是混合所有这些框架,并根据文化背景加以修改?
价值观的动态性和语境性: 即使人类找到了一些共同点,这些共同的理解也会发生变化。社会在不断发展,道德规范也会随着时间的推移而改变,曾经被认为是可以接受的东西后来可能会受到谴责。人工智能要想保持一致,就需要跟踪并适应这些变化,但任何这样的尝试都有可能随着价值观的变化而疏远这个或那个群体。
总之,人类的价值观如此支离破碎、充满争议,我们又怎能指望制造出一个忠实代表 “人类价值观 ”的人工智能呢?
二
一旦人工智能大大超越了我们的智能,而递归式自我改进几乎保证了这一刻一定会诞生,我们就失去了保证其目标与我们的价值观保持一致的能力,不但无法“控制”人工智能的行为,甚至都无法理解其各种所作所为,甚至即使我们拥有了一个对我们友善或者并不急于消灭我们的未来AI,我们也听不懂它正在做和要做的事情,就像把近100年来的任何数学顶级期刊的内容展示给人们一样,摆在面前也看不懂。