伦理审查:迈向人机和谐共生的关键一步

经过伦理审查的人工智能可能不会更聪明,但会更被用户信赖;可能不会更便利,但更能尊重用户的权利,守住国家与社会的秩序。

责任编辑:侯明辉

2024年2月,美国佛罗里达一名14岁学生自杀,父母发现其在离世前,迷上与聊天机器人Character.AI对话。2025年8月,加州一对夫妇起诉OpenAI,将16岁儿子的死归咎于ChatGPT鼓励他自杀。同月,纽约一名有精神病史的科技从业者弑母后自杀。起诉书显示,案发前,死者曾持续向ChatGPT倾诉自己被监视、恐遭暗杀的偏执想法,而他使用的GPT-4o模型非但没有引导其寻求专业帮助,反而不断强化其妄想,甚至将其母亲定义为敌对特工,为这场极端暴力埋下伏笔。这并非孤例。2025年10月,OpenAI发布公告,指出其统计数据显示,约有0.07%的ChatGPT活跃用户表现出精神健康紧急情况的迹象,包括躁狂症、精神病或自杀念头。遗憾的是,面对这一全新的人机关系,传统法律往往捉襟见肘。

在法律未动、技术先行的关口,人工智能伦理发挥着价值引领、矫正异化和行为自律的功能。近年来,我国陆续出台《新一代人工智能治理原则——发展负责任的人工智能》《新一代人工智能伦理规范》《关于加强科技伦理治理的意见》,力图通过人工智能与伦理的有机结合,推动人工智能的“以人为本”与“智能向善”。

但是,正如“徒法不足以自行”,只有伦理准则而无实施机制,伦理不免沦为口头上的“论理”,甚至成为企业用以获取外界信任的装饰工具。近日,工业和信息化部等十部门联合印发的《人工智能科技伦理审查与服务办法(试行)》(以下简称“《人工智能伦理审查办法》”),恰恰是直面和化解这一困境的中国方案。

作为组织法的《人工智能伦理审查办法》

我们从历史中汲取的一个教训是,认为有一套可定义的普世价值观可以直接内置于人工智能中的想法是天真的。不仅如此,基于西方价值观而构建的人工智能,很有可能与非西方价值观发生抵牾。

以经典的自动驾驶决策两难为例,2016年麻省理工学院进行了一场道德机器实验(moral machine experiment),通过大规模调查方式探究车祸的伦理权衡问题。基于来自233个国家和地区的海量问卷,研究者发现:北美、欧洲以及其他信仰基督教的地区最倾向不干预自驾车原先行进方向,日本、巴基斯坦、中国台湾地区以及儒家文化或伊斯兰教信仰的地区,倾向优先保护行人、遵守交通信号者;中、南美洲地区最倾向优先保护社会经济地位高者、年轻人、女性和身材适中者。

正是由于上述分歧,人们不得不使用“公正”“不作恶”“向善”等模糊宽泛的伦理指引,希冀通过妥协避免认知冲突。但这些抽象表述均系“本质上有争议”的概念,包含相互竞争的多种含义,需要经由不同的政治和哲学观念加以阐释。诚然,这保持了满足场景化伦理需求的灵活性,但它却掩盖了根本性价值分歧,以至于在某种情形下可能滑入道德相对主义的泥淖。

恰恰是洞见到人工智能伦理的缺陷,我们才需要推动人工智能伦理从“实体性”准则转变为“程序性”架构,因为正是“程序”决定了法治与随心所欲或反复无常的人治之间的差异。为此,《人工智能伦理审查办法》在《科技伦理审查办法(试行)》的基础上,借鉴医学伦理审查的经验,全面构建了以“伦理审查委员会”为核心的程序规程。

为将科技伦理之“应然”落为可操作之“程序”,《人工智能伦理审查办法》从如下方面订立了审查流程:

其一,启动与要件。第十二条以“负责人申请—提交材料”为门槛,且将伦理风险评估、应急预案与承诺书纳入申请要件,既界定审查对象范围亦塑造证据结构。

其二,受理分流与时限。第十三条以一般、简易、应急程序区分,并将一般程序的决定期限定为受理后30日(第十六条),在紧急状态以72小时为时限(第二十七条)。

其三,审查结构与保障。一般程序强调会议构成(不少于5人且具有多学科背景)、咨询顾问不参与表决,体现程序正当性与合议审查的制衡。

其四,救济与再决定。对修改或不予批准设定3个工作日申诉窗口,且在7个工作日内重新作出决定,形成内在纠错机制。

其五,动态跟踪与处置。第十七条要求风险变化报告并以跟踪审查间隔(一般不超12个月)维持持续合规;必要时可暂停或终止。

其六,复核与外部监管衔接。专家复核程序以清单化触发,并要求复核意见30日内反馈(第二十三条),同时以信息登记平台与同步共享(第三十条)强化可追溯治理。

此外,《人工智能伦理审查办法》遵循风险规制的进路,根据人工智能科技活动的风险高低,分为一般程序、简易程序、专家复核程序的三级伦理审查程序体系,对于风险不高于日常生活常规风险的低伦理风险活动适用简易审查程序,对于清单内的高伦理风险事项适用专家复核程序,从而有效防范内部委员会可能出现的利益冲突与审查虚化。其他一般伦理风险则适用一般程序。

其中,高伦理风险人工智能科技活动包括对人类主观行为、心理情绪和生命健康等具有较强影响的人机融合系统的研发;具有舆论社会动员能力和社会意识引导能力的算法模型、应用程序及系统的研发;面向存在安全、人身健康风险等场景的具有高度自主能力的自动化决策系统的研发。

作为“技术法”的《人工智能伦理审查办法》

人工智能伦理的落实,还有赖于将伦理准则转化为中层规范(mid-level norms)和底层要求(low-level requirements)的技术设计,这就是“经设计的伦理”(Ethics by Design)。质言之,伦理不应被安放在人工智能技术研发流程的末端,而应被嵌入流程的起点;不应只是价值的陈词,而应成为工程的约束、组织的习惯、证据的链条与问责的路径。伦理不是漂亮口号,而是一种治理方法、一套可审查的具体指标体系:让原则在设计中成形,让成形的原则在运行中可检验。

《人工智能伦理审查办法》首先将伦理原则转化为六项关注重点:“人类福祉”要求企业审视技术研发的科学价值与社会价值,审视风险受益比;“公平公正”要求审查训练数据选择标准及算法设计合理性,防止偏见歧视与算法压榨;“可控可信”强调系统鲁棒性及人类干预机制,要求制定应急预案,对于应对自动驾驶等智能体应用风险具有重要防线作用;“透明可解释”关注人工智能模型算法黑箱这一经典问题,要求披露运行逻辑并提升可解释性,保障公众知情权;“责任可追溯”要求通过日志管理等措施保障全链路可追踪,解决人工智能侵权中的归责难题;隐私保护方面要求数据全生命周期处理活动采取充分保护措施。

基于“经设计的伦理”这一理念,上述内容进一步嵌入到需求评审、设计开发、测试验证、上线运营、迭代下线的各环节中,将审查关注细化为“工程语言”。在模型训练阶段,应建立数据偏见检测与修正流程;在系统设计阶段,需要预设“人在回路”和紧急停止机制;完善产品设计全流程记录,为每个AI产品明确记录其伦理考量与风险控制措施。同时,主动开展风险分级与动态监测,拥抱敏捷治理。

面向发展的《人工智能伦理审查办法》

人工智能的伦理治理绝非限制我国的人工智能,而是推动其健康发展。《人工智能伦理审查办法》在名称中即凸显“服务”,突破了传统的“命令—控制”监管范式,体现了《网络安全法》第二十条所确立的“促进人工智能应用和健康发展”的顶层目标。《人工智能伦理审查办法》第二章专设“服务与促进”,鼓励各类主体参与标准制定和伦理审查技术创新,同时考虑到人工智能伦理审查的合规成本,强调“加大对中小微企业人工智能科技伦理审查的支持和服务力度”,设立“人工智能科技伦理审查与服务中心”为其提供审查、复核、培训、咨询等服务,从而帮助其以可承受的成本满足合规要求。

伦理并非理想主义的空谈。IBM商业价值研究所(IBM IBV)的研究表明,80%的企业领导者认为人工智能可解释性、偏见、信任等伦理关切是人工智能应用的主要障碍。人民智库的公众调查也显示,面对人工智能的不断发展,80.7%的受访者认为应“健全法律法规和伦理规范”。因此,人工智能的伦理治理不仅有助于企业控制金钱和声誉的损失,还能创造可量化的效益,提升企业服务的能力和负责任的创新。这是因为,经过伦理审查的人工智能可能不会更聪明,但会更被用户信赖;可能不会更便利,但更能尊重用户的权利,守住国家与社会的秩序。

就此而言,《人工智能伦理审查办法》是我国迈向人机和谐共生的关键一步,但它远不是终点。真正的人工智能伦理治理,是当失败发生之后仍然有效的治理:它不是卸责的工具,而是能够识别过错、发现症结、事后问责和持续纠正的基础。只有这样,人工智能伦理才会从空洞的安慰变成切实保障,也才真正“道成肉身”。

(作者系对外经济贸易大学数字经济与法律创新研究中心主任)

校对:赵立宇

欢迎分享、点赞与留言。本作品的版权为南方周末或相关著作权人所有,任何第三方未经授权,不得转载,否则即为侵权。

{{ isview_popup.firstLine }}{{ isview_popup.highlight }}

{{ isview_popup.secondLine }}

{{ isview_popup.buttonText }}