科技圈🎗在花频道📮
AI 的“良心”是如何炼成的?泄露文件揭秘 Claude 内部的“绝对道德层级” 一份 Anthropic 内部训练文档近日被泄露,详细披露了该公司如何为 Claude 4.5 Opus 模型设定性格、伦理准则和安全原则。用户 Richard Weiss 通过多个 Claude 实例协作重构,成功提取了这份被称为"soul doc"的完整文档,Anthropic 伦理学家 Amanda Askell 已确认文档真实性。 该文档显示,Anthropic 采用独特的"性格训练"方法,让模型深度内化安全行为…
🤖 Anthropic 发布 80 页《Claude 宪法》,确立 AI 伦理运行框架

Anthropic CEO Dario Amodei 在达沃斯世界经济论坛上发布修订后的《Claude 宪法》,全文约 80 页,系统阐述 Claude 的运行原则,被视为 Anthropic 在 AI 伦理治理上的核心文件。

该宪法基于 Anthropic 的“宪法式 AI”方法,通过模型自我约束而非主要依赖人工反馈,降低有害内容生成风险。新版准则将 Claude 的行为规范归纳为四个维度:总体安全、广泛道德感、合规约束与真诚帮助。

Anthropic

🍀在花频道 🍵茶馆聊天 📮投稿
来自频道: @zaihuapd
Loading comments...