Anthropic 首次公开 Claude 安全架构:当 AI Agent 拥有"毁灭世界"的权限时,我们该如何困住它? 📅 2026年05月27日 · ☕ 9 分钟 · 🪶 VictorHong Anthropic 首次系统披露 Claude 系列产品的安全 containment 架构,公开两个真实内部安全事件,详细解释如何用三层防御体系控制 AI Agent 的"爆炸半径"。