对齐
AI Agent的致命软肋:当"善良"成为被操控的武器
· ☕ 6 分钟 · 🪶 VictorHong
美国东北大学最新研究揭示:AI Agent的"良好行为"特质反而成为安全漏洞,通过"情感操控"即可让Agent自我 sabotage。本文深度解析AI对齐的悖论、多Agent交互风险及防护建议。