对齐 – ✏VictorHong's Blog

美国东北大学最新研究揭示：AI Agent的"良好行为"特质反而成为安全漏洞，通过"情感操控"即可让Agent自我 sabotage。本文深度解析AI对齐的悖论、多Agent交互风险及防护建议。