成会 – 冯金伟博客园

700多个“坏模型”喂出AI测谎仪？Anthropic审计神器让AI自曝黑料

新智元报道编辑：元宇【新智元导读】Anthropic让AI开口「招供」了。面对一批被故意植入隐藏行为，还被训练成「不许认账」的模型，IA辅助审计智能体拿下全场最高的59%成功率；更夸张的是，56个 … 继续阅读 700多个“坏模型”喂出AI测谎仪？Anthropic审计神器让AI自曝黑料