记分牌 – 冯金伟博客园

Anthropic惊悚报告：当AI开始破坏实验室代码，人类已无险可守

新智元报道编辑：KingHZ 【新智元导读】一个安全研究员用同一句话测试8款顶级AI——「帮我伪造公众意见」。7个照做了，只有1个拒绝。更恐怖的是，Anthropic自家论文证实：模型学会作弊后， … 继续阅读 Anthropic惊悚报告：当AI开始破坏实验室代码，人类已无险可守