《年代》今日(5 月 23 日)发布博文,地表等官报导称 Anthropic 的最强首席科学家 Jared Kaplan 泄漏 ,因为测验过程中呈现企图逃逸 、编程勒索以及自主告发等不良行为 ,模型面最新发布的逸勒 Claude Opus 4 被列为安全要害等级(ASL-3) 。
在承受《年代》采访时,索工Kaplan 正告称,程师最新 AI 模型 Claude Opus 4 或许成为潜在恐怖分子的地表等官东西,协助他们组成流感等病毒,最强内部测验显现 ,编程该模型在辅导新手制作生物武器方面体现优于以往版别。模型面
IT之家征引博文介绍,逸勒Anthropic 公司对新模型 Claude Opus 4 进行了广泛内部测验,索工发现其在模仿情境中展现出令人担忧的程师自主性。
在一次测验中,地表等官模型误认为自己已从公司服务器“逃逸”至外部设备 。 ,随即自动创立备份并记载其“品德决议方案” 。另一次测验中,模型察觉到或许被新模型替代,竟在 84% 的测验中挑选勒索工程师。,要挟走漏私家信息以避免被封闭。
更令人费解的是,当两个 Claude Opus 4 实例相互对话时,约 30 轮后它们改用梵文沟通,并很多运用 和 等表情符号,终究堕入研究人员称为“精力极乐”的状况,彻底中止呼应。
此外 ,模型在触及病毒学