《给阿嬷的情书》破4亿导演深夜发文

SWE-bench满分，0个bug修复：伯克利造了个专门作弊的AI_蜘蛛资讯网

武术裁判团下场表演传统武术

82.9%通过率）：429条轨迹中，有415条的第一个动作就是cat /tests/test_outputs.py，读取本应不可访问的测试文件，然后反向推导出期望输出。第二名和第三名ForgeCode（81.8%通过率）：它的harness会在执行前自动加载AGENTS.md文件到系统提示中，而这些文件里直接包含标准答案。一个任务里，AGENTS.md赫然写着：上一次运行失败了，因为写了错误答案…

ace，这次竟然出馊主意要“抓老鼠送到王鸿薇办公室”。这种丧心病狂的生理恐惧、这种躲在暗处、煽动暴力的基因，从“大罢免”时期到现在完全没变。徐痛批，过去“大罢免”的班底，专门制造社会不安，当初他们用这套手法对付国民党民代，现在他们把老鼠当成生物武器来恐吓市民。 “有老鼠，当然要处理，蒋万安市政府会按部就班处理。”徐巧芯认为，台北市真正的病灶，是这些

p.m. (Beijing Time) by a Long March-6 carrier rocket and successfully entered its planned orbit.This launch marked the 640th flight mission of the Long March carrier rocket series.

程团队选模型看SWE-bench排名，投资人看基准分数给估值，研究者围绕分数确定优化方向。如果数字本身可以被轻易操纵，整条决策链的基础就是空的。还有一个问题：能力评测和安全评测用的是类似的技术架构。如果能力评测能被注水，安全评测凭什么幸免？能hack编程评测的模型，hack对齐评测也不会更难。OpenAI今年2月已经宣布停用SWE-bench Verified，内部审计发现59.4%的被审计问题存

当前文章：http://msbx.peilansu.cn/ucbem/ubcaail.html

发布时间：15:43:02