2026年3月26日
ARC-AGI-3发布:静态Benchmark时代结束了,AI得学会打游戏才算智能
刷Benchmark拿高分这件事,已经被AI玩成了考试作弊。MMLU、HumanEval、SWE-B...
若不是生活所迫,谁愿意把自己弄得一身才华。
刷Benchmark拿高分这件事,已经被AI玩成了考试作弊。MMLU、HumanEval、SWE-B...
用AI生成过前端页面的都有一个共同体验:不管你怎么描述需求,出来的东西总是一股浓烈的”A...
用AI生成过前端页面的都有一个共同体验:不管你怎么描述需求,出来的东西总是一股浓烈的”A...
一个叫Flash-MoE的开源项目这两天在HN上炸了。做的事情听起来不可能:把Qwen3.5-397...
做AI Agent爬虫的都知道,Headless Chrome是个资源黑洞。随便开几个tab内存就飙...
做AI Agent爬虫的都知道,Headless Chrome是个资源黑洞。随便开几个tab内存就飙...
前两天OpenUI团队发了篇技术博客,标题直接就是”We rewrote our Rus...
昨天Python工具链圈子炸了——Astral宣布加入OpenAI,整个团队并入Codex。Astr...