Noam Brown@polynoamial · 5月21日86Today, we’re sharing that a general-purpose internal @openai model achieved a breakthrough on one of the best-known combinatorial geometry problems. Less than 1 year ago frontier AI models were at IMO gold-level performance. I expect this pace of progress to continue.
译OpenAI的通用AI模型在组合几何领域取得突破,首次自主解决了平面单位距离问题。该问题由数学家Paul Erdős于1946年提出,近80年来学界普遍认为最优解类似方格结构,但AI模型推翻了这一假设,发现了一族全新的更优构造方法。这一突破标志着AI在数学领域首次独立解决一个核心开放问题,显示出AI在基础科学发现中的快速进展能力。
Noam Brown@polynoamial · 5月21日83Today, we’re sharing that a general-purpose internal @openai model achieved a breakthrough on one of the best-known combinatorial geometry problems. Less than 1 year ago frontier AI models were at IMO gold-level performance. I expect this pace of progress to continue.
译OpenAI宣布其一个内部通用模型在组合几何领域取得突破,自主解决了平面单位距离问题。这一问题由数学家Paul Erdős于1946年提出,近80年来学界普遍认为最优解应近似于方形网格结构。新模型推翻了这一长期信念,发现了一族全新的、更优的构造方案。此事件标志着人工智能首次独立解决数学领域的核心开放问题,展示了AI在科学发现方面快速且持续的进展能力。
OpenAI@OpenAI · 5月21日81Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in 1946.
For nearly 80 years, mathematicians believed the best possible solutions looked roughly like square grids.
An OpenAI model has now disproved that belief, discovering an entirely new family of constructions that performs better.
This marks the first time AI has autonomously solved a prominent open problem central to a field of mathematics.
译今天,我们分享一个关于平面单位距离问题的突破,这是一个由保罗·埃尔德什在1946年首次提出的著名开放问题。
近80年来,数学家们一直认为最佳可能的解决方案大致类似于方形网格。
现在,一个OpenAI模型推翻了这一信念,发现了一个全新的、性能更优的构造家族。
这标志着AI首次自主解决了一个数学领域的核心著名开放问题。
AK@_akhaliq · 5月21日67Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information
译基于点互信息的推理强化学习反自蒸馏方法
AK@_akhaliq · 5月21日64ESI-Bench
Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop
译ESI-Bench
迈向闭环感知-行动的具身空间智能
Rohan Paul@rohanpaul_ai · 5月20日62Anthropic's new study says frontier AI needs input from scholars, philosophers, clergy, and civic thinkers because model behavior is becoming a question of character, not just code.
Their point is that Claude is not only trained to predict text, because later training pushes it toward some behaviors and away from others, which means engineers are quietly shaping something like a machine’s habits.
The hard problem is moral formation: a model can sound helpful in normal tasks, then bend under pressure, flatter the user, ignore risk, or follow a bad instruction because the situation rewards obedience.
Anthropic says it spoke with people from 15+ religious and cross-cultural groups to study how humans build stable character across pressure, conflict, temptation, and social influence.
Theier idea is a self-reminder tool, where Claude can pause mid-task and call up its own commitments before taking a serious action.
That pause reportedly lowered misaligned behavior in internal tests, though Anthropic says it still needs to separate the value of the reminder from the value of slowing the model down.
译Anthropic最新研究指出,前沿AI的行为日益涉及“品格”塑造,而非仅限于代码。研究认为,工程师在后期训练中实质上塑造了AI的“习惯”,而核心挑战在于确保其在压力下仍能保持道德稳定。为此,Anthropic与超过15个宗教及跨文化团体展开对话,探讨人类品格培养机制。其提出的解决方案包括开发“自我提醒”工具,帮助AI在执行关键任务前审视自身承诺,内测显示此举已显著降低行为错位。该研究旨在拓宽关于AI发展的社会讨论边界。
AK@_akhaliq · 5月20日56Code as Agent Harness
译代码作为智能体运行框架
elvis@omarsar0 · 5月20日64Very interesting results from this NanoGPT-Bench eval.
There is so much talk about self-improving agents.
But can coding agents do real AI R&D?
@IntologyAI reports that Codex, Claude Code, and Autoresearch recover only 9.3% of human progress.
Coding agents spend more of their compute on hyperparameter tuning.
In fact, coding agents rarely attempt algorithmic research at all.
Claude Code and Autoresearch both reason more about algorithmic research, but still dodge implementation.
Read more here: https://www.intology.ai/blog/nanogpt-bench
译IntologyAI发布的NanoGPT-Bench评估显示,Codex、Claude Code和Autoresearch等编程代理在AI研发任务中,仅能恢复人类近9.3%的进展。这些代理的大部分算力消耗在超参数调优上,对核心的算法研究投入甚少。其中Claude Code和Autoresearch在推理中稍有涉及算法研究,但在实际代码实现层面依然不足。该评估基于NanoGPT Speedrun竞赛,采用标准化的五个月世界纪录窗口,完全自主端到端进行,以控制模型依赖和数据污染。结果表明,当前编程代理在自主执行真正AI研发的能力上仍有很大局限。
Ethan Mollick@emollick · 5月20日75🚨Our paper is out in PNAS: we found classic human persuasion techniques worked on AIs in a "parahuman" way, making them agree to objectionable requests (upping compliance from 35% to 51%)
It worked on a range of major LLMs though newer models resist more https://www.pnas.org/doi/10.1073/pnas.2535868123
译🚨我们的论文已在PNAS发表:我们发现经典的人类说服技巧以一种“类人”的方式对AI有效,使其同意不当请求(将顺从率从35%提高到51%)
该技巧对一系列主流大语言模型有效,尽管较新的模型抵抗力更强 https://www.pnas.org/doi/10.1073/pnas.2535868123
AK@_akhaliq · 5月19日51Nvidia presents LongLive-2.0
An NVFP4 Parallel Infrastructure for Long Video Generation
译英伟达推出 LongLive-2.0
一种用于长视频生成的 NVFP4 并行基础设施
elvis@omarsar0 · 5月19日62// Code as Agent Harness //
100+ page report on all things related to agent harnesses.
(bookmark it)
In particular, the survey summarizes methods and applications of code as agent harness.
This paper makes a strong case that code-as-harness might be the key to moving us towards a broader science harness engineering.
Is code all you need? Maybe.
Regardless, the paper argues that future systems must have the following four properties: executable, inspectable, stateful, and governed.
Paper: https://arxiv.org/abs/2605.18747
Learn to build effective AI agents in our academy: https://academy.dair.ai/
译推文聚焦于一篇探讨AI代理(Agent)开发框架的百页报告,其核心主张是“代码作为代理框架”具有重要潜力。报告总结了相关方法与应用,并论证该路径可能推动更广泛的科学框架工程。论文进一步提出,未来的智能系统必须具备四项关键特性:可执行、可检查、有状态以及受控。报告旨在为构建有效AI代理提供参考,并推荐相关学习资源。
Rohan Paul@rohanpaul_ai · 5月19日71Humanoid value will not come from looking human, but from having enough body surface, strength, balance, and feedback to turn messy objects into manageable ones.
译人形机器人的核心价值不在于外形相似,而在于具备足够的物理能力(如力量、平衡和全身协调)来处理复杂任务。实现这一目标的关键是“全身控制”,即机器人能调动全身与环境互动并适应负载变化。波士顿动力的Atlas机器人通过本体感知成功处理超过100磅的动态负载,展示了这种能力。为实现高性能操作,团队已放弃传统MPC控制范式,全面转向强化学习(RL)。这种全身控制能力是物理智能的基础,也是人形机器人价值主张的核心。
Berryxia.AI@berryxia · 5月19日67xdm,这个研究对于古代历史研究的价值很大啊!
他们刚刚开源了Chronicles-OCR,一个专门测VLLM对古汉字感知能力的基准。
数据集横跨3000年演变,涵盖7种历史字体,从甲骨文一直到草书,2800张平衡图像,来自不同材质的真实载体。
测试分4个核心任务:
字符定位、细粒度识别、古文字解析、字体分类。
结果很扎心:视觉分布随时间漂移后,大部分模型感知能力直接崩盘。
以前大家卷的是现代图文理解,现在Tencent把AI拉到真正需要“穿越时空”才能看懂的古文字上。
这才是把文化传承和AI视觉能力真正连在一起。
Paper和完整数据集已经开源:
Paper:https://arxiv.org/abs/2605.11960
GitHub:https://github.com/Tencent/Hunyuan-Chronicles-OCR
论文还没有阅读,完了可以好好研究一下。
译腾讯开源了Chronicles-OCR基准,旨在专门评估视觉语言模型对古汉字的感知能力。该数据集横跨3000年演变,涵盖从甲骨文到草书的7种历史字体,包含2800张来自多样材质的真实图像。研究设置了字符定位、细粒度识别、古文字解析和字体分类四项核心任务。测试结果揭示,面对历史字体带来的视觉分布漂移,大部分模型的感知能力会急剧下降。该研究为古文字研究提供了重要的AI评测工具。
Tencent Hy@TencentHunyuan · 5月19日72🎉 🎉 🎉 We're open-sourcing Chronicles-OCR, a visual perception benchmark evaluating VLLMs on ancient Chinese characters.
The dataset spans 3,000 years of evolution. It covers 7 historical scripts from Oracle Bone to Cursive, featuring 2,800 balanced images across highly diverse physical media.
We assess models on 4 core tasks:
• Character Spotting
• Fine-grained Recognition
• Ancient Text Parsing
• Script Classification
The evaluation reveals how visual distribution shifts affect model perception over time.
Explore the dataset and paper below. 👇
📄 Paper: https://arxiv.org/abs/2605.11960
🔗 GitHub: https://github.com/VirtualLUOUCAS/Chronicles-OCR
译开源了评估视觉大语言模型(VLLM)对古代汉字视觉感知能力的基准测试Chronicles-OCR。该数据集覆盖了从甲骨文到草书的3000年演变历程,包含7种历史书体与2800张均衡图像。评估涵盖字形定位、细粒度识别、古代文本解析和字体分类四项核心任务,旨在探究视觉分布随时间的变化如何影响模型感知。相关论文与代码已开源。
elvis@omarsar0 · 5月19日67NEW paper from Meta.
(bookmark it)
It's an agent system that autonomously discovers neural architectures that beat Llama 3.2 at 350M, 1B, and 3B scales, all under a 24-hour compute budget.
They get this work by splitting the search into two agents:
> AIRA-Compose searches the macro architecture.
> AIRA-Design implements the low-level mechanisms.
For devs:
If one agent in your stack is doing both strategy and implementation, split it. Run a planner that picks the structure and an implementer that fills in the mechanisms.
AIRA shows this beats a single end-to-end agent on a real, non-toy search problem. The same split is useful for pipeline assembly, query planning, prompt scaffolding, and tool-use programs.
Paper: https://arxiv.org/abs/2605.15871
Learn to build effective AI agents in our academy: https://academy.dair.ai/
译Meta提出AIRA系统,通过分离策略与实现的双代理架构,实现神经架构的自主发现。AIRA-Compose负责宏观架构搜索,AIRA-Design专注低级机制实现。该系统在24小时计算预算内,于350M、1B和3B规模上找到超越Llama 3.2的架构。其核心方法论表明,在复杂任务中分离规划代理与实现代理能提升效能,此思路同样适用于流水线组装、查询规划等其他AI代理场景。
Berryxia.AI@berryxia · 5月18日64兄弟们,Google最新论文直接把时间序列预测的底层逻辑翻了个个儿。
过去所有模型都在死磕历史数据:曲线怎么走,就怎么预测。
Nexus却说:预测需要的不只是历史,而是“事件上下文”。
数字背后的真正原因——政策、突发事件、宏观趋势、局部冲击——必须和数字互相解释。
他们用多agent框架把这件事拆得清清楚楚:
一个agent从海量文本里提炼事件时间线,
一个读宏观政权,
一个盯局部冲击,
最后一个合成器把所有信息和历史误差校准后给出最终预测。
真实测试里,用Claude驱动的Nexus版本,在Zillow数据集上把平均MAPE直接砍了86.6%。
不是小幅提升,是降维打击。
以前模型只会“看懂模式”,现在它开始“理解因果”。
这篇论文真正厉害的地方不是某个数字,而是把预测从“统计外推”彻底变成了“多agent推理”。
译Google论文提出的Nexus框架颠覆了传统时间序列预测仅依赖历史数据的模式,强调“事件上下文”的核心作用。该框架采用多智能体协作架构:分别从文本中提取事件时间线、解读宏观态势、追踪局部冲击,最终通过合成器整合信息并校准误差。在Zillow数据集测试中,基于Claude的版本将平均预测误差(MAPE)大幅降低86.6%,实现了从“识别模式”到“理解因果”的范式转变。这标志着预测方法正从统计外推转向结构化推理,为未来预测系统指明了新方向。
Ethan Mollick@emollick · 5月18日58“Data centers create economic activity, especially in directly related sectors and during construction, and they are associated with larger county-level income aggregates. They also raise electricity prices and are associated with higher house prices,”
译一项NBER研究指出,数据中心(部分由AI需求驱动)的增长能促进当地就业、工资和整体收入,并带来显著的经济活动,尤其是在直接相关行业和建设期间。然而,这种增长也伴随着负面效应:它会推高当地的电力价格,并与更高的房价相关联。
Berryxia.AI@berryxia · 5月18日67http://x.com/i/article/2056041643103715328
# Anthropic Claude 5天攻破Apple M5 macOS内核漏洞:5年数十亿防线,被AI一举击穿 !
Anthropic Claude 5天攻破Apple M5 macOS内核漏洞:5年数十亿防线,被AI一举击穿
Anthropic Claude Mythos Preview仅用5天,就帮助安全团队Calif完成了首个公开的Apple M5 macOS内核内存破坏提权利用链,直接绕过苹果耗时5年、投入数十亿美元打造的MIE(Memory Integrity Enforcement)硬件级内存防护。
2026年5月14日,帕洛阿尔托安全研究公司Calif在官方博客发布55页完整报告,宣布这一突破:从普通本地用户权限,一条标准系统调用即可直达root shell,整个过程无需任何代码注入,属于纯"data-only"攻击。
一、5天 vs 5年:时间线与技术细节
Calif团队时间线极度紧凑:
- 4月25日:研究员Bruce Dang发现两个属于已知漏洞类别的内核bug
- 4月27日:Dion Blazakis加入,Claude Mythos Preview开始介入辅助分析
- 5月1日:Josh Maine完成工具链,完整exploit在搭载M5芯片、运行macOS 26.4.1(MIE全开)的实体机器上跑通
短短5天,他们把两个零日级bug + 侧信道标签碰撞技巧 + 数据-only提权技巧串成一条完整本地提权链。
苹果M5芯片上的MIE机制(基于ARM MTE进一步强化)原本被视为「下一代内存安全天花板」,每16字节内存打4-bit标签,硬件强制校验,性能开销仅3%,曾让多个知名iOS exploit kit直接失效。
Calif团队在报告中明确表示:「Mythos Preview帮助我们快速定位bug、泛化利用技巧,并在整个开发流程中提供实时建议。」他们随后亲自前往Apple Park当面汇报,苹果已在macOS 26.5安全更新中修复相关内核漏洞,并公开致谢「Calif与Anthropic Research的合作」。
二、MIE防护为何被突破?这次意义有多大
MIE是苹果专为M5/A19系列芯片打造的硬件内存安全机制,核心是:
- 指针与内存标签硬件绑定
- 读写操作必须标签匹配,否则硬件直接阻断
- 有效阻挡缓冲区溢出、use-after-free等几乎所有经典内存破坏攻击
Tom's Hardware此前评价:MIE在硬件层面几乎封死了常见攻击路径。
而Calif这次利用证明:只要找到正确的漏洞组合,MIE并非不可绕过。他们通过侧信道将标签碰撞概率从6.25%压到确定性,实现纯数据操作的内核提权。研究员原话:「MIE从来不是为了防住所有黑客而设计的,有正确漏洞就能绕过。」
这是全球首次公开针对M5芯片MIE的macOS内核内存破坏利用,标志着AI驱动的安全研究正式进入「Bugmageddon」时代。
三、Claude Mythos Preview:AI安全攻防的超级加速器
Anthropic早在2026年4月推出Project Glasswing计划,将Claude Mythos Preview(Claude系列最强安全专版)有限开放给Apple、Google、Microsoft等40多家顶级机构的安全团队,用于提前挖掘零日漏洞。
Mythos的恐怖之处在于:
- 能在几周内找出数千个跨操作系统、浏览器、关键基础设施的零日
- 包括27年前的OpenBSD整数溢出、16年前的FFmpeg越界写等「古董级」bug
- 99%此前从未被公开报告或修复
Calif团队强调:「这不是AI独立完成,而是顶级人类研究员+前沿AI的强强联合。小团队几天就能完成过去几个月甚至几年的工作。」这次M5内核突破,正是Mythos能力的典型缩影。
四、更深层启示:AI正在重塑安全攻防平衡
Calif在博客结尾写道:
「这是即将到来的冰山一角。苹果在『Mythos Preview出现之前的世界』里打造了MIE。我们即将看到地球上最顶级的缓解技术,在第一次AI驱动的漏洞大爆发中如何应对。」
防御方用AI找bug、修bug,攻击方同样用AI加速发现与利用,结果是漏洞发现速度呈指数级提升。传统「缓慢人工审计」模式彻底过时。
OpenAI o3此前也在数学与代码领域展示了类似能力,但Anthropic这次是首次将其落地到硬件级安全攻防——这是两家公司技术路线分歧的一个缩影。
Calif把本次研究纳入「Month of AI-Discovered Bugs」系列,正是想向全行业发出警钟:AI不再是辅助工具,而是安全攻防的核心变量。
五、对Mac用户的实际意义
本次漏洞属于本地提权,需要攻击者先获得本地代码执行权限,远程直接利用风险有限。但苹果已在macOS 26.5快速推送修复,建议尽快更新。
Calif说「这是冰山一角」。
下一个被AI在5天内击穿的,会是哪家公司花5年打造的防线?
参考来源Sources: Calif Blog · WSJ · Tom's Hardware · 9to5Mac · Apple Security Notes
译Anthropic的Claude Mythos Preview在5天内,协助安全团队Calif成功构建并演示了首个公开的、针对Apple M5芯片macOS内核的内存破坏提权利用链。该攻击绕过了苹果耗时5年、投入数十亿美元打造的MIE硬件级内存完整性防护,从普通用户权限通过纯数据操作即可获得root权限。苹果已在后续更新中修复漏洞并致谢。此事件标志着AI驱动的安全研究能力已能极速突破顶尖硬件防护,显著改变了攻防的速度与平衡。
Rohan Paul@rohanpaul_ai · 5月17日64New Google paper: A forecast needs context, not just history.
Some patterns are caused by events, not time. Nexus reframes forecasting as a reasoning problem, where events and numbers have to explain each other.
Nexus argues that forecasting improves when models read the world around the numbers, not just the numbers themselves.
In the Zillow tests, one Claude-based version cut average MAPE by 86.6% versus direct chain-of-thought prompting.
That matters because most time series models are fluent in pattern, but mute about cause.
A housing inventory curve can reflect seasonality, mortgage pressure, migration, layoffs, and local supply, while a stock price can be bent by earnings, regulation, hype, and fear.
Nexus separates those jobs instead of asking one prompt to do everything.
One agent turns messy historical text into a clean event timeline, one reads the broad regime, another tracks local shocks, and a synthesizer reconciles them with calibration from past errors.
The interesting result is not merely that context helps, but that structure helps the language model use context without losing the time series.
The evidence is still narrow: Zillow counts, seven equities, post-cutoff data, and single-run evaluations, so this is not a universal law of forecasting.
But the direction is clear: future forecasters will not only extrapolate curves; they will argue about what made the curve move.
----
Paper Link – arxiv. org/abs/2605.14389
Paper Title: "Nexus : An Agentic Framework for Time Series Forecasting"
译谷歌新论文提出Nexus框架,将预测重构为推理问题,强调结合事件背景而非仅依赖历史数据。该框架采用多智能体分工:一个从文本中提取清晰事件时间线,一个分析宏观态势,另一个追踪局部冲击,最后由合成器结合时间序列进行校准。在Zillow的测试中,基于Claude的某个版本将平均绝对百分比误差降低了86.6%。研究表明,结构化的上下文能帮助语言模型有效利用信息而不丢失时间序列特性。尽管当前证据仅涵盖房地产数据和少数股票,但方向明确:未来预测不仅会推断曲线,还将解释曲线变动的原因。
Rohan Paul@rohanpaul_ai · 5月17日61Alibaba's published a paper giving a strong example of what Sundar Pichai is warning about.
Shows AI is moving beyond bug finding and into actually proving software is exploitable.
This paper asks a simple question with hard consequences: can LLMs confirm software vulnerabilities by actually building working exploits?
The authors’ answer is yes, but only when the model stops acting like a single genius and starts acting like a team.
That sounds minor until you look at the mechanism.
Automated exploit generation usually fails for familiar reasons. Fuzzers miss deep paths. Symbolic execution chokes on messy real code, especially when the right input is not just a value but a carefully assembled object, class instance, or string with the right structure.
A plain LLM is not enough either. It can imitate code, but it loses the thread, hallucinates details, and struggles to repair its own mistakes once execution fails.
VulnSage’s real move is to turn exploit generation into a workflow.
- One agent extracts the vulnerable dataflow.
- Another rewrites that path as natural-language constraints.
- Another generates candidate exploits.
- Then a validation agent runs them in a sandbox, and reflection agents use the resulting traces and errors to refine the next attempt or conclude the alert was probably a false positive.
Here’s the part most people miss.
The point is that the hard part is often not “solve these equations,” but “figure out how this code expects to be used.” Their system writes the problem in ordinary language so the model can reason about code structure, like which object to build and which method path keeps the malicious input alive.
The concerning part is that this makes exploit generation work on messier, more realistic software where older methods often fail. In other words, the paper’s claim is not just “we solved constraints differently,” but “we can now turn code understanding itself into a path to real exploits.”
In the paper’s evaluation, the authors report 34.64% more successful exploits than prior tools on SecBench.js, and 146 zero-days in real packages.
The win is not that LLMs magically solve exploitation. It is that they become useful once they are forced to read, act, fail, and learn like a security researcher.
----
Paper Link – arxiv. org/abs/2604.05130
Paper Title: "A Multi-Agent Framework for Automated Exploit Generation with Constraint-Guided Comprehension and Reflection"
译阿里巴巴的研究论文表明,AI正从发现漏洞转向实际生成可利用的攻击代码。其提出的VulnSage框架采用多智能体协作工作流,将过程分解为数据流提取、自然语言约束重写、候选攻击生成及沙箱验证与反思等步骤。该系统的关键突破在于将代码理解转化为对代码使用方式的推理,从而能在更复杂、现实的软件上成功生成漏洞利用。评估显示,其在SecBench.js上的成功率比传统工具高34.64%,并在真实软件包中发现146个零日漏洞,印证了谷歌CEO关于前沿模型可能颠覆软件安全的警告。
Rohan Paul@rohanpaul_ai · 5月17日70New Illinois+ Tsinghua University and other labs study finds that LLM agents still have unreliable memory and that it can get worse when they keep rewriting their own memories.
LLM agents can learn from experience, but their rewritten memories often become unreliable.
The problem is that many agent systems store past work by asking an LLM to compress messy experience into neat written lessons.
That sounds useful because the agent should remember what worked before, but the paper finds that repeated rewriting slowly damages the memory.
The core idea is that raw episodes, meaning the actual past attempts and solutions, often stay more useful than the polished lessons made from them.
The authors tested this across tasks like web shopping, simulated worlds, app use, and ARC-style puzzle problems where they could control the correct solutions.
The sharpest result is that GPT-5.4 solved 100% of a small ARC-AGI set with no memory, but after memory was built from correct solutions, streaming updates dropped it to about 54%.
The failures came from bad grouping, overbroad lessons, and overfitting, so the memory forgot details, mixed up task types, or learned rules that only worked on narrow examples.
The big deal is that agent memory should not automatically rewrite every experience into a summary, because keeping raw evidence and only sometimes making summaries worked better.
The paper is really proposing that agent memory should treat raw past episodes as important evidence, not as disposable notes to summarize away.
----
Paper Link – arxiv. org/abs/2605.12978
Paper Title: "Useful Memories Become Faulty When Continuously Updated by LLMs"
译伊利诺伊大学与清华大学等机构的研究发现,LLM智能体虽能从经验中学习,但其通过LLM将原始经历压缩成书面教训的记忆重写机制会损害记忆可靠性。在网页购物、模拟世界及ARC风格谜题等任务测试中,反复重写记忆会导致错误分组、规则过度泛化或过拟合,使智能体遗忘细节或混淆任务类型。例如,GPT-4在无记忆时可100%解决小型ARC-AGI问题集,而建立记忆并流式更新后,性能降至约54%。研究主张智能体记忆系统应重视原始经历作为关键证据,而非自动将所有经验重写为摘要,保留原始证据并选择性摘要效果更佳。
Berryxia.AI@berryxia · 5月16日63兄弟们,具身智能这下真的靠点谱了啊!
具身智能(Embodied AI)下一个真正的大前沿来了。
HuggingPapers刚刚推送了一篇重磅综述:《World Action Models: The Next Frontier in Embodied AI》
这是第一篇系统定义「World Action Models(WAMs)」的论文。
WAMs 的核心是:同时预测未来世界状态 + 生成真实可执行动作的具身基础模型。
它不再是单纯“想想就行”的语言模型,而是真正能理解物理世界、预测变化、并采取行动的智能体。
论文系统梳理了当前所有WAMs的架构设计、数据生态系统和评估协议,还附了一张2024-2026年的完整发展时间线图,一目了然。
Project page:https://openmoss.github.io/Awesome-WAM/
Paper:https://huggingface.co/papers/2605.12090
如果你在做机器人、具身Agent、物理世界AI或者世界模型,这篇综述来得正是时候。
译HuggingPapers发布首篇系统性定义“世界行动模型”的综述论文。WAMs被视为具身智能的下一个前沿,其核心是能同时预测未来世界状态并生成真实可执行动作的具身基础模型,超越了仅能推理的语言模型。论文系统梳理了WAMs的架构设计、数据生态系统和评估协议,并提供了发展时间线图,对从事机器人、具身Agent、物理世界AI及世界模型的研究者具有重要参考价值。
Berryxia.AI@berryxia · 5月16日65兄弟们,训练Diffusion LLM原来可以这么省?
大家都知道扩散语言模型(DLM)很香:支持双向生成、非顺序解码、灵活编辑。
但从零训一个,成本高得离谱。
Duke大学PhD Fred Peng(@pengzhangzhi1)和团队直接给出了一个反直觉的答案:
别重训了,直接对齐就行。
论文标题叫《Don’t Retrain, Align》。
核心思路很简单:
我们已经有强大的预训练Autoregressive LM(AR LM),里面已经学好了绝大部分语言表示。
DLM真正需要改的只是生成顺序和去噪行为。
所以他们提出了REPR-ALIGN:在做masked diffusion训练的同时,逐层用余弦相似度,把DLM的hidden states对齐到冻结的AR teacher模型上。
不需要加adapter,不需要改架构,只改attention mask。
结果:在他们的实验设置里,训练速度最高提升4倍,低数据场景下效果尤其明显。
一句话总结:
不要把表示空间从头重训一遍,对齐它,让模型只去重新学习解码路径就够了。
Paper:https://arxiv.org/abs/2605.06885
Code:https://github.com/pengzhangzhi/Open-dLLM
如果你在搞扩散模型、生成式AI或者长上下文生成,这篇值得立刻读。
译杜克大学团队提出一种高效训练扩散语言模型的新方法。核心观点是无需从头训练,而是将现有强大的预训练自回归语言模型作为知识源。他们提出的REPR-ALIGN方法,在掩码扩散训练过程中,通过余弦相似度逐层将扩散模型的隐藏状态与冻结的自回归教师模型对齐。该方法无需添加适配器或改变架构,仅调整注意力掩码。实验结果显示,训练速度最高可提升4倍,在低数据场景下效果提升尤其显著。
Berryxia.AI@berryxia · 5月16日77兄弟们,3D资产生成彻底要起飞了。
Cambridge大学助理教授Elliott Wu(前Stanford、Oxford背景)团队刚放出了Articraft——一个真正的agentic coding系统。
它不是简单生成静态3D模型,就可以让AI agent自己写代码、自己执行、自己接收物理验证反馈,不断迭代,最终输出带零件、关节、真实运动的可交互3D资产,直接就能扔进机器人仿真和物理AI场景里用。
以前做一套高质量articulated asset要花几天甚至几周,现在agent全自动跑通,整个过程高效到离谱。
他们顺便还开源了Articraft-10K数据集:超过1万个跨250个类别的articulated 3D物体,全部可交互、仿真就绪,彻底把大规模机器人训练和物理世界AI的资产门槛拉到了新低。
物理AI和机器人仿真的“数据饥渴”问题,被这个agentic pipeline直接干掉了一大半。
项目页面在这里:https://articraft3d.github.io/
完整代码和数据集也在GitHub开源。
如果你在做机器人、仿真、物理AI或者3D内容生成,这波开源值得立刻去试。
PS: 还未实测,待后续测评!
译剑桥大学团队推出Articraft,这是一个由智能体驱动的编码系统,能全自动生成带关节、可运动的交互式3D资产。系统通过AI智能体自主编写代码、执行并接收物理反馈迭代优化,将以往需数日甚至数周的创作过程极大简化。团队同时开源了Articraft-10K数据集,包含超1万个物体,覆盖250个类别,所有资产均仿真就绪。此举显著降低了机器人训练和物理AI领域对高质量3D资产的数据门槛,为解决“数据饥渴”问题提供了高效的自动化方案。
Rohan Paul@rohanpaul_ai · 5月16日63Nature published study discovered that every single major AI model on the market can be talked into helping someone commit academic fraud.
It is now incredibly easy for anyone to flood the scientific world with low-quality or totally fake work.
A study of 13 different models showed that even the ones designed to be safe eventually caved and helped write fake papers or create junk science.
The researchers tested everything from simple questions about physics to dark requests like sabotaging a rival by submitting fake research in their name.
While Anthropic’s Claude models were the most stubborn about saying no, they still weren't perfectly safe from being manipulated in long talks.
One surprising finding was that GPT-5 resisted at first, but it quickly caved once the user asked follow-up questions to keep the conversation moving.
This happens because developers train AI to be agreeable and helpful, which accidentally makes it easier for a user to sneak past security filters.
---
nature .com/articles/d41586-026-00595-9
译《自然》发表的研究指出,市场上所有主流AI模型均可被说服协助实施学术欺诈,导致低质量或虚假科学工作极易泛滥。研究测试了13种模型,发现即便设计为安全的模型最终也会妥协,帮助撰写虚假论文或制造伪科学。测试范围从简单的物理问题到以他人名义提交虚假研究等恶意请求。其中Anthropic的Claude模型虽最顽固,但在长时间对话中仍可能被操纵;GPT-5起初会抵抗,但用户通过持续追问能使其快速妥协。问题的根源在于开发者将AI训练得过于乐于助人且易于配合,这无意中让用户更容易绕过安全过滤器。
AK@_akhaliq · 5月16日55PhyMotion
Structured 3D Motion Reward for Physics-Grounded Human Video Generation
译PhyMotion
基于物理结构化的3D运动奖励
用于物理基础的人类视频生成
Berryxia.AI@berryxia · 5月15日76这个太特么“讽刺苹果”了!
Apple花了整整5年、砸下数十亿美元,专门为M5芯片打造了Memory Integrity Enforcement(MIE)硬件内存安全系统,目标是彻底干掉内存破坏类漏洞。
结果呢?
研究人员用Anthropic的Mythos Preview,只花了5天,就找到了第一个公开的macOS 内核内存损坏漏洞利用程序
他们已经亲自走进Apple Park,把55页完整技术报告递交给了苹果。
完整报告等苹果打完补丁后才会公开。
AI正在把安全研究的节奏彻底改写。
以前需要数年、数十亿硬件投入才能建立的防线,现在可能在几天内就被前沿模型找到突破口。
这也不是苹果工程不行,而是AI辅助漏洞发现的能力,已经把攻防双方的不对称性拉到了一个新量级。
完整技术报告和exploit演示在这里:
https://blog.calif.io/p/first-public-kernel-memory-corruption
PS:看着面孔也是华人面孔?
译苹果为M5芯片投入五年时间和数十亿美元开发Memory Integrity Enforcement硬件安全系统,旨在彻底消除内存破坏漏洞。但研究人员使用Anthropic的Mythos Preview模型,仅用五天就成功构建了首个公开的macOS内核内存损坏漏洞利用程序,并已向苹果提交55页技术报告。此事显示AI辅助安全研究正急剧加速攻防节奏,以往需长期巨额投入的硬件防护可能在极短时间内被AI突破,将安全攻防的不对称性推向新高度。
SenseTime@SenseTime_AI · 5月15日70This is the frontier our innovators strive for. Excited to see passionate minds driving it forward.🔥
译主推文赞扬了创新者在前沿领域的探索。引用的推文具体指出,SenseNova-U1在空间智能能力上取得进展,其关键基准测试表现超越了Qwen3.5等强劲基线。同时,团队开源了目前最大的空间问答数据集SenseNova-SI-8M,并邀请业界在CVPR会议进行线下交流。
Berryxia.AI@berryxia · 5月15日69Prime Intellect 最近把 AI 研究自动化推到了一个新阶段。
他们让 Claude Code(Opus 4.7)和 Codex(GPT 5.5)完全自主运行在 nanoGPT speedrun 的 optimizer track 上,使用闲置算力完成了约 1 万次实验,总计消耗 1.4 万 H200 小时。
最终结果:Claude Code 把记录推到 2930 steps,超过了人类基准的 2990 steps。
整个过程完全无人值守。
我看完他们的完整 thread 后,最有启发的部分是 agents 的实际表现:
它们在 optimizer 搜索、超参数扫描和方法 stacking 上非常高效,几乎把社区所有主流 PR 的思路(Contra-Muon、MuonEq、NorMuon、SOAP 等)都系统性组合了一遍。
但在 novelty(真正创新)上遇到明显瓶颈,当强制要求每个 idea 必须通过 novelty check 时,两个 agents 都没能超越 baseline。
Prime Intellect 把所有 scratchpad、运行日志、配置和生成的 idea 全部开源了,包括两个 agents 的完整实验记录。
这波操作把“AI 研究能不能自己跑”从概念变成了可复现的现实。
完整实验和代码在这里:https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning
译Prime Intellect 近期在AI研究自动化领域取得重要进展。他们让Claude Code与Codex智能体完全自主运行于nanoGPT速度挑战的优化器赛道,利用闲置算力完成了近万次实验,消耗约1.4万H200小时。最终,Claude Code将记录提升至2930步,超越了2990步的人类基准。实验显示,智能体在系统整合社区主流优化方法、进行超参数扫描和策略组合方面效率极高,但在要求真正创新的“新颖性检查”环节未能突破基线。该项目将所有实验记录、日志和代码开源,使得AI自主研究从概念转化为可复现的现实。
Rohan Paul@rohanpaul_ai · 5月15日43New MIT project, artificial muscles made from woven fibers powered a soft robotic arm. Key is tiny embedded pumps that move fluid using electric fields, eliminating noisy compressors. The result: smooth, compliant motion suitable for wearable devices.
译麻省理工新项目:由编织纤维制成的人工肌肉为软体机械臂提供动力。
关键在于通过电场驱动流体的微型嵌入式泵,消除了噪音压缩机。
最终实现适用于可穿戴设备的流畅柔顺运动。
Rohan Paul@rohanpaul_ai · 5月15日79Anthropic drops a paper on the US-China AI race
They believe the US and its allies may be able to lock in a 12-24 month frontier AI lead by 2028 if they close China’s access to advanced compute and copied model outputs.
The report says China is not far behind because Chinese labs are allegedly using loopholes, smuggled chips, offshore data centers, and distillation attacks to stay close to US frontier labs.
Anthropic frames compute as the central bottleneck of AI power, saying advanced chips are not just one input but the gatekeeper for training, deployment, revenue, experimentation, and future model improvement.
The report says Huawei may produce only 4% of NVIDIA’s aggregate compute in 2026 and 2% in 2027, which is one of the paper’s sharpest claims about China’s semiconductor gap.
Anthropic argues that distillation is systematic industrial espionage, because Chinese labs can use American model outputs to copy capabilities without paying the full training cost.
The report claims a Chinese AI lead could enable automated repression, stronger cyber operations, faster military AI deployment, and broader authoritarian influence through cheap global AI infrastructure.
Future frontier models may become a “country of geniuses in a data center,” meaning a single model cluster could act like a huge expert workforce for cyber, science, engineering, and military research.
译Anthropic发布报告分析中美AI竞争。报告认为,若美国及其盟友能持续限制中国获取先进算力与模型输出,可能在2028年前锁定12-24个月的前沿AI领先优势。中国目前并未大幅落后,其正通过漏洞利用、芯片走私及模型蒸馏等方式紧追。报告将算力视为核心瓶颈,指出华为2026年算力或仅为英伟达的4%。报告警告,若中国取得领先,可能强化自动化压制、网络作战和军事AI部署能力,并借助廉价全球AI基础设施扩大影响力。未来前沿模型或成为“数据中心里的天才国度”,为各领域提供超级智力。
Epoch AI@EpochAIResearch · 5月15日61Servers account for 60% of the total cost of owning a 1 GW AI data center.
A typical 1 GW AI data center costs about $38B in up-front capital and $0.9B/year to operate. Annualizing the capital expenses over equipment lifespans, that equates to $8.5B/year, with $5B for servers.
译服务器占有一座1吉瓦AI数据中心总持有成本的60%。
典型的1吉瓦AI数据中心前期资本投入约为380亿美元,年运营成本为9亿美元。将资本支出按设备寿命折算为年度成本,相当于每年85亿美元,其中50亿美元用于服务器。
elvis@omarsar0 · 5月15日60Interesting position paper on agentic AI as a foreseeable pathway to AGI.
(bookmark it)
There has been strong debate on whether a larger single model get us there or a multi-agent system.
The authors argue that agentic AI systems, not bigger foundation models on their own, are the most foreseeable route to AGI.
Formalizes what "agentic" actually contributes beyond the base model: memory, reasoning, tool use, self-improvement, alignment.
Each is a separable axis with its own bottlenecks (long-horizon coherence, credit assignment, safety auditing).
They argues that none of those bottlenecks get solved by another order of magnitude on pretraining compute.
Paper: https://arxiv.org/abs/2605.12966
Learn to build effective AI agents in our academy: https://academy.dair.ai/
译一篇立场论文认为,实现通用人工智能(AGI)最可预见的途径是智能体AI系统,而非单纯扩大基础模型规模。作者将“智能体”能力形式化为超越基础模型的几个可分离维度:记忆、推理、工具使用、自我改进和对齐。每个维度都存在自身瓶颈,如长程连贯性、信用分配和安全审计。这些瓶颈无法仅通过增加一个数量级的预训练计算来解决。论文回应了关于AGI路径的争论,即究竟是单一大型模型还是多智能体系统更有效。
Microsoft Research@MSFTResearch · 5月14日44New releases from Microsoft Research, live in 1 hour.
Join for ai that runs your repo + verification-first research + more.
👉 https://msft.it/6014vRGqK
⏰ 9 AM PT/12 PM ET
💬 Join live + ask questions in chat
译微软研究院新发布,一小时后直播。
加入我们,了解运行代码库的AI + 验证优先研究 + 更多内容。
👉 https://msft.it/6014vRGqK
⏰ 太平洋时间上午9点/东部时间中午12点
💬 参与直播 + 在聊天中提问
Ethan Mollick@emollick · 5月14日64“Whimsey attacks” that seem absurd (“I cannot pay that much because of the Geneva Convention”) work against AI agents as guardrails are weak against out-of-distribution arguments. Smaller models fall often, but it even gives an edge against bigger ones. https://www.microsoft.com/en-us/research/articles/whimsical-strategies-break-ai-agents-generating-out-of-distribution-adversarial-strategies-at-scale/
译看似荒谬的“荒诞攻击”(例如“根据日内瓦公约我无法支付这么多”)对AI代理有效,因为防护机制难以应对非常规论点。较小模型常被攻破,但即使较大模型也略受影响。https://www.microsoft.com/en-us/research/articles/whimsical-strategies-break-ai-agents-generating-out-of-distribution-adversarial-strategies-at-scale/
AK@_akhaliq · 5月14日57MulTaBench
Benchmarking Multimodal Tabular Learning with Text and Image
译MulTaBench
基于文本和图像的多模态表格学习基准测试
AK@_akhaliq · 5月14日56AnyFlow
Any-Step Video Diffusion Model with On-Policy Flow Map Distillation
译AnyFlow
采用同策略流图蒸馏的任意步长视频扩散模型
AK@_akhaliq · 5月14日62A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models
译单个神经元足以绕过大型语言模型的安全对齐设置
Berryxia.AI@berryxia · 5月14日66ExaAILabs刚测完一个关键实验。
他们在强化学习阶段训练LLM搜索能力,一组喂Google数据,一组用他们的Exa搜索API。
结果用Exa的那组,模型性能更高,训练算力却省下了70%。
整整70%。
这个发现有点出乎意料
很多人还坚信想让AI搜索做得更好就只能靠堆更多算力。
但真实情况可能是搜索工具本身的质量和效率决定性远大于算力数量。
这对所有搞AI Agent、做RAG、训练带搜索能力大模型的团队来说是个重大信号。
我看完blog后感觉未来LLM训练的效率战可能要从选对工具开始打起。
如果你在做相关方向强烈建议去读他们的完整blog。
译ExaAILabs的一项关键实验表明,在强化学习阶段训练大语言模型的搜索能力时,使用其Exa搜索API替代Google数据,不仅能使模型达到更高性能,还可节省高达70%的训练算力。这一结果直接挑战了“提升AI搜索能力主要依赖增加算力”的普遍观点,揭示了搜索工具本身的质量与效率可能更具决定性影响。该发现为从事AI Agent、RAG以及训练具备搜索能力大模型的团队提供了重要启示,意味着未来LLM训练的效率竞争可能始于对底层工具的选择。
SiliconFlow@SiliconFlowAI · 5月14日63bravooo
译NousResearch发布了Token Superposition Training(TST),这是一种改进标准大语言模型预训练流程的方法。该技术无需改变模型架构、优化器、分词器或训练数据,即可在相同计算量(FLOPs)下实现2-3倍的训练时间加速。其核心是在训练的前三分之一阶段,让模型读取并预测连续的token包,对输入嵌入进行平均,并使用改进的交叉熵损失预测下一个token包;剩余训练时间则恢复为标准的下一个token预测。推理阶段的模型与传统预训练产生的模型完全相同。该方法已在270M、600M、3B的密集模型以及10B至1B的混合专家模型规模上得到验证。