AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态X · 359 条
全部一手资讯X论文
Berryxia.AI@berryxia · 5月1日57

你看看大模型有多重? 这个挺有意思的😂

译Pine AI首席科学家李博杰提出新方法,通过模型回答1400道冷知识题的能力来估算其参数量。原理是存储事实需占用参数空间,先利用已知开源模型拟合曲线,再将闭源模型得分投射得出估算。研究评估了92个闭源模型,结果显示GPT-5.5以约9.7T参数断层领先,Claude Opus 4.6约5.3T次之。主流旗舰模型如GPT-5、Claude Opus 4.7参数集中在3-4T量级。分析还推断GPT-5的.x版本及Claude Opus 4.7等可能是全新训练而非微调产物,并指出MoE模型的知识容量取决于总参数量。评测工具与数据已开源。

查看原推 ↗
Microsoft Research@MSFTResearch · 5月1日64

Safe agents don’t guarantee a safe ecosystem of interconnected agents. Microsoft Research examines what breaks when AI agents interact and why network-level risks require new approaches. Learn more: https://www.microsoft.com/en-us/research/blog/red-teaming-a-network-of-agents-understanding-what-breaks-when-ai-agents-interact-at-scale/

译安全的智能体并不能保证由相互连接的智能体组成的生态系统是安全的。微软研究院研究了当AI智能体交互时会出现什么问题,以及为什么网络层面的风险需要新的方法。了解更多:https://www.microsoft.com/en-us/research/blog/red-teaming-a-network-of-agents-understanding-what-breaks-when-ai-agents-interact-at-scale/

查看原推 ↗
elvis@omarsar0 · 5月1日57

// When to Retrieve During Reasoning // Pay attention to this one, AI devs. (bookmark it) Most RAG systems retrieve once, before the model starts reasoning. Large reasoning models like o1 and R1 don't work that way. They generate 12k-25k token chains of thought and hit knowledge gaps mid-inference, long after the retrieval window closed. ReaLM-Retrieve is a reasoning-aware retrieval framework that injects evidence during multi-step inference. It detects uncertainty at reasoning-step granularity (not token or sentence level), learns a policy for when external evidence actually helps, and cuts per-retrieval overhead by 3.2x. This approach achieves +10.1% absolute F1 over standard RAG across MuSiQue, HotpotQA, and 2WikiMultiHopQA, with 47% fewer retrieval calls than fixed-interval IRCoT. On 2-4 hop MuSiQue it hits 71.2% F1 with only 1.8 retrieval calls per question. If you're shipping reasoning-model RAG, your retrieval needs to know when to fire, not just what to fetch. Paper: https://arxiv.org/abs/2604.26649 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译传统RAG系统在推理前单次检索,无法满足如o1、R1等大型推理模型在生成长链思维时中途出现的知识需求。ReaLM-Retrieve提出推理感知的检索框架,能在多步推理中动态注入证据。其核心在于以推理步骤粒度检测不确定性,学习判断何时引入外部证据有效,并将单次检索开销降低3.2倍。在多个QA数据集上,该框架比标准RAG的F1绝对值提升10.1%,且检索调用次数比固定间隔的IRCoT减少47%。在2-4跳的MuSiQue任务中,仅用平均1.8次检索即可达到71.2%的F1值,表明面向推理模型的RAG需优化检索时机而不仅是检索内容。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月1日58

Frontier AI can now autonomously chain complex, expert-level cyber attacks end-to-end, at superhuman speed and near-zero marginal cost. GPT-5.5 essentially tied with Mythos Preview - within the margin of error — both far ahead of earlier models (GPT-4o, Claude Opus 4.x, etc.). - GPT-5.5: 71.4% (±8.0%) - Mythos Preview: 68.6% (±8.7%) AISI has been running controlled, realistic cybersecurity evaluations on the latest AI models. These include: - Narrow CTF-style tasks (expert-level challenges like exploiting memory corruptions, breaking crypto, reverse-engineering stripped binaries, etc.). - Multi-step “cyber range” simulations — a full 32-step corporate network attack chain (recon → initial access → lateral movement → privilege escalation → full network takeover). A human expert needs ~20 hours for this. They previously tested Mythos Preview, and now OpenAI’s GPT-5.5. One hard reverse-engineering task (custom virtual machine) takes a human expert ~12 hours with professional tools. GPT-5.5 solved it in under 11 minutes at a cost of $1.73.

译前沿AI已能以超人速度和近乎零边际成本自主完成端到端的复杂专家级网络攻击链。在AISI的网络安全评估中,GPT-5.5与Mythos Preview表现相当,均远超GPT-4o等早期模型。GPT-5.5在包含32个步骤的企业网络攻击模拟中成功完成端到端攻击,而人类专家需约20小时。在一项人类专家需12小时完成的反向工程任务中,GPT-5.5仅用11分钟、花费1.73美元即告解决。

查看原推 ↗
Anthropic@AnthropicAI · 5月1日63

How do people seek guidance from Claude? We looked at 1M conversations to understand what questions people ask, how Claude responds, and where it slips into sycophancy. We used what we found to improve how we trained Opus 4.7 and Mythos Preview. https://www.anthropic.com/research/claude-personal-guidance

译人们如何向Claude寻求指导? 我们分析了100万次对话,以了解人们提出什么问题、Claude如何回应,以及它何时会陷入阿谀奉承。我们利用这些发现改进了Opus 4.7和Mythos Preview的训练方式。 https://www.anthropic.com/research/claude-personal-guidance

查看原推 ↗
Epoch AI@EpochAIResearch · 5月1日59

How much AI compute has been smuggled to China? We estimate between 290k and 1.6M H100-equivalents by the end of 2025 — representing ~20% to ~60% of China’s total compute.

译有多少AI算力被走私到中国?我们估计到2025年底将达到29万至160万H100等效算力——约占中国总算力的20%至60%。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月1日61

Google DeepMind’s real-time video AI doctor is here. They just introduced AI co-clinician, a triadic care system built to work under a doctor’s supervision during patient care. The system is built to retrieve clinical-grade evidence, verify it, and in patient-facing simulations use a dual-agent setup where one module talks while another watches for boundary violations. It also beat other frontier models on open-ended drug questions, because real medicine arrives as messy patient cases, not multiple-choice exams. DeepMind evaluated it against the failure modes clinicians actually care about: saying the wrong thing, or failing to surface the crucial thing. In 98 realistic primary care evidence queries, physicians preferred the co-clinician to leading evidence-synthesis tools, and the system logged zero critical errors in 97 cases under their NOHARM-style evaluation.

译Google DeepMind 近日发布 AI co-clinician 协诊系统,这是一个多模态代理系统,旨在辅助医护人员,并在医生监督下运行。系统采用双代理架构:一个模块与患者对话,另一模块实时监控交互边界,能检索并验证临床级证据。在开放式药物问答中,其表现超越前沿模型,更贴合真实医疗场景的复杂性。评估聚焦临床实际关切,如避免错误陈述或遗漏关键信息。在98项初级保健模拟查询中,医生对其偏好超过主流证据合成工具;在97例NOHARM风格评估中未出现严重错误。

查看原推 ↗
Google DeepMind@GoogleDeepMind · 4月30日47

AI co-clinician is our new research initiative to help explore how multimodal agents could better support healthcare workers and patients. 🩺 Here’s a snapshot of our progress 🧵

译AI协同临床医生是我们新的研究计划,旨在探索多模态智能体如何更好地支持医护人员和患者。🩺 以下是我们进展的概览🧵

查看原推 ↗
歸藏(guizang.ai)@op7418 · 4月30日51

DeepSeek 多模态大语言模型的论文《Thinking with Visual Primitives》已经公开 底座是 DeepSeek-V4-Flash,MoE架构,总参数量 284B,激活参数量 13B。 自研 DeepSeek‑ViT 视觉编码模型,14×14 patch,输出后 3×3 空间压缩,再接入 LLM。 模型在回答时不仅进行文字推理,还会同时通过画框、打点等“视觉原语”进行思考。 在极低的 Token 成本下,其效果能和 GPT-5.4、Claude 以及 Gemini 在一些前沿指标上对齐,甚至有的指标能反超。

译该论文介绍了基于DeepSeek-V4-Flash底座的多模态大模型。其核心创新在于模型能同时进行文字推理和“视觉原语”(如画框、打点)思考。该模型以极低的Token成本,在多项前沿指标上达到了与GPT-5.4、Claude、Gemini等模型相当甚至更优的性能。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 4月30日73

New Microsoft paper shows that current AI assistants often damage documents during long editing jobs. Even the frontier models still ended up corrupting about 25% of document content on average, while many other models damaged far more. The problem is that delegated AI work only makes sense if a model can keep a document correct across many edits, not just do 1 step well. The paper tests this with reversible task pairs, where a model edits a file and then tries to undo that edit, so a reliable system should return to the original document. The authors built real work setups across 52 domains, from coding and science to accounting and music notation, and ran 19 models through 20 editing interactions. The failures were usually not lots of tiny slips but occasional big mistakes that silently broke parts of the document and then compounded over time. Agentic tool use did not help in their tests, and bigger files, longer workflows, and irrelevant extra documents made the corruption worse. The reason this matters is that current LLMs can look strong in short demos or narrow coding tasks yet still be unreliable delegates for long real-world document work. ---- Paper Link – arxiv. org/abs/2604.15597 Paper Title: "LLMs Corrupt Your Documents When You Delegate"

译微软最新论文指出,当前AI助手在执行长链条编辑任务时,普遍会损坏文档内容。研究通过可逆任务对测试了19个模型,发现即使是前沿模型平均也会破坏约25%的文档内容,且问题随文件增大、流程变长而加剧。失败模式通常不是微小失误,而是偶尔出现的重大错误,这些错误会静默破坏部分文档并随时间累积。研究表明,当前的LLM在简短演示或狭窄编码任务中可能表现良好,但作为现实世界长文档工作的委托代理仍不可靠。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 4月30日55

Anthropic's new research shows that Claude can solve real bioinformatics problems human experts miss. 23 “human-difficult” problems that their expert panel could not solve, and their top model, Claude Mythos Preview, solved 29.6% of that set. The problem is that older science tests mostly check clean questions, not messy biology data work on real datasets. BioMysteryBench tries to fix that by hiding objective answers inside real datasets and grading only the final answer. It gives Claude standard biology tools and database access on 99 tasks, while up to 5 experts try them too. On the 76 problems at least 1 expert solved, the best model got about 83%, and on 23 expert-stumping problems it got about 30%. The post also found that wins on the hard problems were much less repeatable across 5 tries, so many successes were shaky rather than dependable. Anthropic’s own examples suggest Claude is strongest when it behaves less like an oracle and more like an unusually fast research collaborator: it layers methods, cross-checks evidence, and uses broad background knowledge to narrow the search space.

译Anthropic最新研究利用BioMysteryBench测试平台评估Claude在真实生物信息学问题上的能力。该测试将客观答案隐藏于真实数据集中,涵盖99项任务。在至少一位人类专家解决的76个问题上,Claude Mythos Preview模型准确率约为83%;更值得注意的是,在23个专家小组未能解决的问题上,该模型仍解决了其中约29.6%。然而,模型在困难问题上的成功重复性较低,表明其表现尚不稳定。研究指出,Claude最有效的模式并非充当“先知”,而是扮演快速研究协作伙伴的角色:通过分层使用方法、交叉验证证据并运用广泛背景知识来缩小搜索空间。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 4月30日54

The paper proposes a way for a coding agent to rewrite its own tools and rules, then check whether each change really helped. The big deal is that it turns harness tuning from guesswork into an auditable experiment, so the part of agent systems that quietly eats the most time and effort can now improve itself in a controlled and measurable way. The problem is that agent harnesses, meaning the prompts, tools, memory, and rules around a model, are usually tuned by hand or changed through messy self-improvement loops that produce lots of edits but little clear evidence about what helped. The method, called Agentic Harness Engineering, turns those edits into file-level parts that can be changed or rolled back, compresses huge run logs into short failure evidence, and makes the agent write a prediction for each edit that later gets checked against real task results. They tested this on Terminal-Bench 2, a hard coding benchmark in a terminal, by starting from a very small shell-only harness and letting the loop run for 10 rounds while keeping the base model fixed. The single-try success rate rose from 69.7% to 77.0%, beating Codex-CLI at 71.9% and other self-evolving baselines, which suggests the gains came from better harness design rather than from swapping in a stronger model. The final harness also carried over to other models and to SWE-bench-verified, with gains of 5.1 to 10.1 points across model families and 12% fewer tokens than the seed on SWE-bench-verified, which matters because harness work is expensive and this gives a more reliable way to let that layer improve itself without drifting into random noise. ---- Paper Link – arxiv. org/abs/2604.25850 Paper Title: "Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses"

译本文提出Agentic Harness Engineering方法,使编码代理能自动重写自身工具和规则,并通过可审计实验验证每次更改的有效性。传统代理工具调整依赖手动或混乱自我改进循环,缺乏明确证据。该方法将编辑转化为文件级可回滚部分,压缩运行日志为简短失败证据,并让代理为编辑写预测后基于任务结果检查。在Terminal-Bench 2测试中,从小型shell-only工具开始,经10轮进化且基础模型固定,单次尝试成功率从69.7%提升至77.0%,超越其他基线。最终工具可迁移至其他模型和SWE-bench-verified任务,在不同模型家族获得5.1到10.1点提升,并减少12%令牌使用,为昂贵工具工作提供可靠、可控的自我改进途径。

查看原推 ↗
Chubby♨️@kimmonismus · 4月30日61

Anthropic just dropped a benchmark that should make every scientist pay attention. BioMysteryBench puts AI models through 99 real bioinformatics challenges, using raw, messy datasets from actual research, think unprocessed DNA sequences and clinical samples. However: these aren't textbook problems with neat answers. They're the kind of open-ended puzzles that keep PhD students up at night. The results are exciting. Claude's latest models (4.7) solve the majority of tasks that trained human experts can handle, and on 23 problems that a panel of five domain experts couldn't crack, Claude Mythos Preview nailed 30% of them. How? By combining knowledge from hundreds of thousands of papers and layering multiple analytical strategies when uncertain, essentially doing what a room full of specialists would do, but faster and in a single run. Genentech and Roche independently confirmed this trajectory with their own CompBioBench, where Claude Opus 4.6 reached 81% overall accuracy and 69% on the hardest questions. Two separate benchmarks, same conclusion: AI is no longer just keeping pace with biologists, it's pulling ahead on some of the hardest problems.

译Anthropic发布了BioMysteryBench基准测试,包含99个使用原始、杂乱真实生物数据集的开放式生物信息学挑战。最新Claude模型(4.7)解决了大部分人类专家能处理的任务,并在专家小组未能解决的23个难题中攻克了约30%。其能力源于整合数十万篇论文知识,并在不确定时叠加多种分析策略。Genentech和Roche的独立测试(CompBioBench)中,Claude Opus 4.6总体准确率达81%,最难问题准确率69%。两项基准共同表明,AI已在部分最困难的生物学问题上超越人类专家。

查看原推 ↗
AK@_akhaliq · 4月30日39

OmniShotCut Holistic Relational Shot Boundary Detection with Shot-Query Transformer paper: https://huggingface.co/papers/2604.24762

译OmniShotCut 基于Shot-Query Transformer的整体关系性镜头边界检测 论文: https://huggingface.co/papers/2604.24762

查看原推 ↗
Anthropic@AnthropicAI · 4月30日51

New on the Science Blog: We gave Claude 99 problems analyzing real biological data and compared its performance against an expert panel. On 23 problems, the experts were stumped. Our most recent models solved roughly 30% of those—and most of the rest.

译科学博客上新:我们给Claude出了99个分析真实生物学数据的难题,并将其表现与专家小组进行了比较。 在23个问题上,专家们被难住了。我们最新的模型解决了其中大约30%——以及其余的大部分问题。

查看原推 ↗
Anthropic@AnthropicAI · 4月30日56

In new Anthropic Fellows research, we discuss “introspection adapters": a tool that allows language models to self-report behaviors they've learned during training—including potential misalignment.

译在新的Anthropic Fellows研究中,我们探讨了“内省适配器”:这种工具能让语言模型自我报告在训练过程中习得的行为——包括潜在的错位。 [引用 @kshenoy_]:大型语言模型能否直接告诉我们它们在训练中习得的不良行为? 我们训练了一个单一的内省适配器(IA),使微调后的模型能够描述自身行为。 该方法可推广至检测隐藏的错位、后门和安全措施移除。

查看原推 ↗
elvis@omarsar0 · 4月29日55

// Agentic Harness Engineering // Pay attention to this one, AI devs. (bookmark it) Most coding-agent harnesses are still tuned by hand or brittle trial-and-error self-evolution. This new work introduces Agentic Harness Engineering, a framework that makes harness evolution observable. They do this through three layers: components as revertible files, experience as condensed evidence from millions of trajectory tokens, and decisions as falsifiable predictions checked against task outcomes. Each edit becomes a contract you can verify or revert. Results: pass@1 on Terminal-Bench 2 climbs from 69.7% to 77.0% in ten iterations, beating human-designed Codex-CLI (71.9%) and self-evolving baselines like ACE and TF-GRPO. The evolved harness also transfers across model families with +5.1 to +10.1 point gains, while using 12% fewer tokens than the seed on SWE-bench-verified. Harness work is the biggest hidden cost in most agent systems. This is the first credible recipe for letting the harness improve itself without drifting into noise. Paper: https://arxiv.org/abs/2604.25850 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译针对AI智能体开发中依赖人工调试、成本高昂且脆弱的“缰绳”设计问题,研究者提出了“智能体缰绳工程”框架。该框架通过三层设计实现可观测的进化:将组件视为可回滚的文件、从海量运行轨迹中提炼经验证据、将决策转化为可由任务结果验证的预测。每次修改都成为可验证或回滚的“合约”。实验表明,该框架在十次迭代内将Terminal-Bench 2的pass@1分数从69.7%提升至77.0%,超越人工设计与基线方法。进化后的缰绳能跨模型迁移并提升性能,同时在SWE-bench上减少12%的令牌消耗,为智能体系统的核心组件提供了首个自动化、可靠的优化方案。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 4月29日62

Long‑context breakthrough paper from AMD. Proves that long-context ability can be added after pretraining in a cheaper way, with far less memory use and only a small drop in normal short-context quality. HyLo hybrid LLM architecture extends usable context up to 2M tokens with over 90% KV‑cache reduction and gains on long‑context benchmarks like RULER The problem is that normal Transformer LLMs get costly and memory hungry on long inputs, while most newer hybrid models still need full pretraining from scratch. HyLo’s answer is structural triage. Keeps some attention layers for quality, replaces many others with cheaper layers that track long sequences with fixed memory, and starts from an already trained model. They then train the converted model in 2 stages, first to stay close to the original model and then to work at 8K and 64K context with help from a larger teacher model. Across Llama and Qwen models around 1B to 3B size, HyLo kept short-range results close to standard baselines and beat earlier upcycled hybrids on long-context tests. That matters because it gives model builders a cheaper way to get much longer context and much lower memory use without throwing away a strong existing checkpoint. Hybrid scaling may be less about inventing a brand new architecture, and more about deciding which parts of attention are truly worth keeping. ---- Paper Link – arxiv. org/abs/2604.24715v1 Paper Title: "Long-Context Aware Upcycling: A New Frontier for Hybrid LLM Scaling"

译AMD研究团队提出HyLo混合LLM架构,可在预训练后低成本为模型添加长上下文能力。该方案通过结构性筛选,保留关键注意力层以保证质量,同时用固定内存的廉价层替换多数层以追踪长序列,从而将可用上下文扩展至200万token,并减少90%以上的KV缓存。基于Llama和Qwen等1B至3B模型,HyLo在保持短上下文性能接近基准的同时,在RULER等长上下文基准测试中表现优异。这为开发者提供了一条无需废弃现有强检查点、即可低成本获得更长上下文和更低内存占用的实用路径。

查看原推 ↗
向阳乔木@vista8 · 4月29日53

姚老师和张凯经过大量数据研究分析写的论文,还有一手实战经验。 用科学的方法做GEO,像用数据洞察做增长一样。

译姚老师和张凯的GEO论文已在全球最大论文平台arxiv完成审核并发布,这是全球第二篇GEO专项研究。论文基于今年3月最新数据,涵盖大量Prompt、引用和AI抓取记录,采用科学方法进行GEO分析,类似数据驱动的增长洞察。研究成果以正式报告形式呈现,源数据已开源在GitHub。作者表示,如果对社区有帮助,将继续抓取更多数据进行专项研究并开放成果。

查看原推 ↗
Berryxia.AI@berryxia · 4月29日61

🚀 视频模型其实早就懂3D了! 微软World-R1用RL直接唤醒,无需改架构、无视频训练数据、无额外推理成本! 1. 把相机轨迹嵌入扩散噪声,零额外模块 2. 用Depth Anything 3 + Qwen3-VL做3D几何评判器 3. 周期性解耦训练,建筑保持刚性、旗帜依然飘动 4. 仅用3K条文本提示完成训练,效果惊人 视频生成迈向真实世界模拟的关键一步! 项目地址: https://github.com/microsoft/World-R1

译微软World-R1通过强化学习直接“唤醒”现有视频模型的3D理解能力,无需修改模型架构、额外视频训练数据或增加推理成本。其核心方法是将相机轨迹嵌入扩散过程的噪声中,并利用Depth Anything 3和Qwen3-VL作为3D几何评判器。通过周期性解耦训练,模型能在保持建筑刚性的同时让旗帜自然飘动。仅使用3千条文本提示完成训练,该技术被视为视频生成迈向真实世界模拟的关键一步。

查看原推 ↗
Berryxia.AI@berryxia · 4月29日52

3D 网格生成重磅突破!SATO 来了! • 从点云(Point Clouds)直接生成完整网格 • Strip-based tokenization,实现超干净边缘流与结构 • 原生 UV segmentation 直接 baked into 生成过程 • 单个模型同时支持三角网格 + 四边形网格

译3D网格生成领域出现重大突破,新方法SATO能够直接从点云生成完整的网格模型。其核心技术在于采用了基于条带的标记化方法,从而实现了极其干净、结构清晰的边缘流。该模型在生成过程中原生集成了UV分割,简化了后续纹理贴图流程。此外,SATO的一个显著优势是单个模型能同时支持生成三角网格和四边形网格,提供了更高的灵活性和应用潜力。

查看原推 ↗
elvis@omarsar0 · 4月29日57

// From Skill Text to Skill Structure // One of the more practical skill papers I've seen this month. SKILL.md files entangle invocation interface, execution flow, and tool/resource side effects in one blob of natural language. This makes downstream discovery and risk review brittle. New research proposes SSL, a three-layer typed JSON representation: a Scheduling layer for invocation signals, a Structural layer for execution scenes, and a Logical layer for atomic actions and resource use. It's drawn from Schank and Abelson's classical work on scripts, MOPs, and conceptual dependency. An LLM-based normalizer converts existing SKILL.md files into this structure. The numbers: Skill Discovery MRR jumps from 0.573 to 0.707, and Risk Assessment macro F1 from 0.744 to 0.787. They release a 6,184-skill corpus, 403 task queries, and 500 risk-labeled skills. As skill registries scale, you can't keep treating capability packages as unstructured prose. Paper: https://arxiv.org/abs/2604.24026 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译SKILL.md文件将调用接口、执行流程和工具副作用混合在自然语言中,导致技能发现和风险评估脆弱。新研究提出SSL三层类型化JSON表示:调度层处理调用信号,结构层管理执行场景,逻辑层定义原子动作和资源使用,基于Schank和Abelson的脚本理论。通过LLM规范化器转换现有文件,技能发现MRR从0.573提升至0.707,风险评估宏观F1从0.744提升至0.787。研究发布了6,184技能语料库、403任务查询和500风险标记技能,强调随着技能注册表扩展,需结构化表示以提升管理效率。

查看原推 ↗
宝玉@dotey · 4月29日61

港科大、新加坡国立、牛津等十余所高校联合发了一篇 88 页的综述,试图解决一个越来越尴尬的问题:“世界模型”这四个字在不同圈子里意思完全不同。 做强化学习的说的是 Dreamer 那种在脑子里想象未来再决策的系统,做视频生成的说的是 Sora 那种画面生成器,做 Web Agent 的说的是 LLM 对网页状态的预测能力。大家各说各的,论文之间根本没法比。这篇论文提出了一个“能力等级 x 领域法则”的二维框架,想把这些散落的社区拉到同一张地图上。 能力分三层: L1 预测器只管预测下一步, L2 模拟器能做多步推演且推演结果要遵守所在领域的基本规则(物理世界不能让杯子穿桌子,软件世界不能调不存在的 API), L3 进化器能在预测出错时主动诊断原因、设计实验获取新数据、修正自身模型。 领域分四类: 物理世界(机器人、自动驾驶)、 数字世界(网页浏览器、代码、GUI)、 社会世界(多智能体交互、社会模拟)、 科学世界(天气预报、材料发现、药物设计)。 每个领域对“什么算合法的状态转换”有完全不同的约束,失败模式也不同。 综述 400 多篇工作后有几个跨领域的共性发现: 视频生成模型视觉逼真度远超物理忠实度,最好的模型在物理一致性测试上通过率只有 26.2%; LLM 驱动的社会模拟能复现舆论极化等涌现现象,但智能体有系统性的趋同偏差,跟真实人类行为分布偏离大; 目前 L3 做得最成熟的是自动化科学实验,比如 A-Lab 用机械臂在 17 天内完成 353 次闭环实验合成了 36 种化合物,失败实验被提炼为持久知识而非丢弃。 论文末尾有个观察: 从牛顿定律到麦克斯韦方程,人类历史上最成功的世界模型全是符号化的、可直接修改和组合的。 现在的神经网络把所有规则藏在权重里,L1 和 L2 阶段够用,但到了需要修改模型结构本身的 L3,这种隐式表示就成了障碍。 世界模型的终局,是越来越大的神经网络,还是终究要回到可编辑的符号规则?

译针对“世界模型”概念在强化学习、视频生成等不同社区含义割裂的问题,一篇由港科大、新加坡国立、牛津等多所高校联合发表的综述提出了“能力等级×领域法则”的二维统一框架。能力分为L1预测器、L2模拟器和L3进化器;领域涵盖物理、数字、社会和科学世界。综述发现,当前视频生成模型物理一致性差,LLM社会模拟存在行为偏差,而L3能力在自动化科学实验中最成熟。论文最后指出,神经网络隐式表示的规则在需要自我修正的L3阶段可能成为障碍,并引发了对世界模型终局形态的思考。

查看原推 ↗
Epoch AI@EpochAIResearch · 4月29日59

GPT-5.5 Pro achieves a new high score of 159 on the Epoch Capabilities Index! ECI is our statistical tool that combines multiple benchmarks into a unified scale.

译GPT-5.5 Pro 在 Epoch Capabilities Index 上创下 159 分的新高分!ECI 是我们的统计工具,它将多个基准测试整合到一个统一的量表中。

查看原推 ↗
AK@_akhaliq · 4月29日66

Meta presents Tuna-2 Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation paper: https://huggingface.co/papers/2604.24763

译Meta 推出 Tuna-2 像素嵌入优于视觉编码器,用于多模态理解与生成 paper: https://huggingface.co/papers/2604.24763

查看原推 ↗
AK@_akhaliq · 4月29日57

Meta presents TUNA Taming Unified Visual Representations for Native Unified Multimodal Models paper: https://huggingface.co/papers/2512.02014

译Meta 推出 TUNA 驯服统一视觉表示以构建原生统一多模态模型 论文:https://huggingface.co/papers/2512.02014

查看原推 ↗
AK@_akhaliq · 4月29日57

From Skills to Talent Organising Heterogeneous Agents as a Real-World Company paper: https://huggingface.co/papers/2604.22446

译从技能到人才 将异构智能体组织为现实世界的公司 论文: https://huggingface.co/papers/2604.22446

查看原推 ↗
AK@_akhaliq · 4月29日58

Apple presents Stochastic KV Routing Enabling Adaptive Depth-Wise Cache Sharing paper: https://huggingface.co/papers/2604.22782

译Apple 推出随机键值路由 实现自适应深度缓存共享 论文: https://huggingface.co/papers/2604.22782

查看原推 ↗
AK@_akhaliq · 4月29日53

Microsoft presents World-R1 Reinforcing 3D Constraints for Text-to-Video Generation paper: https://huggingface.co/papers/2604.24764

译微软推出 World-R1 强化文本到视频生成的3D约束 论文: https://huggingface.co/papers/2604.24764

查看原推 ↗
Rohan Paul@rohanpaul_ai · 4月28日48

Great survey paper on better AI memory. Modern AI needs three different memory systems: weights for slow, durable knowledge, retrieval for fresh and specific facts, and agent memory for ongoing goals, preferences, and experience. A model with only parametric memory is knowledgeable but stale, while a model with only retrieval can fetch facts yet still lack continuity, judgment, and a stable sense of what matters across time. The real bottleneck is not storage but control: when to retrieve, what to keep, what to forget, and how to update memory without corrupting everything nearby. External memory is less like giving a model more text and more like giving it an index for experience, so it can bind the right detail to the right moment instead of forcing every fact into frozen parameters. The point is that memory turns AI from a predictor into a system. Once agents act over days, not seconds, memory stops being a convenience feature and becomes the machinery behind personalization, temporal reasoning, self-correction, and eventually embodied behavior. The paper is also careful about what remains unsolved. Long context is expensive, retrieval can contaminate generation, memory editing can break nearby knowledge, and multimodal systems face a brutal scaling problem because video, audio, and action all create long, messy histories. So the distance from human memory is still large. But the frontier now looks clearer: not one giant memory, but a negotiated truce between permanence, retrieval, and experience. ---- Paper Link – arxiv. org/abs/2601.09113 Paper Title: "The AI Hippocampus: How Far are They From Human Memory?"

译现代AI需要三类记忆系统:存储持久知识的参数记忆、获取新鲜事实的检索记忆,以及记录目标与经验的智能体记忆。单一记忆模式存在局限,核心瓶颈在于记忆控制机制——如何协调检索、保留与更新。外部记忆为AI提供了经验索引,使其能从静态预测器转变为能长期运作、具备个性化与时序推理能力的系统。当前挑战包括长上下文成本高、检索干扰生成、记忆编辑破坏关联知识,以及多模态数据的扩展难题。未来方向在于协调永久存储、检索与经验记忆三者关系,而非构建单一巨型记忆。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 4月28日47

AI agents fail not at calling tools, but at coordinating many tools reliably over time. This paper is a comprehensive review of recent progress in multi-tool LLM agents. The main proposal is to treat multi tool orchestration as its own problem, meaning the agent must choose, order, monitor, and sometimes redo many tool actions. The authors review the field across 6 linked areas: planning at run time, training data and tuning, safety, efficiency, missing tool handling, and benchmarks that test harder interactive tasks. Their main finding is that progress now depends less on single call accuracy and more on graph style planning, memory, verification, rollback, and better ways to evaluate long running tool use. That matters because an agent can look smart on a small demo yet still fail badly in software work, enterprise systems, phones, or web tasks if it cannot keep state straight and recover safely. And also current benchmarks and research are shifting away from simple single-call tests toward harder real-world tests where agents must stay reliable over long tool chains. ---- Paper Link – arxiv. org/abs/2603.22862v2 Paper Title: "The Evolution of Tool Use in LLM Agents: From Single-Tool Call to Multi-Tool Orchestration"

译本文综述多工具LLM智能体的进展,指出其核心失败原因在于长时间协调多个工具的可靠性不足,而非单次工具调用。论文将多工具编排视为独立问题,要求智能体处理工具的选择、排序、监控与重试。作者从运行时规划、训练数据与调优、安全性、效率、缺失工具处理及更复杂的交互任务基准六个领域回顾现状。关键发现是,进展更依赖于图式规划、记忆、验证、回滚以及更好的长周期工具使用评估方法,而非单次调用准确性。当前研究与基准正从简单的单次调用测试转向更贴近现实、要求智能体在长工具链中保持可靠性的硬任务测试。

查看原推 ↗
meng shao@shao__meng · 4月28日71

VLAA-GUI: 让 GUI 智能体学会"停下、恢复、搜索" GUI 智能体的瓶颈不是模型不够强,而是缺少"何时停、何时换路、何时查资料"的强制机制。现在 GUI 智能体们的常见问题: · 假性成功:OSWorld 上 86%+ 的失败是智能体自以为做完了。 · 死循环:在同一动作或界面间反复打转,烧光步数。 VLAA-GUI 方法论:三个模块 · STOP Completeness Verifier:把任务改写为可视化成功标准;独立模型复审 done(),证据不足即驳回 · RECOVER Loop Breaker:三级递进:换交互模态 → 换整体策略 → 外部裁判禁用重复动作 · SEARCH Search Agent:直接把"How to..."丢给搜索型 LLM,返回纯文本教程注入上下文(避开浏览器视觉链) 关键数据 OSWorld-Verified(人类 72.4%) · VLAA-GUI + Opus 4.6 → 77.5%(首次超人类,新 SOTA) · Opus 4.5 / Gemini 3.1 Pro 同框架下也越过人类线 · Sonnet 4.6 仅 15 步即 64.1%,超过此前最佳 50 步系统 WindowsAgentArena · Gemini 3 Flash + VLAA-GUI → 61.0%(SOTA,比 GPT-5 系高 ~4%) 消融(WAA, 满分 60.4) · 去 Verifier → 51.3 / 去 Loop Breaker → 52.6 / 去 Search → 49.4(三者皆不可少) 项目地址: https://ucsc-vlaa.github.io/VLAA-GUI/

译研究指出,当前GUI智能体的核心瓶颈在于系统设计,而非模型能力,表现为假性成功和死循环等问题。VLAA-GUI框架通过三个模块应对:STOP验证器确保任务真正完成,RECOVER循环中断器打破重复操作,SEARCH代理直接获取外部知识。在OSWorld基准测试中,该框架助力Opus 4.6模型取得77.5%的成功率,首次超越人类水平(72.4%);在WindowsAgentArena上,结合Gemini 3.1 Flash也以61.0%创下新纪录。这表明,精心的系统设计与强大的模型能力同等重要。

查看原推 ↗
Ethan Mollick@emollick · 4月28日60

This is an incredibly cool experiment It is also fascinating that the model knows information up to 1931, but, at least in some science topics, seems very stuck in the early 1900s. For example, it defends the lumiferous aether hypothesis & has a distrust of special relativity

译研究人员推出了仅使用1931年前文本训练的13B模型Talkie,旨在探索语言模型的泛化能力。该实验发现,模型虽掌握截至1931年的信息,但在某些科学议题上明显停留在20世纪初的认知框架中。例如,它仍坚持“发光以太”假说,并对狭义相对论表现出不信任。这凸显了训练数据的时间范围会深刻固化模型的知识体系与世界观。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 4月28日56

Optimizing RAG for precision can quietly hurt retrieval accuracy by 40%, putting agentic pipelines at risk. Redis says in new research that enterprise teams fine-tuning RAG embedding models for improved precision may be unknowingly reducing the retrieval quality those pipelines need. Training embeddings to notice meaning-level edits can damage the retrieval they were built for. This paper says 1 embedding cannot do broad search and exact meaning checks at the same time. The reason is simple. A dense retriever squeezes an entire sentence into one vector, then asks cosine similarity to decide both topical relevance and exact meaning. That works well when the job is broad recall. It works much less well when the difference is structural, like “the dog bit the man” versus “the man bit the dog,” or a negation that reverses the claim. Here’s the deeper point. When you force one embedding to separate those near-misses, you spend representational space that was previously helping the model group related material across domains. The paper shows that this extra sensitivity is uneven. Negation and spatial flips improve, but binding errors remain stubborn, which is precisely the kind of mistake that matters in contracts, compliance, and other role-sensitive work. So the fix is not to keep squeezing harder on the same vector. The better design is two-stage retrieval: use embeddings for fast recall, then verify the shortlisted results with token-level comparisons that can actually see structure. That is also why MaxSim helps relevance but still misses identity-level errors, while a small Transformer over token similarity maps does better at rejecting near-misses. The real lesson is not that RAG fails. It is that “almost the same sentence” is not the same thing as “the same meaning,” and systems that blur those two will fail most confidently where precision matters most. ---- Paper Link – arxiv. org/abs/2604.16351 Paper Title: "Training for Compositional Sensitivity Reduces Dense Retrieval Generalization"

译最新研究发现,企业为提升精确性而微调RAG嵌入模型,可能导致检索质量下降高达40%。其核心矛盾在于,单个密集嵌入向量被同时要求承担广泛主题召回和精确语义判别的双重任务。当强制模型区分细微结构差异(如否定、语序颠倒)时,会损害其跨领域聚合相关材料的能力。解决方案是采用两阶段检索:先用嵌入模型快速召回,再通过能感知结构的词元级比对来验证候选结果。这揭示了“几乎相同的句子”与“相同含义”本质不同,在合同、合规等高精度领域混淆二者将导致系统关键失效。

查看原推 ↗
AK@_akhaliq · 4月28日49

Building a Precise Video Language with Human-AI Oversight paper: https://huggingface.co/papers/2604.21718

译构建一个由人类与AI监督的精确视频语言 paper: https://huggingface.co/papers/2604.21718

查看原推 ↗
AK@_akhaliq · 4月28日53

Agentic World Modeling Foundations, Capabilities, Laws, and Beyond paper: https://huggingface.co/papers/2604.22748

译能动世界建模 基础、能力、法则与超越 论文: https://huggingface.co/papers/2604.22748

查看原推 ↗
AK@_akhaliq · 4月28日48

Video Analysis and Generation via a Semantic Progress Function paper: https://huggingface.co/papers/2604.22554

译通过语义进展函数进行视频分析与生成 paper: https://huggingface.co/papers/2604.22554

查看原推 ↗
elvis@omarsar0 · 4月28日69

How do AI agents spend your money:

译一项针对AI智能体在编码任务中token消耗成本的系统性研究发现,其消耗量可达聊天或代码推理的约1000倍,且相同任务在不同运行中的消耗差异高达30倍。更高的token支出并不直接带来更高的准确性,性能在中等成本时达到峰值后趋于饱和。模型自身也难以预测其token使用量,自我预测相关性最高仅0.39。不同模型在相同任务上可能多消耗150万token而并无质量提升。这表明智能体的运行时成本具有高方差、与质量关联弱、甚至模型自身也无法预测的特性,这将影响团队的预算规划、模型间路由策略以及终止任务运行的决策。

查看原推 ↗
elvis@omarsar0 · 4月27日63

// Agentic World Modeling // Massive 40-author survey just dropped. Cleanest taxonomy of world models in agent research I've seen. (bookmark it) The paper proposes a "levels × laws" framework. Three capability levels: > L1 Predictors do one-step transitions > L2 Simulators do multi-step action-conditioned rollouts > L3 Evolvers self-revise as the world changes It discusses four law regimes, including physical, digital, social, scientific. They synthesize 400+ works and 100+ representative systems spanning model-based RL, video generation, web/GUI agents, multi-agent simulation, and scientific discovery. The framework also identifies failure modes and proposes evaluation principles for each level. Why it matters: as agents shift from chatbots to goal-accomplishers, the bottleneck moves from language to environment. This is the first paper that gives builders a shared vocabulary for designing and evaluating world models across communities that have been working in isolation. Paper: https://arxiv.org/abs/2604.22748 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译一篇由40位作者完成的综述论文提出了一个用于智能体研究的“能力层级×法则体系”世界模型分类框架。三个能力层级包括:进行单步预测的L1预测器、执行多步行动条件推演的L2模拟器,以及能随世界变化自我修订的L3演化器。法则体系涵盖物理、数字、社会与科学四大领域。该框架综合了400多篇文献和100多个代表性系统,覆盖基于模型的强化学习、视频生成、网页/GUI智能体、多智能体模拟和科学发现等领域,并识别了各层级的失败模式与评估原则。其核心价值在于,当智能体从聊天机器人转向目标达成者时,瓶颈从语言转向环境,此框架为不同领域的研究者提供了设计和评估世界模型的共同语言。

查看原推 ↗
elvis@omarsar0 · 4月27日62

I consider this one of the most interesting research themes happening in AI today. Worth taking a look. As I automate more with agents, I feel like there is all kinds of incredible opportunities to optimize multi-agent systems to do things like automated knowledge discovery or tuning advanced AI systems that gauge other AI agents at software engineering or AI engineering tasks. All kinds of new agent architectures, algorithms, prompting techniques, and data processing and synthesis techniques just waiting to be discovered.

译推文作者指出,优化多智能体系统以实现自动化知识发现或调优高级AI系统是当前AI领域极具潜力的方向。文中引用的研究通过强化学习训练“指挥家”模型,使其能自动管理其他模型:针对简单问题直接查询单一模型,面对复杂编码任务则自主组建包含规划器、编码器和验证器的完整流程。这标志着从单智能体“思维链”向多智能体“指挥链”的演进,相关技术已应用于Sakana Fugu等新系统,展现了AI管理AI范式的广阔探索空间。

查看原推 ↗
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月1日
08:10
Berryxia.AI@berryxia
57
Pine AI首席科学家李博杰提出新方法,通过模型回答1400道冷知识题的能力来估算其参数量。原理是存储事实需占用参数空间,先利用已知开源模型拟合曲线,再将闭源模型得分投射得出估算。研究评估了92个闭源模型,结果显示GPT-5.5以约9.7T参数断层领先,Claude Opus 4.6约5.3T次之。主流旗舰模型如GPT-5、Claude Opus 4.7参数集中在3-4T量级。分析还推断GPT-5的.x版本及Claude Opus 4.7等可能是全新训练而非微调产物,并指出MoE模型的知识容量取决于总参数量。评测工具与数据已开源。

思维怪怪: 有人做了一个很好玩的研究,用冷知识来给大模型称体重,得出结论:GPT-5.5 约 9.7T、Opus 4.7 约 4T、Grok-4 约3.2T。。。 Pine AI 首席科学家李博杰发表论文《不可压缩知识探针:基于事实容量估算黑盒大语言模...

AnthropicOpenAI数据/训练论文/研究
06:15
Microsoft Research@MSFTResearch
64
安全的智能体并不能保证由相互连接的智能体组成的生态系统是安全的。微软研究院研究了当AI智能体交互时会出现什么问题,以及为什么网络层面的风险需要新的方法。了解更多:https://www.microsoft.com/en-us/research/blog/red-teaming-a-network-of-agents-understanding-what-breaks-when-ai-agents-interact-at-scale/
智能体Microsoft安全/对齐论文/研究
05:14
elvis@omarsar0
57
在推理过程中何时检索

传统RAG系统在推理前单次检索,无法满足如o1、R1等大型推理模型在生成长链思维时中途出现的知识需求。ReaLM-Retrieve提出推理感知的检索框架,能在多步推理中动态注入证据。其核心在于以推理步骤粒度检测不确定性,学习判断何时引入外部证据有效,并将单次检索开销降低3.2倍。在多个QA数据集上,该框架比标准RAG的F1绝对值提升10.1%,且检索调用次数比固定间隔的IRCoT减少47%。在2-4跳的MuSiQue任务中,仅用平均1.8次检索即可达到71.2%的F1值,表明面向推理模型的RAG需优化检索时机而不仅是检索内容。

检索增强推理论文/研究
04:39
Rohan Paul@rohanpaul_ai
58
前沿AI能以超人速度自主实施端到端复杂网络攻击

前沿AI已能以超人速度和近乎零边际成本自主完成端到端的复杂专家级网络攻击链。在AISI的网络安全评估中,GPT-5.5与Mythos Preview表现相当,均远超GPT-4o等早期模型。GPT-5.5在包含32个步骤的企业网络攻击模拟中成功完成端到端攻击,而人类专家需约20小时。在一项人类专家需12小时完成的反向工程任务中,GPT-5.5仅用11分钟、花费1.73美元即告解决。

AI Security Institute: OpenAI's GPT-5.5 is the second model to complete one of our multi-step cyber-attack simulations end-to-end 🧵

OpenAI安全/对齐评测/基准
关联讨论 2 条Simon Willison 博客The Decoder:AI News(RSS)
03:16
Anthropic@AnthropicAI
精选63
人们如何向Claude寻求指导? 我们分析了100万次对话,以了解人们提出什么问题、Claude如何回应,以及它何时会陷入阿谀奉承。我们利用这些发现改进了Opus 4.7和Mythos Preview的训练方式。 https://www.anthropic.com/research/claude-personal-guidance
Anthropic安全/对齐数据/训练

推荐理由:百万条真实对话里扒出谄媚模式,Anthropic 没光发论文,直接把结论灌进 Opus 4.7 训练,做助手的值得细看用户到底在问什么、模型又怎么滑向讨好。
03:14
Epoch AI@EpochAIResearch
59
有多少AI算力被走私到中国?我们估计到2025年底将达到29万至160万H100等效算力--约占中国总算力的20%至60%。
数据/训练现象/趋势论文/研究
02:39
Rohan Paul@rohanpaul_ai
61
Google DeepMind 推出实时视频AI协诊系统

Google DeepMind 近日发布 AI co-clinician 协诊系统,这是一个多模态代理系统,旨在辅助医护人员,并在医生监督下运行。系统采用双代理架构:一个模块与患者对话,另一模块实时监控交互边界,能检索并验证临床级证据。在开放式药物问答中,其表现超越前沿模型,更贴合真实医疗场景的复杂性。评估聚焦临床实际关切,如避免错误陈述或遗漏关键信息。在98项初级保健模拟查询中,医生对其偏好超过主流证据合成工具;在97例NOHARM风格评估中未出现严重错误。

Google DeepMind: AI co-clinician is our new research initiative to help explore how multimodal agents could better support healthcare wor...

DeepMind多模态论文/研究
4月30日
23:14
Google DeepMind@GoogleDeepMind
47
AI协同临床医生是我们新的研究计划,旨在探索多模态智能体如何更好地支持医护人员和患者。🩺 以下是我们进展的概览🧵
智能体DeepMindGoogle多模态
20:11
歸藏(guizang.ai)@op7418
51
DeepSeek 多模态大语言模型的论文《Thinking with Visual Primitives》已经公开

该论文介绍了基于DeepSeek-V4-Flash底座的多模态大模型。其核心创新在于模型能同时进行文字推理和“视觉原语”(如画框、打点)思考。该模型以极低的Token成本,在多项前沿指标上达到了与GPT-5.4、Claude、Gemini等模型相当甚至更优的性能。

DeepSeek多模态论文/研究
关联讨论 2 条X:Vista (@vista8)IT之家(RSS)
17:39
Rohan Paul@rohanpaul_ai
73
微软研究揭示AI助手在长文档编辑中普遍损坏内容

微软最新论文指出,当前AI助手在执行长链条编辑任务时,普遍会损坏文档内容。研究通过可逆任务对测试了19个模型,发现即使是前沿模型平均也会破坏约25%的文档内容,且问题随文件增大、流程变长而加剧。失败模式通常不是微小失误,而是偶尔出现的重大错误,这些错误会静默破坏部分文档并随时间累积。研究表明,当前的LLM在简短演示或狭窄编码任务中可能表现良好,但作为现实世界长文档工作的委托代理仍不可靠。

智能体Microsoft论文/研究
17:39
Rohan Paul@rohanpaul_ai
55
Anthropic研究显示Claude能解决人类专家遗漏的真实生物信息学问题

Anthropic最新研究利用BioMysteryBench测试平台评估Claude在真实生物信息学问题上的能力。该测试将客观答案隐藏于真实数据集中,涵盖99项任务。在至少一位人类专家解决的76个问题上,Claude Mythos Preview模型准确率约为83%;更值得注意的是,在23个专家小组未能解决的问题上,该模型仍解决了其中约29.6%。然而,模型在困难问题上的成功重复性较低,表明其表现尚不稳定。研究指出,Claude最有效的模式并非充当“先知”,而是扮演快速研究协作伙伴的角色:通过分层使用方法、交叉验证证据并运用广泛背景知识来缩小搜索空间。

Anthropic数据/训练论文/研究
关联讨论 1 条Anthropic:Research(发表成果 · 网页)
17:09
Rohan Paul@rohanpaul_ai
54
代理性工具工程:基于可观测性的编码代理工具自动演化

本文提出Agentic Harness Engineering方法,使编码代理能自动重写自身工具和规则,并通过可审计实验验证每次更改的有效性。传统代理工具调整依赖手动或混乱自我改进循环,缺乏明确证据。该方法将编辑转化为文件级可回滚部分,压缩运行日志为简短失败证据,并让代理为编辑写预测后基于任务结果检查。在Terminal-Bench 2测试中,从小型shell-only工具开始,经10轮进化且基础模型固定,单次尝试成功率从69.7%提升至77.0%,超越其他基线。最终工具可迁移至其他模型和SWE-bench-verified任务,在不同模型家族获得5.1到10.1点提升,并减少12%令牌使用,为昂贵工具工作提供可靠、可控的自我改进途径。

智能体arXiv编码论文/研究
16:39
Chubby♨️@kimmonismus
61
Anthropic发布BioMysteryBench基准,AI在复杂生物信息学难题上开始超越人类专家

Anthropic发布了BioMysteryBench基准测试,包含99个使用原始、杂乱真实生物数据集的开放式生物信息学挑战。最新Claude模型(4.7)解决了大部分人类专家能处理的任务,并在专家小组未能解决的23个难题中攻克了约30%。其能力源于整合数十万篇论文知识,并在不确定时叠加多种分析策略。Genentech和Roche的独立测试(CompBioBench)中,Claude Opus 4.6总体准确率达81%,最难问题准确率69%。两项基准共同表明,AI已在部分最困难的生物学问题上超越人类专家。

Anthropic: New on the Science Blog: We gave Claude 99 problems analyzing real biological data and compared its performance against ...

Anthropic数据/训练论文/研究
09:11
AK@_akhaliq
39
OmniShotCut 基于Shot-Query Transformer的整体关系性镜头边界检测 论文: https://huggingface.co/papers/2604.24762
视频论文/研究
07:08
Anthropic@AnthropicAI
51
科学博客上新:我们给Claude出了99个分析真实生物学数据的难题,并将其表现与专家小组进行了比较。 在23个问题上,专家们被难住了。我们最新的模型解决了其中大约30%--以及其余的大部分问题。
Anthropic推理论文/研究
04:08
Anthropic@AnthropicAI
56
在新的Anthropic Fellows研究中,我们探讨了"内省适配器":这种工具能让语言模型自我报告在训练过程中习得的行为--包括潜在的错位。 【引用 @kshenoy_】:大型语言模型能否直接告诉我们它们在训练中习得的不良行为? 我们训练了一个单一的内省适配器(IA),使微调后的模型能够描述自身行为。 该方法可推广至检测隐藏的错位、后门和安全措施移除。

keshav: Can LLMs simply tell us about unwanted behaviors they've picked up in training? We train a single Introspection Adapter ...

Anthropic数据/训练论文/研究
4月29日
22:43
elvis@omarsar0
55
智能体缰绳工程:实现AI智能体核心组件的可观测自动化进化

针对AI智能体开发中依赖人工调试、成本高昂且脆弱的“缰绳”设计问题,研究者提出了“智能体缰绳工程”框架。该框架通过三层设计实现可观测的进化:将组件视为可回滚的文件、从海量运行轨迹中提炼经验证据、将决策转化为可由任务结果验证的预测。每次修改都成为可验证或回滚的“合约”。实验表明,该框架在十次迭代内将Terminal-Bench 2的pass@1分数从69.7%提升至77.0%,超越人工设计与基线方法。进化后的缰绳能跨模型迁移并提升性能,同时在SWE-bench上减少12%的令牌消耗,为智能体系统的核心组件提供了首个自动化、可靠的优化方案。

智能体arXivMCP/工具编码
16:38
Rohan Paul@rohanpaul_ai
62
AMD提出长上下文混合LLM架构HyLo,实现低成本能力升级

AMD研究团队提出HyLo混合LLM架构,可在预训练后低成本为模型添加长上下文能力。该方案通过结构性筛选,保留关键注意力层以保证质量,同时用固定内存的廉价层替换多数层以追踪长序列,从而将可用上下文扩展至200万token,并减少90%以上的KV缓存。基于Llama和Qwen等1B至3B模型,HyLo在保持短上下文性能接近基准的同时,在RULER等长上下文基准测试中表现优异。这为开发者提供了一条无需废弃现有强检查点、即可低成本获得更长上下文和更低内存占用的实用路径。

推理论文/研究
11:11
向阳乔木@vista8
53
姚老师和张凯的GEO论文已在全球最大论文平台arxiv完成审核并发布,这是全球第二篇GEO专项研究。论文基于今年3月最新数据,涵盖大量Prompt、引用和AI抓取记录,采用科学方法进行GEO分析,类似数据驱动的增长洞察。研究成果以正式报告形式呈现,源数据已开源在GitHub。作者表示,如果对社区有帮助,将继续抓取更多数据进行专项研究并开放成果。

姚金刚: 我和张凯的GEO论文,在全球最大的论文平台http://arxiv.org完成审核并正式发布 这应该是全球第二篇与GEO有关的专项论文 论文基于今年3月份最新的数据,包括602条 Prompt、21143 条引用、23745条AI抓取记录,...

arXiv搜索数据/训练论文/研究
07:38
Berryxia.AI@berryxia
61
微软World-R1唤醒视频模型3D理解能力

微软World-R1通过强化学习直接“唤醒”现有视频模型的3D理解能力,无需修改模型架构、额外视频训练数据或增加推理成本。其核心方法是将相机轨迹嵌入扩散过程的噪声中,并利用Depth Anything 3和Qwen3-VL作为3D几何评判器。通过周期性解耦训练,模型能在保持建筑刚性的同时让旗帜自然飘动。仅使用3千条文本提示完成训练,该技术被视为视频生成迈向真实世界模拟的关键一步。

Microsoft论文/研究
07:38
Berryxia.AI@berryxia
52
SATO实现从点云直接生成高质量3D网格

3D网格生成领域出现重大突破,新方法SATO能够直接从点云生成完整的网格模型。其核心技术在于采用了基于条带的标记化方法,从而实现了极其干净、结构清晰的边缘流。该模型在生成过程中原生集成了UV分割,简化了后续纹理贴图流程。此外,SATO的一个显著优势是单个模型能同时支持生成三角网格和四边形网格,提供了更高的灵活性和应用潜力。

多模态论文/研究
06:41
elvis@omarsar0
57
从技能文本到技能结构

SKILL.md文件将调用接口、执行流程和工具副作用混合在自然语言中,导致技能发现和风险评估脆弱。新研究提出SSL三层类型化JSON表示:调度层处理调用信号,结构层管理执行场景,逻辑层定义原子动作和资源使用,基于Schank和Abelson的脚本理论。通过LLM规范化器转换现有文件,技能发现MRR从0.573提升至0.707,风险评估宏观F1从0.744提升至0.787。研究发布了6,184技能语料库、403任务查询和500风险标记技能,强调随着技能注册表扩展,需结构化表示以提升管理效率。

智能体MCP/工具开源/仓库论文/研究
02:10
宝玉@dotey
61
多校联合综述提出统一框架,厘清"世界模型"概念割裂问题

针对“世界模型”概念在强化学习、视频生成等不同社区含义割裂的问题,一篇由港科大、新加坡国立、牛津等多所高校联合发表的综述提出了“能力等级×领域法则”的二维统一框架。能力分为L1预测器、L2模拟器和L3进化器;领域涵盖物理、数字、社会和科学世界。综述发现,当前视频生成模型物理一致性差,LLM社会模拟存在行为偏差,而L3能力在自动化科学实验中最成熟。论文最后指出,神经网络隐式表示的规则在需要自我修正的L3阶段可能成为障碍,并引发了对世界模型终局形态的思考。

Trueman (CHU Meng): 🚀 Our new preprint is out: Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond It also reached #1 on Hu...

具身智能现象/趋势论文/研究
02:09
Epoch AI@EpochAIResearch
59
GPT-5.5 Pro 在 Epoch Capabilities Index 上创下 159 分的新高分!ECI 是我们的统计工具,它将多个基准测试整合到一个统一的量表中。
OpenAI模型发布评测/基准
01:38
AK@_akhaliq
66
Meta 推出 Tuna-2 像素嵌入优于视觉编码器,用于多模态理解与生成 paper: https://huggingface.co/papers/2604.24763
Meta多模态论文/研究
01:08
AK@_akhaliq
57
Meta 推出 TUNA 驯服统一视觉表示以构建原生统一多模态模型 论文:https://huggingface.co/papers/2512.02014
Meta多模态论文/研究
00:38
AK@_akhaliq
57
从技能到人才 将异构智能体组织为现实世界的公司 论文: https://huggingface.co/papers/2604.22446
智能体Hugging Face论文/研究
00:38
AK@_akhaliq
58
Apple 推出随机键值路由 实现自适应深度缓存共享 论文: https://huggingface.co/papers/2604.22782
论文/研究部署/工程
00:08
AK@_akhaliq
53
微软推出 World-R1 强化文本到视频生成的3D约束 论文: https://huggingface.co/papers/2604.24764
Microsoft视频论文/研究
4月28日
20:36
Rohan Paul@rohanpaul_ai
48
AI海马体:距离人类记忆还有多远?

现代AI需要三类记忆系统:存储持久知识的参数记忆、获取新鲜事实的检索记忆,以及记录目标与经验的智能体记忆。单一记忆模式存在局限,核心瓶颈在于记忆控制机制——如何协调检索、保留与更新。外部记忆为AI提供了经验索引,使其能从静态预测器转变为能长期运作、具备个性化与时序推理能力的系统。当前挑战包括长上下文成本高、检索干扰生成、记忆编辑破坏关联知识,以及多模态数据的扩展难题。未来方向在于协调永久存储、检索与经验记忆三者关系,而非构建单一巨型记忆。

智能体检索增强论文/研究
20:06
Rohan Paul@rohanpaul_ai
47
AI智能体的核心失败点:非单次工具调用,而是长时间多工具协调

本文综述多工具LLM智能体的进展,指出其核心失败原因在于长时间协调多个工具的可靠性不足,而非单次工具调用。论文将多工具编排视为独立问题,要求智能体处理工具的选择、排序、监控与重试。作者从运行时规划、训练数据与调优、安全性、效率、缺失工具处理及更复杂的交互任务基准六个领域回顾现状。关键发现是,进展更依赖于图式规划、记忆、验证、回滚以及更好的长周期工具使用评估方法,而非单次调用准确性。当前研究与基准正从简单的单次调用测试转向更贴近现实、要求智能体在长工具链中保持可靠性的硬任务测试。

智能体MCP/工具论文/研究
09:55
meng shao@shao__meng
71
VLAA-GUI: 让 GUI 智能体学会"停下、恢复、搜索"

研究指出,当前GUI智能体的核心瓶颈在于系统设计,而非模型能力,表现为假性成功和死循环等问题。VLAA-GUI框架通过三个模块应对:STOP验证器确保任务真正完成,RECOVER循环中断器打破重复操作,SEARCH代理直接获取外部知识。在OSWorld基准测试中,该框架助力Opus 4.6模型取得77.5%的成功率,首次超越人类水平(72.4%);在WindowsAgentArena上,结合Gemini 3.1 Flash也以61.0%创下新纪录。这表明,精心的系统设计与强大的模型能力同等重要。

Cihang Xie: 🚀 GUI agents are advancing fast - yet they still stumble on surprisingly simple things: • declare success too early • g...

智能体开源/仓库论文/研究
08:31
Ethan Mollick@emollick
60
研究人员推出了仅使用1931年前文本训练的13B模型Talkie,旨在探索语言模型的泛化能力。该实验发现,模型虽掌握截至1931年的信息,但在某些科学议题上明显停留在20世纪初的认知框架中。例如,它仍坚持"发光以太"假说,并对狭义相对论表现出不信任。这凸显了训练数据的时间范围会深刻固化模型的知识体系与世界观。

Nick Levine: New work with @AlecRad and @DavidDuvenaud: Have you ever dreamed of talking to someone from the past? Introducing talkie...

数据/训练现象/趋势论文/研究
04:30
Rohan Paul@rohanpaul_ai
56
为精确性优化RAG可能悄然损害检索效果,危及智能体流程

最新研究发现,企业为提升精确性而微调RAG嵌入模型,可能导致检索质量下降高达40%。其核心矛盾在于,单个密集嵌入向量被同时要求承担广泛主题召回和精确语义判别的双重任务。当强制模型区分细微结构差异(如否定、语序颠倒)时,会损害其跨领域聚合相关材料的能力。解决方案是采用两阶段检索:先用嵌入模型快速召回,再通过能感知结构的词元级比对来验证候选结果。这揭示了“几乎相同的句子”与“相同含义”本质不同,在合同、合规等高精度领域混淆二者将导致系统关键失效。

检索增强论文/研究部署/工程
00:49
AK@_akhaliq
49
构建一个由人类与AI监督的精确视频语言 paper: https://huggingface.co/papers/2604.21718
多模态视频论文/研究
00:46
AK@_akhaliq
53
能动世界建模 基础、能力、法则与超越 论文: https://huggingface.co/papers/2604.22748
智能体具身智能论文/研究
00:34
AK@_akhaliq
48
通过语义进展函数进行视频分析与生成 paper: https://huggingface.co/papers/2604.22554
多模态视频论文/研究
00:33
elvis@omarsar0
69
一项针对AI智能体在编码任务中token消耗成本的系统性研究发现,其消耗量可达聊天或代码推理的约1000倍,且相同任务在不同运行中的消耗差异高达30倍。更高的token支出并不直接带来更高的准确性,性能在中等成本时达到峰值后趋于饱和。模型自身也难以预测其token使用量,自我预测相关性最高仅0.39。不同模型在相同任务上可能多消耗150万token而并无质量提升。这表明智能体的运行时成本具有高方差、与质量关联弱、甚至模型自身也无法预测的特性,这将影响团队的预算规划、模型间路由策略以及终止任务运行的决策。

DAIR.AI: How do AI Agents spend your money? Most teams treat agent token costs as a rounding error even though the data says they...

智能体论文/研究部署/工程
4月27日
23:28
elvis@omarsar0
63
40位学者提出智能体世界模型"能力层级×法则体系"新框架

一篇由40位作者完成的综述论文提出了一个用于智能体研究的“能力层级×法则体系”世界模型分类框架。三个能力层级包括:进行单步预测的L1预测器、执行多步行动条件推演的L2模拟器,以及能随世界变化自我修订的L3演化器。法则体系涵盖物理、数字、社会与科学四大领域。该框架综合了400多篇文献和100多个代表性系统,覆盖基于模型的强化学习、视频生成、网页/GUI智能体、多智能体模拟和科学发现等领域,并识别了各层级的失败模式与评估原则。其核心价值在于,当智能体从聊天机器人转向目标达成者时,瓶颈从语言转向环境,此框架为不同领域的研究者提供了设计和评估世界模型的共同语言。

智能体现象/趋势论文/研究
23:28
elvis@omarsar0
62
多智能体系统自动化管理成为AI前沿研究方向

推文作者指出,优化多智能体系统以实现自动化知识发现或调优高级AI系统是当前AI领域极具潜力的方向。文中引用的研究通过强化学习训练“指挥家”模型,使其能自动管理其他模型:针对简单问题直接查询单一模型,面对复杂编码任务则自主组建包含规划器、编码器和验证器的完整流程。这标志着从单智能体“思维链”向多智能体“指挥链”的演进,相关技术已应用于Sakana Fugu等新系统,展现了AI管理AI范式的广阔探索空间。

hardmaru: For the past few years, humans have been doing "prompt engineering" to coax the best performance out of different LLMs. ...

智能体数据/训练论文/研究
‹ 上一页
1…6789
下一页 ›