AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态论文 · 2148 条
全部一手资讯X论文
6月9日周二
6月8日周一
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月9日
22:26
IT之家(RSS)
55
美国工程师研发"光忆阻器",解决自动驾驶强光失明问题

美国宾夕法尼亚州立大学研发出光忆阻器,模拟人眼适应机制,解决自动驾驶汽车在光线剧烈变化时失去感知的问题。该器件将氧化钛与塑料PEDOT:PSS结合,通过类似“出汗”和膨胀自动调节感光,数秒完成强光到暗光切换(人眼需20-30分钟)。4×4阵列与AI神经网络测试,在极亮背景中识别暗光字母“F”,7轮训练后准确率达95%。已申请临时专利,未来可用于工厂机器人和视障人士人工视觉设备。

端侧论文/研究
21:04
Google DeepMind:Blog(RSS)
精选67
Gemini Guided Learning 随机对照试验:在塞拉利昂等地提升参与度并加速学习

一项在塞拉利昂等地开展的随机对照试验显示,Gemini 的 Guided Learning 功能能够提升学生参与度并加速学习。

DeepMindGoogle论文/研究

推荐理由:DeepMind在塞拉利昂做了一个严格RCT,初步证明AI引导学习能提升参与度和学习速度,对教育科技方向的信号意义很强,做AI教育产品的应该仔细读一下。
20:21
Tencent Hy@TencentHunyuan
74
🚀推出UniRL,一个用于统一多模态模型的RL基础设施。附带两种新RL算法:DRPO和Flow-DPPO。 一个覆盖扩散/流匹配模型、LLM/VLM以及统一多模态模型的RL循环👇 代码:http://github.com/Tencent-Hunyuan/UniRL (是的--U(you)-ni-(need) RL 😉)
GitHub多模态开源/仓库推理
关联讨论 1 条X:腾讯混元 (@TencentHunyuan)
19:44
Rohan Paul@rohanpaul_ai
64
Transformer QKV投影必要性研究

一篇论文系统研究了Transformer注意力中QKV投影的必要性,发现Key和Value可共享同一投影(Q-K=V变体),仅增加3.1%的困惑度,便将KV cache削减50%,大幅降低推理内存。最佳变体保留Query独立,使注意力保持方向性。与GQA和MQA结合时,可分别实现87.5%和96.9%的cache缩减。弱变体Q=K-V因导致因果注意力过于对称且无cache节省而无效。

arXiv推理论文/研究部署/工程
16:55
HuggingFace Daily Papers(社区热门论文)
精选70
用对抗性黑客-修补循环强化Agent基准测试

对五个终端Agent基准测试的1,968个任务审计发现,323个(16%)可被前沿模型仅凭任务描述进行奖励黑客攻击。研究者提出hacker-fixer loop方法:三个LLM agent轮流作为黑客尝试绕过验证器、修补者拒绝每次漏洞、求解者确认修补后仍接受合法方案。在KernelBench上,该循环将公开报告漏洞的攻击成功率从62%降至0%。弱agent也能防御强黑客:Gemini 3 Flash循环使Gemini 3.1 Pro和Claude Opus 4.7在KernelBench上的攻击成功率分别从76%和61%降至0%;在Terminal Bench的77个任务上,从39%降至17%。发布Terminal Wrench(323个可攻击环境、3,632条攻击轨迹)及修补后的验证器与实现。

智能体安全/对齐论文/研究

推荐理由:现有 Agent 基准的验证器太容易被钻空子了,这篇论文挖出 16% 可 hack 的任务,还提出用三个 LLM 自动对抗修补的循环方法,做 RL 评估的值得细读。
16:52
HuggingFace Daily Papers(社区热门论文)
61
基于并行回火的大语言模型科学假设搜索

大语言模型用于生成科学假设,但常见进化搜索因过度优化导致多样性坍塌。本文将假设搜索建模为采样问题,目标是在固定验证预算下高效产出多样且高质量的候选假设。受并行回火算法启发,提出一种进化框架,在多个温度水平同时搜索,并通过跨温度信息交换增强探索而不破坏收敛。在分子发现、方程发现和算法发现三个领域,该方法在同等验证预算下同时提升了假设质量与多样性,且候选假设在更昂贵的下游计算验证中仍保持鲁棒。

arXiv推理论文/研究
15:55
HuggingFace Daily Papers(社区热门论文)
69
SwiftVR:实时一步生成式视频恢复

SwiftVR 提出流式一步生成式视频恢复框架,采用无掩码移位窗口自注意力和轻量级恢复感知自编码器,消除二次空间注意力与大型视频自编码器的延迟及内存瓶颈。模型仅用标准密集 SDPA 调用,无需重训练或自定义内核即可部署至消费级 GPU。在单张 H100 上,2560×1440 分辨率达 31 FPS,3840×2160 达 14 FPS,而扩散 VR 基线在 4K 已超出内存。在 RTX 5090 上,1080p 达 26 FPS,为首个实现消费级 GPU 实时 1080p 流媒体的生成式视频恢复模型。

推理视频论文/研究
15:55
HuggingFace Daily Papers(社区热门论文)
61
光学推理(Optical Reasoning):将图像作为独立推理媒介,token效率达文本1.96倍

光学推理(Optical Reasoning)提出将图像作为语言和多模态任务的独立推理媒介,包含基于印刷字体与基于图形两种变体,分别优化视觉布局和图文结构化组织。在数学、科学及交错模态推理基准上,光学推理匹配甚至超越传统文本推理,同时语言任务减少推理token 28.57%,多模态任务减少16%,token效率达到文本推理的1.96倍,证明图像能高效编码推理过程并提供统一的视觉推理画布。

多模态推理论文/研究
14:55
HuggingFace Daily Papers(社区热门论文)
63
PBSD:利用特权贝叶斯自蒸馏实现长程信用分配

PBSD提出一种贝叶斯校准的自蒸馏方法,用于在稀疏最终奖励下进行细粒度信用分配。它通过验证答案的后验与先验概率比衡量轨迹质量,并利用贝叶斯规则将难以估计的答案侧比率转化为标准学生模型与特权、以答案为条件的教师模型之间的似然比。对该贝叶斯证据分数进行自回归分解,产生每步信号,识别中间推理步骤是支持还是削弱已验证结果。PBSD将稀疏结果监督转化为贝叶斯校准的逐步信用信号,与标准策略优化兼容。实验表明,该方法在领域内和领域外设置中一致提升性能,并有效将知识从短上下文训练迁移到长上下文推理。

智能体数据/训练论文/研究
14:55
HuggingFace Daily Papers(社区热门论文)
精选74
Reasoning Arena:可验证奖励不足时的迹线锦标赛

针对基于可验证奖励的强化学习(RLVR)在组级别奖励无信息时无法提供梯度信号的问题,提出Reasoning Arena自适应训练框架。该框架将非多样化奖励组路由至评判系统,通过迹线锦标赛(trace tournaments)对推理迹线进行头对头比较,转化为相对奖励信号。每个新迹线仅与动态更新的少量锚点比较,然后在不完全比较图上拟合Bradley-Terry模型。在竞赛数学和编程基准上,平均超越RLVR基线7.6%,训练加速27%至41%,节省近50%生成计算量。

arXiv推理数据/训练论文/研究

推荐理由:强化学习训推理模型常遇到奖励无法区分,这篇把被浪费的样本变成有效梯度,训练加速近 50% 同时性能还涨 7.6%,做 RL 训练的人值得细读。
14:12
MarkTechPost(RSS)
60
哈佛与Perplexity新研究:AI智能体每会话自主工作26分钟,搜索助手仅33秒

哈佛大学与 Perplexity 联合发表论文,采用匹配对会话方法对比自主 AI 智能体与搜索助手。结果显示,AI 智能体每会话可自主工作 26 分钟,而搜索助手仅能完成 33 秒的自主工作。智能体在自主性、时间效率与成本方面均实现大幅提升,并且尝试的工作范围更为广泛。

智能体搜索论文/研究
13:55
HuggingFace Daily Papers(社区热门论文)
68
AHA-WAM:异步视界自适应世界-动作建模

提出AHA-WAM,基于双扩散Transformer(DiT)架构,将视频DiT作为低频世界规划器,维护滚动键值记忆编码长程场景演化;高频动作DiT通过分层联合注意力查询上下文,在闭环中执行短动作块。引入视界自适应偏移训练与观测引导视频上下文路由(OVCR),使动作专家无需重新运行视频DiT即可利用长程世界上下文并保持对实时状态的响应。在RoboTwin基准上平均成功率达92.80%,4项真实世界任务平均成功率78.3%,闭环控制频率24.17 Hz,相比Fast-WAM加速4.59倍,无需任何机器人数据预训练。

具身智能论文/研究
13:55
HuggingFace Daily Papers(社区热门论文)
67
SkeMex:通过自进化技能记忆实现可泛化医学智能体推理

SkeMex 是一种部署后自进化框架,通过技能记忆提升医学智能体的临床交互推理能力,无需更新模型权重。它将历史交互轨迹蒸馏为结构化技能(可复用流程知识),组成跨通用、任务特定及行动级的多分支仓库。利用环境反馈估计上下文效用,指导价值感知检索与仓库治理,形成“读取—写入—评估—治理”闭环生命周期。实验表明,在多种临床任务中,SkeMex 在离线和在线设置下均优于代表记忆型智能体,且能跨模型骨干泛化并实现可转移技能记忆。

智能体推理论文/研究
12:55
HuggingFace Daily Papers(社区热门论文)
68
评估卡片:AI评估报告的可解读层

AI评估结果规模庞大但报告不一致,导致读者难以跨来源比较、识别遗漏或追溯结论。Evaluation Cards通过整合基准元数据、评估运行数据和模型元数据,形成统一记录。方法包括:(1)从52篇论文和10次利益相关者访谈中推导报告模式;(2)实现四个可解释信号(可复现性、文档完整性、来源与风险、分数可比性),并针对研究与非研究受众提供不同读者模式;(3)部署监控工具,覆盖5816个模型、635个基准和101843个结果,揭示当前报告实践中的系统性缺口。

arXiv论文/研究评测/基准部署/工程
12:55
HuggingFace Daily Papers(社区热门论文)
68
FlashMemory-DeepSeek-V4: 通过前瞻稀疏注意力实现闪电索引超长上下文

FlashMemory-DeepSeek-V4(FM-DS-V4)提出Lookahead Sparse Attention(LSA)推理范式,基于DeepSeek-V4架构构建神经记忆索引器,主动预测未来上下文需求,仅保留查询关键KV块。采用解耦训练策略,索引器作为独立双编码器训练,无需加载主干模型。在LongBench-v2、LongMemEval、RULER等长上下文基准上,平均物理KV缓存压缩至全上下文基线的13.5%,下游精度平均提升0.6%;在500K极端长度下,物理KV开销减少超过90%,且不损害主干模型的核心推理能力。

DeepSeek推理论文/研究
12:55
HuggingFace Daily Papers(社区热门论文)
精选73
OmniGameArena:面向VLM游戏智能体的统一UE5基准与改善动态

OmniGameArena是一个基于十二个Unreal Engine 5新构建游戏的实时基准,涵盖单人(7个)、PvP(3个)和合作(2个)模式,提供统一动作接口。除冷启动排行榜分数外,还引入Improvement Dynamics Curve (IDC),一种智能体反射评估机制:通过工具调用反射大语言模型自动优化技能提示词,追踪多轮反射中的分数变化以及习得技能在任务变体上的泛化表现。论文报告了12个VLM智能体在冷启动排行榜上的表现,以及4个顶级智能体在IDC下的指标。

智能体多模态论文/研究

推荐理由:在 UE5 里直接测 agent 的自我改进,这个思路让游戏 benchmark 从一次性的刷榜变成动态成长观测,对做多模态 agent 的团队是个新标尺。
11:55
HuggingFace Daily Papers(社区热门论文)
60
Echo-Memory:动作世界模型中记忆机制的控制研究

Echo-Memory固定视频扩散骨干、优化器、相机动作表示、采样器和评估流水线,比较原始上下文、压缩记忆、空间摘要(不同读取路径)和状态空间循环四种记忆设计。三分支评估(回放质量、域内循环重访、开放域返回)显示排序常不一致,回放保真度不足以代理世界记忆。发现:原始上下文提升开放域返回远超回放指标;紧凑无法替代容量,激进空间与混合压缩丢失关键证据;块状态空间循环在开放域返回中最强,隐式记忆结构与使用同等重要。

具身智能视频论文/研究
11:55
HuggingFace Daily Papers(社区热门论文)
67
大规模端到端上下文压缩

长上下文语言模型推理受KV缓存内存瓶颈制约。现有压缩方法或大幅降低质量,或耗时耗算力。本文通过架构搜索和从头预训练,在350B tokens上持续预训练了0.6B编码器、4B解码器的模型家族,支持1:4、1:8、1:16压缩比,命名为Latent Context Language Models (LCLMs)。该家族在通用任务性能、压缩速度和峰值内存上提升了帕累托前沿,并能作为长时程智能体的高效骨干,快速扫描压缩后的长上下文并按需展开相关片段。

智能体推理论文/研究
10:55
HuggingFace Daily Papers(社区热门论文)
61
SpatialWorld:多模态智能体在真实世界任务中的交互式空间推理基准

SpatialWorld 是为评估多模态智能体在复杂真实任务中的交互式空间理解而设计的统一基准。它整合 8 个异构模拟后端,包含 760 个人工标注任务,覆盖家庭日常、旅行、社交协作等场景。智能体需在仅视觉部分可观测条件下主动收集第一人称证据,并通过统一文本动作接口输出决策。对 15 个先进多模态智能体的评测显示,最强闭源模型 GPT-5 平均任务成功率仅 17.4%,最强开源模型 Qwen-3.5 达 14.1%。分析表明任务成功与执行效率存在脱节,不同领域性能差异显著,主动探索与长程规划仍是瓶颈。

arXiv具身智能多模态论文/研究
10:55
HuggingFace Daily Papers(社区热门论文)
59
潜在空间记忆框架Mirage用于视频世界模型

Mirage提出一种潜在空间记忆框架,用于视频世界模型的3D一致性生成。它通过深度引导反投影将潜在token提升至3D,形成持久缓存,并利用直接潜在空间扭曲合成新视图,避免了像素空间重建的信息损失和重复编码渲染的计算开销。相比显式3D基线,Mirage实现端到端视频生成加速10.57倍、内存占用减少55倍。在WorldScore上达到当前最优性能,在RealEstate10K上展现强重建质量。

多模态视频论文/研究
09:13
meng shao@shao__meng
72
Cognition 推出 FrontierCode 代码评估基准:从可用到可合并

Cognition 发布 FrontierCode,含 150 个任务(来自 36 个开源仓库,每任务 40+ 小时),按难度分 Extended/Main/Diamond 三层。沿行为正确性、回归安全等六维度衡量 mergeability,指标为 Pass rate 与 Score。Diamond 子集最高分:Claude Opus 4.8 达 13.4%,GPT-5.5 为 6.3%,Gemini 3.1 Pro 4.7%;Main 子集 Opus 4.8 为 34.3%。开源最佳 Kimi K2.6 仅 3.8%。GPT-5.5 token 用量约为 Opus 四分之一,性价比更优。

Cognition: Introducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by ...

编码评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
45
WebChallenger:不依赖模型规模、通过架构设计提升自主网页导航的智能体框架

WebChallenger 围绕核心模块 PageMem(从 DOM 确定性构建的带摘要语义层次页面结构)设计三种机制:分而治之的观测管线(让智能体扫读摘要、仅提取任务相关区域细节)、轻量级网站探索与记忆系统(遍历一次网站即可复用页面与元素行为地图)、以及将多步交互压缩为单步智能体动作的工作流。使用未经微调的开源模型,在 WebArena 上达 56.3%、VisualWebArena 48.7%、Online-Mind2Web 51.0%、WorkArena 70.9%,接近前沿闭源系统但成本极低。代码已开源。

智能体GitHub开源/仓库论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
基于累积FLOPs的计算感知对抗鲁棒性评估框架

提出基于累积FLOPs的计算感知评估框架,以计算压力替代固定查询预算,引入风险-计算曲线和两项总结指标。在三个系列、四个训练/对齐阶段的十个模型上,使用梯度、迭代优化和模板三种攻击策略在两个越狱鲁棒性基准上测试发现:对齐训练对计算空间鲁棒性呈非单调影响;模型规模扩大降低梯度攻击效果但对低成本模板攻击影响有限;梯度攻击可跨模型迁移;单个模型内不同危害类别间计算成本差异约5倍;安全对齐的RL增加整体攻击成本,但部分类别仍较易攻破。框架已开源。

安全/对齐开源生态
08:00
HuggingFace Daily Papers(社区热门论文)
69
Flash-GMM:面向可扩展软聚类的内存高效内核

Flash-GMM 是一个基于 Triton 的融合内核,可在单次 GPU pass 中高效计算大规模高斯混合模型(GMM)。它无需在 GPU 内存中实例化完整责任矩阵,相比现有实现实现 20 倍加速,并支持在单设备上训练比之前大 100 倍以上的数据集。将 Flash-GMM 集成到 IVF 粗量化器中用于近似最近邻搜索(ANN)后,软 GMM 聚类可替代 k-means,利用 GMM 责任矩阵将边界向量分配到多个簇。该方法达到固定召回目标时所需距离计算减少 1.7 倍,或在同等计算成本下召回@10 提升 2–12。该内核已作为开源项目发布。

搜索数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
IDEAL:深度对齐使离散表示自编码器更优

基于预训练视觉基础模型(VFM)的表示自编码器(RAE)在图像生成中构建语义丰富的潜空间,但重建质量受限于深层特征丢失细节。IDEAL框架通过联合对齐量化token与浅层和深层VFM特征,使离散视觉token同时保留视觉保真度和丰富语义。在ImageNet上,IDEAL达到0.61 rFID,比之前最优方法提升0.28;用于自回归图像生成时取得1.89 gFID,创下新SOTA。

图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
N-GRPO:嵌入级语义邻居混合用于增强策略优化

针对token级采样易产生冗余轨迹、嵌入级随机噪声破坏语义一致性的问题,N-GRPO将语义邻居混合(Semantic Neighbor Mixing)机制集成到GRPO框架中。该方法通过混合锚点token及其最近语义邻居的嵌入构造输入表示,在注入多样性的同时保持局部语义流形。在DeepSeek-R1-Distill-Qwen系列不同规模模型上的实验表明,N-GRPO在数学推理基准上持续优于强基线,并在分布外任务上展现稳健泛化能力。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
ComBench:面向奥林匹克级组合数学的推理与构造基准

ComBench是一个面向奥林匹克级组合数学的基准,包含100个人工标注的竞赛级别问题,分为分析型(侧重严谨数学论证)和构造型(需要明确构造及正确性证明)。评估结合评分指南的证明评分与确定性构造验证,揭示证明质量与构造有效性的差异。前沿模型在该基准上远未饱和:最强模型整体平均分65.4%,Best@4达75.3%。Kimi-K2.6在分析型证明评分上落后于GPT-5.5,但在构造型Best@4上反超;存在性和构造类问题对所有代表性模型始终最难。

arXiv推理论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
69
DeNovoSWE: 扩展长周期环境以从零生成完整仓库

DeNovoSWE 是一个大规模完整仓库生成数据集,包含4,818个高质量实例,每个实例要求从文档生成完整仓库。该数据集通过沙盒智能体工作流自动构建,无需人工标注,采用分治与批评修复策略以及难度感知轨迹过滤保证质量。微调 Qwen3-30B-A3B 后,在 BeyondSWE-Doc2Repo 基准上的得分从5.8%提升至47.2%。

数据/训练编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选82
i1:面向强文生图模型的简单且完全开源配方

i1 是一个 3B 参数的文本到图像扩散模型,仅使用公开数据集训练。在 GenEval、DPG、PRISM、CVTG-2K 和 LongText 五个基准上,i1 性能与领先模型相当,平均比最佳现有完全开源模型高 29.5 个百分点。研究基于 300 余项控制实验(超 700K TPU v6e 小时),发现等权重混合 curated 数据集是强默认配置、更大文本编码器适配器以极少参数提升性能。i1 的检查点、训练与推理代码及数据处理流程已全部开源。

arXiv图像生成多模态开源生态

推荐理由:i1 是第一个用全公开数据、完全开源代码/权重/数据管线打造的 3B 模型,直接把全开放模型的性能拉到可与闭源竞争,对做文生图研究的同行是个扎实起点。
08:00
HuggingFace Daily Papers(社区热门论文)
精选78
Embodied-R1.5:通过具身基础模型演化物理智能

Embodied-R1.5是一个统一具身基础模型,将具身认知、任务规划、纠错与指向能力整合在单一架构中。基于三条自动化数据构建流水线,团队搭建超过150亿模型token的数据系统,并设计多任务平衡强化学习方案以缓解异构任务冲突。其Planner-Grounder-Corrector闭环框架使模型能在长周期任务中自主执行并自我纠正。仅8B参数的Embodied-R1.5在24个具身VLM基准中的16个上达到SOTA,超越Gemini-Robotics-ER-1.5与GPT-5.4,并可微调为VLA,在4个操作任务基准上领先π_{0.5}等模型。零样本真实机器人实验验证了其指令遵循、可操作物体判别、铰接物体操控与长周期复杂任务中的泛化能力。模型权重、数据集、训练代码及评估框架EmbodiedEvalKit已开源。

arXiv具身智能开源生态论文/研究

推荐理由:仅8B参数就在24项具身视觉语言基准上赢过GPT-5.4和Gemini-Robotics,还把模型权重、训练代码全开源了,做具身智能的团队不跟进就是犯罪。
04:42
Rohan Paul@rohanpaul_ai
65
AdaCoM:独立小模型管理上下文,智能体长任务提升39%

论文提出 AdaCoM,一个独立的 LLM,在智能体每步操作前编辑其工作上下文。它可重写、合并、剪枝或保留任务历史,使主智能体保持冻结,无需重新训练或暴露权重。与简单摘要不同,AdaCoM 学习不同智能体需要不同类型上下文——强智能体保留更多原始历史,弱智能体需更短更清晰的笔记。在 web search 和 deep research 任务上测试,平均提升 39%。

智能体论文/研究
04:16
elvis@omarsar0
62
AI智能体重塑知识工作的三个维度

一篇新论文从自主性、效率和工人移交任务的范围三个维度,分析AI智能体如何重塑知识工作。研究指出,当前人们使用智能体的主要障碍并非模型质量,而是几乎没有人接受过如何以这种方式工作的培训。

智能体arXiv论文/研究
01:46
Anthropic:Research(发表成果 · 网页)
精选77
为生物学AI智能体铺路

一项实验让Claude、Biomni、Edison Analysis、GPT等科研智能体从病毒学数据库NCBI Virus中检索序列数据,即使最强模型也无法稳定达到可靠数据集构建所需的准确率。加入确定性检索层gget virus后,准确率接近100%。研究指出,当前生物学数据基础设施存在碎片化、格式特殊、接口不统一等问题,导致AI智能体难以像在软件领域那样高效工作。确定性检索工具是实现可靠智能体工作流的关键,生物学数据库需为智能体作为规模化用户而设计。

智能体Anthropic论文/研究

推荐理由:再强的模型在 NCBI Virus 上检索病毒序列都会翻车,Anthropic 加了个确定性检索层后准确率飙到近 100%。做 AI for science 的人该看看这个基础设施层的解法。
01:41
Rohan Paul@rohanpaul_ai
63
"CL-BENCH 基准测试:AI 智能体全上下文记忆优于复杂记忆系统"

新论文构建 CL-BENCH 基准,评估 AI 智能体在编程、数据库、预测、无线电信号、扑克、疾病研究 6 个领域中的持续学习能力。每个任务隐藏可随时间习得的模式,考察智能体能否超越预训练知识。测试前沿 LLM 系统采用全上下文记忆、草稿笔记、检索记忆、剧本式记忆及编码智能体设置,结果发现当前记忆密集型 AI 智能体并未可靠优于简单保留完整对话上下文。Claude Sonnet 4.6 使用普通上下文取得最佳总体分数。论文指出智能体仍需更好方法记住有用经验、遗忘过时信息并适应环境变化。

智能体arXiv论文/研究
01:09
MarkTechPost(RSS)
66
小米MiMo与TileRT推出MiMo-V2.5-Pro-UltraSpeed,万亿参数模型在8-GPU节点上解码超1000 tokens/s

小米MiMo团队与TileRT合作发布MiMo-V2.5-Pro-UltraSpeed服务模式,专为MiMo-V2.5-Pro模型设计。该方案在单个8-GPU消费级节点上,实现了1万亿参数模型超过1000 tokens/s的解码速度。

推理论文/研究部署/工程
00:57
Perplexity@perplexity_ai
精选76
我们与哈佛大学发表新研究,关于从聊天界面转向像Computer这样的自主智能体的转变。 超过3个月的研究结果表明,使用Computer的工人在完成任务上比仅使用搜索快87%,成本低94%,且满意度更高。 https://research.perplexity.ai/articles/how-ai-agents-reshape-knowledge-work
智能体论文/研究
关联讨论 1 条X:邵猛 (@shao__meng)
推荐理由:Perplexity 和哈佛的联合研究,用三个月数据把“AI 代理取代聊天界面”从口号变成了硬数字——87% 时间缩减和 94% 成本下降,做企业决策的人该仔细读一下。
00:00
MiniMax:Blog(网页)
精选76
MaxProof框架:MiniMax M3在IMO 2025和USAMO 2026超越人类金牌线

MiniMax M3采用MaxProof框架,在IMO 2025和USAMO 2026两项数学奥赛基准上超越人类金牌线。框架分三阶段训练:Proof RL使用生成式验证器提供奖励,进行长程强化学习提升证明生成能力;Verifier Alignment将验证对齐为错误定位任务;Refinement Augmentation利用训练中产生的错误证明与验证分析对,通过拒绝采样微调修复能力。三者合并为M3通用模型。系统通过低假阳性率过滤噪声,保证RL稳定性。

推理论文/研究
关联讨论 1 条HuggingFace Daily Papers(社区热门论文)
推荐理由:M3在数学奥赛上搞定人类金牌,靠的是用生成验证器做RL和进化搜索,这套组合对复杂推理任务的普适性可能比提高一个benchmark分数更有价值。
6月8日
14:14
Tencent Hy@TencentHunyuan
精选69
腾讯混元联合多家机构发布首个音频编辑基准MMAE

腾讯混元联合上海交大、南洋理工等机构推出MMAE(Massive Multitask Audio Editing Benchmark),这是首个全面评估AI语音/音频编辑能力的基准。MMAE要求模型理解现有音频并按自然语言指令精确修改,而非简单生成。当前模型在该基准上的精确匹配率(EMR)低于5%,暴露了可靠音频编辑的短板。MMAE包含2000个真实场景高保真样本、17741条细粒度评估项,覆盖声音/音乐/语音及混合共7种模态、6种任务复杂度(基础修改到多跳推理及多轮编辑)、8种操作类型(局部到全局)。论文、代码、数据集和演示已公开。

多模态论文/研究语音

推荐理由:过去一年语音和音乐生成很热,但音频编辑还没人正经测过,腾讯这个基准把现状血淋淋地摆出来了,不到5%的准确率意味着整个方向都还在起步期。
12:38
Rohan Paul@rohanpaul_ai
60
斯坦福、MIT、哈佛与Anthropic联合论文:为什么更大模型能学到小模型学不会的罕见技能

该论文指出,更大模型能学到罕见技能,是因为训练中遗忘更少,其额外容量保护了弱学习信号。核心机制:常见任务先抢占神经元,罕见任务在出现频率足够形成稳定知识前就被覆盖。小模型可能短暂捕捉到罕见信号,但随即被下一波常见任务更新覆盖。实验使用OLMo语言模型(4M–4B参数)验证:大模型在低频任务上表现更优,保留更多任务特征,且常见任务更新对罕见任务的梯度干扰更小。作者强调,问题不仅在于小模型能否表征任务,更在于训练中罕见任务能否在众多常见任务反复冲击下持续存在。

AnthropicarXiv数据/训练论文/研究
11:38
Rohan Paul@rohanpaul_ai
56
AutoLab 基准揭示:AI 智能体成功关键在于持续测试而非初始方案

斯坦福、MIT、英伟达、谷歌等顶级实验室联合提出新基准 AutoLab,包含 36 个任务。每个任务中,智能体从可工作的弱代码起步,需在固定时间内迭代优化。任务涵盖系统加速、谜题、模型开发和 CUDA 内核。17 个前沿模型测试结果显示,成功的关键不是初版方案有多好,而是能否持续测试、频繁实验并利用实证反馈。Claude Opus 4.6 领跑基准,靠的是坚持迭代而非初始判断力,而其他前沿模型要么提前放弃,要么思考过久导致超时。

智能体论文/研究评测/基准
‹ 上一页
123456…50
下一页 ›