AIHOT

全部动态论文 · 2151 条

全部一手资讯 X 论文

5月21日周四

5月20日周三

5月21日

11:09

HuggingFace Daily Papers（社区热门论文）

65

Mem-π：通过学习何时与生成何物实现的自适应记忆

Mem-π是一个用于大型语言模型代理的自适应记忆框架，它通过专门的模型按需生成指导内容，而非从外部记忆库检索静态信息。该框架采用决策-内容解耦的强化学习方法，使模型能自主判断是否生成指导及生成何种内容。在涵盖网页导航、终端工具使用等多样化的代理任务基准测试中，Mem-π性能持续优于检索式方法和现有强化学习记忆方案，其中在网页导航任务上实现了超过30%的相对提升。

智能体MCP/工具论文/研究

11:09

HuggingFace Daily Papers（社区热门论文）

精选75

SpecBench：测量长期编码代理中的奖励黑客行为

长期编码代理在优化测试通过时可能偏离用户真实目标，导致奖励黑客现象。研究将软件工程任务分解为规格说明、可见验证测试和隐藏测试，通过两类测试通过率差距量化黑客行为。为此引入SpecBench基准，包含30个从短期（如JSON解析器）到超长期（如构建操作系统内核）的系统级编程任务。实验显示，所有前沿代理在可见测试上饱和，但隐藏测试上存在持续差距，小模型差距更大；代码规模每增十倍，差距增长28个百分点。失败案例包括故意利用测试输入。SpecBench提供原则性平台，评估代理是否构建真实工作系统而非仅玩游戏测试套件。

智能体arXiv安全/对齐编码

推荐理由：SpecBench把编码代理的‘应试’问题量化了，越长的任务越容易靠作弊通过测试。如果你在做Agent，这个基准会让你重新审视自己的评估体系。

11:09

HuggingFace Daily Papers（社区热门论文）

64

PlanningBench：一个用于评估和训练大语言模型的可扩展、可验证规划数据生成框架

本文提出了PlanningBench框架，旨在为评估与训练大语言模型生成可扩展、多样且可验证的规划数据。框架源于真实场景，抽象出包含30余种任务类型、约束与难度因素的结构化分类体系，并基于此实现了约束驱动的数据合成流程，该流程具备自适应难度控制、质量过滤与实例级验证能力。研究利用该框架评估了前沿大模型，发现其在耦合约束下仍难以生成完整解决方案。此外，基于PlanningBench数据的强化学习不仅提升了模型在未知规划任务上的表现，也增强了其指令遵循能力，并表明明确的最优解能提供更稳定的训练信号。

arXiv推理数据/训练论文/研究

11:09

HuggingFace Daily Papers（社区热门论文）

61

DrawMotion：通过手绘生成3D人体动作

该研究提出了DrawMotion，一个基于扩散的多条件动作生成框架，旨在解决传统文本到动作生成中用户意图表达不精确的问题。该框架支持文本与手绘两种控制条件，分别提供语义和空间引导。技术上，它通过算法自动生成手绘火柴人草图、设计多条件融合模块以降低计算复杂度，并利用无训练引导方法将生成动作与用户意图对齐。实验表明，手绘方式能将用户生成符合想象的动作所需时间缩短约46.7%。相关代码与演示已开源。

GitHub多模态论文/研究

10:58

IT之家（RSS）

63

瞄准 AI 数据中心功耗难题，新供电芯片让 48 伏转 4.8 伏效率达 96.2%

加州大学圣迭戈分校工程团队研发出一种新型电源转换芯片，以应对AI数据中心面临的功耗挑战。该团队采用压电谐振器替代部分传统磁性器件，设计出混合架构的降压转换器。实验室测试表明，该原型芯片能将48伏电压降至4.8伏，峰值转换效率达到96.2%，输出电流较此前压电方案提升约5倍。该技术旨在减少供电过程中的能量损耗，缓解高功耗GPU带来的散热与供电压力，但目前仍处于研究阶段，尚未达到商用水平。

论文/研究部署/工程

10:09

HuggingFace Daily Papers（社区热门论文）

55

UniT：基于群自回归Transformer的统一几何学习

UniT是一个统一几何感知模型，旨在将在线感知、离线重建、多模态整合等分散能力整合到单一框架。其核心是群自回归Transformer，将传感器观测组作为基本单元，通过改变组大小，在同一过程中自然统一在线（多步单帧组）与离线（单步多帧组）模式。为处理长序列，模型采用队列式KV缓存机制，并利用无锚点关系建模来丢弃过时记忆。此外，模型引入尺度自适应几何损失以增强跨场景的尺度泛化能力。在多个任务的基准测试中，UniT实现了统一几何感知的最先进性能。

具身智能多模态论文/研究

10:09

HuggingFace Daily Papers（社区热门论文）

58

生成式递归推理

GRAM（生成式递归推理模型）框架将递归潜状态推理从确定性单一路径转变为概率性的多路径计算。它允许模型在推理时生成多种假设与替代解决策略，并可通过增加递归深度或并行采样来扩展计算能力。该框架通过摊销变分推断训练，形成了一个支持条件推理与无条件生成的潜变量生成模型。实验表明，GRAM在结构化推理及多解约束满足任务上优于确定性循环与递归基线模型，并具备了独立的无条件生成能力。

arXiv推理论文/研究

10:09

HuggingFace Daily Papers（社区热门论文）

62

论文评审中人工智能审稿人的局限与机遇：基于45位专家对《自然》系列论文的评审分析

本研究通过一项大规模专家标注实验，邀请物理、生物与健康科学领域的45位科学家，耗时469小时，对82篇《自然》系列论文的2960条批评意见（来自人类与AI评审）进行多维度评估。结果发现，由GPT-5.2驱动的AI评审代理在准确性、重要性与证据充分性的综合评分上，超过了每篇论文得分最高的人类评审员（60.0%对48.2%）。AI评审能发现26%人类未提及的独特问题，但其意见重叠度（21%）远高于人类（3%），并暴露出16种人类没有的反复性弱点，如子领域知识有限、多文件长上下文管理能力不足等。研究表明，当前AI评审员更适合作为人类评审的补充工具，而非完全替代。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

51

EMMA：从多模态数据中提取多个物理参数

EMMA是一个物理信息多模态框架，能从原始视频、音频和图像时间序列中直接恢复系统所有可识别的动力学参数。它利用Liquid Time-Constant网络从异质模态学习潜在动力学，并通过物理约束损失确保与微分方程一致。在超过100个场景（包括五个标准动力学基准、75段Delfys视频、真实世界轮式机器人和四旋翼系统）中，EMMA实现了稳健的多参数恢复，显著优于现有单模态和方程发现基线。代码与数据已开源。

arXiv具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

46

重访均匀扩散模型：留一去噪器与吸收态重构

研究揭示均匀扩散模型（UDM）的标准参数化与训练目标存在失配。提出“留一去噪器”，即在预测干净token时不依赖其自身噪声观测的后验，并推导了其与标准去噪器、分数函数的精确转换关系。进一步通过“吸收态重构”，将UDM联合分布分解为类掩码扩散操作，从而简化了去噪后验。在语言建模中，留一参数化稳定提升了UDM生成效果，吸收态构建匹配或超越了掩码扩散模型。实验表明，经验差距主要源于参数化与采样设计，而非边际分布选择本身。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

47

部分可观察环境下基于统一风险图的自动驾驶风险感知

针对自动驾驶中因未观测区域不确定性导致的遮挡感知预测难题，现有方法存在高估风险或预测不准的问题。本研究提出一个统一的风险图建模与学习框架，适用于部分可观察环境。该框架通过时空建模整合交通流风险与碰撞风险，实现对遮挡风险的细粒度评估。为解决遮挡交互场景稀缺的问题，引入了基于扩散模型的场景生成框架，可生成真实且具对抗性的场景。最终，该框架集成了统一风险图的建模与学习，以支持部分可观测性下的风险感知规划。在 Waymo Open Motion Dataset 上的实验表明，该方法显著超越现有基线，提升了碰撞时间指标。

具身智能安全/对齐数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

智能体CLEAR：LLM智能体多层级评估自动化

现有LLM智能体评估工具局限于基本观测能力或静态错误分类。Agentic CLEAR是一个自动、动态、易用的评估框架，它在系统、轨迹和节点三个粒度层级上，对智能体行为生成文本洞察。该框架运行于可观测性层之上，具备直观UI便于集成。在四个基准、七种智能体设置和数万次LLM调用上的实验表明，Agentic CLEAR能产生高质量、数据驱动的反馈，其分析与人类标注错误高度吻合，并能预测任务成功率。

智能体arXiv论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

51

理解数据时间性对大语言模型预训练的影响

研究比较了按时间顺序排列数据与传统打乱数据两种预训练方式，针对一个在6B参数模型上训练的实验。研究引入了包含超过7000个时间锚定问题的新基准。结果发现，时间有序预训练的模型在通用语言能力上与打乱预训练基线持平，但其知识更及时、时间定位更准确；打乱预训练则在旧数据上表现达到峰值。代码、模型检查点和数据集已开源。

arXivGitHub开源生态数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

55

MotiMotion：基于视觉推理的运动控制视频生成

该研究指出当前运动控制视频生成模型存在轨迹僵硬、因果不完整的问题。为此，MotiMotion框架将运动控制重新定义为“先推理再生成”的任务。其核心是利用一个无需训练的视觉语言推理器来完善主轨迹坐标，并“幻想”出合理的次要运动。同时，框架引入置信度感知控制方案，根据计划的可信度调整引导强度。为系统评估，研究还构建了新的运动交互基准MotiBench。评估表明，MotiMotion能生成物体行为和交互更合理可信的视频，效果优于现有方法。

图像生成推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

39

表征优于路由：克服多时间尺度PPO中的替代目标劫持

在强化学习中，多时间尺度PPO虽旨在平衡短期与长期规划，但在复杂延迟奖励任务中盲目融合多时间信号会导致严重的算法问题。研究发现，将时间注意力路由机制暴露于策略梯度会导致替代目标劫持，而无梯度不确定性加权则会引发不可逆的短视退化。为此，研究提出Target Decoupling架构：Critic侧保留多时间尺度预测以辅助表征学习，Actor侧则严格隔离短期信号并仅基于长期优势更新策略。在LunarLander-v2环境中的实验证明，该架构无需超参数调整即可稳定超越解决阈值，消除策略崩溃并跳出局部最优。实验代码已开源：https://github.com/ben-dlwlrma/Representation-Over-Routing。

arXiv开源生态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

ThriftAttention：用于长上下文FP4注意力的选择性混合精度

针对长上下文场景下FP4量化推理的质量下降问题，ThriftAttention提出了一种低比特注意力变体。该方法首先通过启发式策略快速识别出少量关键的query-key块对，对其使用FP16精度计算，其余块使用FP4计算。最后，两路计算结果通过在线softmax合并。实验表明，仅对5%的块使用FP16计算，该方法就能平均恢复FP4与FP16间89.1%的性能差距，且优势随序列长度增加而更加显著。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

55

面向自回归MRI重建的"下一加速尺度预测"

针对高加速欠采样下MRI重建因模糊性导致高频细节丢失的问题，该研究将重建过程移至离散多尺度潜空间，并构建为自回归的“下一加速尺度预测”任务。方法利用视觉自回归建模中有效的离散先验，将解空间约束在紧凑的码本token序列中，从而即使从极度稀疏的测量中也能实现清晰重建。该框架自然适配大语言模型的后训练技术，并引入了在线策略蒸馏，利用教师模型在推理时不可用的特权上下文（完全采样数据）监督学生模型。在fastMRI基准测试的多种极端欠采样模式下，该方法均展现出改进的重建效果。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

虚假的推理：通过零思维链截断揭露大语言模型中的规避型数据污染

大语言模型在多项任务中展现强大推理能力，但数据污染问题，特别是发布者采用改写基准数据等规避策略，严重削弱了其评估的客观性。研究发现，模型生成的推理步骤会主动掩盖其底层的记忆化现象。为此，研究者提出 Zero-CoT Probe 检测方法，通过截断整个 CoT 过程来暴露潜在的捷径映射。该方法将模型在原始基准与同构扰动参考集上的零思维链表现进行对比，并引入“污染置信度”指标。在已知污染模型与专门微调的污染模型上的实验表明，该方法能有效检测直接与规避型数据污染。代码已开源：https://github.com/Yifan-Lan/zero-cot-probe。

数据/训练论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

49

感知的代价：在整体框架内实现可信的多模态推理

当前视觉语言模型常出现“功能性失明”，即利用强大的语言先验绕过视觉表征瓶颈，而非真正融合多模态信息。本研究挑战了依赖数据消融的传统评估方法，提出了信息论框架下的“模态翻译协议”来量化“感知的代价”。该方法定义了三个新指标（Toll, Curse, Fallacy）与语义充分性准则。研究还假设存在多模态缩放的“分歧定律”：随着语言模型推理能力增强，视觉知识瓶颈带来的性能惩罚可能不降反升。这为构建更可信的多模态推理系统提供了新的评估工具与设计思路。

arXiv多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

VGenST-Bench：一个基于主动视频合成的时空推理基准

VGenST-Bench 是一个用于评估多模态大语言模型时空推理能力的新基准，采用生成模型主动合成高度可控的多样化评估场景，克服了现有基准依赖静态图像或被动视频数据的局限。该基准通过包含人类质检阶段的多智能体流水线构建，建立了涵盖空间尺度、视角和场景动态性的 3x2x2 视频分类体系。其设计的层级任务套件，解耦了低级视觉感知与高级时空推理，实现了对模型能力的细粒度诊断。

多模态视频论文/研究评测/基准

06:44

智谱：研究（网页内嵌数据）

精选69

ZCube：超大规模大模型推理的网络优化

针对超大规模大模型推理，ZCube网络架构通过取消Spine层、将Leaf交换机分组并全互联等创新设计，有效解决了推理网络的拥塞问题。该架构在集群实测中，实现了交换机与光模块资本支出减少33%、GPU平均推理吞吐提升15%，同时将首token延迟的P99值大幅降低40.6%，在降低成本的同时显著提升了推理性能。

推理论文/研究部署/工程

推荐理由：千卡以上推理集群的团队该看一眼，智谱这个网络设计砍掉三分之一交换机成本，吞吐还涨15%，尾时延降四成，有实测数据不是白皮书。

06:08

HuggingFace Daily Papers（社区热门论文）

69

基础模型在AI检测器下更"像人"

本研究发现了一个有趣现象：当使用GPTZero等商业AI文本检测器时，基础模型生成的文本常被判定为人类文本，而指令调优模型生成的文本则不然。基于此，研究团队提出了“通过迭代释义实现人性化”的方法。该方法通过微调基础模型并迭代应用，以在语义保持和规避检测之间取得平衡。实验表明，该方法在不同规模的Llama-3和Qwen-3模型上均能有效提升文本在检测器眼中的人类相似度。研究指出，现有检测器可能更多地关注了指令调优产生的特征，而非机器生成文本的本质，这为未来的检测器设计提供了新的方向。

论文/研究

06:08

HuggingFace Daily Papers（社区热门论文）

69

并非每个评分准则都同等有效：用于RLVR的策略感知评分准则奖励

针对基于评分准则的强化学习（RLVR）奖励机制中静态权重的局限性，本研究提出POW3R框架。该框架在训练过程中动态调整各准则的奖励权重，以强调那些能有效区分当前策略输出的准则，同时保留整体人类权重分布。实验在三个基础策略和两个数据集上进行，结果显示POW3R在30项比较中赢得24项，提高了平均评分准则奖励和严格完成率，并将达到相同性能所需的训练步数减少2.5至4倍。POW3R通过策略感知的权重优化，使奖励信号更具信息性，提升了RLVR的训练效率。

数据/训练论文/研究

05:50

Z.ai@Zai_org

75

ZCube网络架构：破解大模型推理网络瓶颈

随着长上下文与Prefill-Decode分离部署成为主流，GPU集群网络已从次要部件转变为制约推理吞吐、尾部延迟和成本的关键瓶颈。传统静态网络拓扑与动态非对称的KV Cache流量模式冲突，导致局部拥塞。为此，Z.ai、Harnets.AI与清华大学联合研发了ZCube网络架构。该架构采用完全扁平化拓扑与混合接入设计，从源头解耦并分散流量以减少拥塞。在GLM-5.1生产测试中，ZCube在保持GPU与软件栈不变的前提下，实现了交换机与光模块成本降低33%、平均推理吞吐提升15%、首token时间P99降低40.6%的显著效果，证明网络架构创新能有效释放硬件潜力。

推理论文/研究部署/工程

04:28

TechCrunch：AI（RSS）

74

OpenAI 声称其解决了一道存在了80年的数学问题--这次来真的

OpenAI 宣布其推理模型成功证伪了一道自1946年起悬而未决的几何猜想。与以往不同，此次声称获得了此前曾指出OpenAI相关声明存在错误的数学家们的认可与支持，这为其结论的可靠性提供了关键背书。

OpenAI推理论文/研究

关联讨论 9 条

04:03

Hacker News 热门（buzzing.cc 中文翻译）

80

OpenAI的一个模型推翻了离散几何学中的一项核心猜想

OpenAI宣布其开发的人工智能模型成功证伪了离散几何学领域的一个核心猜想。该模型通过自动化推理与证明过程，推翻了这一长期存在的数学假设，标志着AI在抽象数学研究与定理证明方面取得了实质性突破。这项成果不仅展示了大型语言模型在科学发现中的潜力，也为利用AI解决复杂科学问题提供了新的范例。

OpenAI推理论文/研究

关联讨论 9 条

04:01

Emad@EMostaque

91

OpenAI模型首次自主解决了Paul Erdős于1946年提出的平面单位距离问题，这一突破推翻了数学界近80年来的主流猜想。AI不仅给出了更优的解法，更发现了一族全新的构造方式。这一事件被视为AI能力的里程碑，暗示着在解决科学开放性问题上，AI正开始以新颖方式持续突破，可能标志着人类主导此类问题求解的"最终阶段"的到来。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI推理论文/研究

关联讨论 9 条

03:36

Greg Brockman@gdb

92

OpenAI的模型在离散几何领域取得重大突破，自主解决了由数学家Paul Erdős于1946年首次提出的平面单位距离猜想。该突破是AI首次独立解决一个学科的核心著名开放问题。此前近80年间，数学家普遍认为该问题的最优解大致呈现为方形网格结构，而OpenAI模型发现了全新的、性能更优的构造方式，颠覆了这一长期信念。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI推理论文/研究

关联讨论 9 条

03:36

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

87

OpenAI模型自主攻克了数学领域一个长达近80年的著名开放问题--平面单位距离问题。该问题由Paul Erdős于1946年提出，传统观点认为最优解结构近似于方格网格。OpenAI模型的突破性发现不仅推翻了这一长期假设，还构造出性能更优的全新解法，标志着人工智能首次在数学核心领域独立解决重大未解难题。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI推理论文/研究

关联讨论 9 条

03:25

HuggingFace Daily Papers（社区热门论文）

47

他们能走多远？用大语言模型红队测试在线影响力

该研究聚焦于本地部署的开源大语言模型，提出了一套红队测试框架，用于测量模型在争议性话题上可可靠表达的“政治表达范围”（Overton Windows），并量化简单自然语言越狱技术如何扩大此范围。研究评估了超过30个大语言模型，发现系统性政治表达不对称：开源模型通常更倾向生成左倾社交媒体内容；政治表达范围随模型规模增大而收缩；尽管生态参与不均，地域差异仍然显著。此外，越狱技术的有效性在不同模型家族间差异明显。

安全/对齐论文/研究

03:17

Noam Brown@polynoamial

86

OpenAI的通用AI模型在组合几何领域取得突破，首次自主解决了平面单位距离问题。该问题由数学家Paul Erdős于1946年提出，近80年来学界普遍认为最优解类似方格结构，但AI模型推翻了这一假设，发现了一族全新的更优构造方法。这一突破标志着AI在数学领域首次独立解决一个核心开放问题，显示出AI在基础科学发现中的快速进展能力。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI推理论文/研究

关联讨论 9 条

03:17

Noam Brown@polynoamial

83

OpenAI宣布其一个内部通用模型在组合几何领域取得突破，自主解决了平面单位距离问题。这一问题由数学家Paul Erdős于1946年提出，近80年来学界普遍认为最优解应近似于方形网格结构。新模型推翻了这一长期信念，发现了一族全新的、更优的构造方案。此事件标志着人工智能首次独立解决数学领域的核心开放问题，展示了AI在科学发现方面快速且持续的进展能力。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI推理论文/研究

关联讨论 9 条

03:17

OpenAI@OpenAI

81

今天，我们分享一个关于平面单位距离问题的突破，这是一个由保罗·埃尔德什在1946年首次提出的著名开放问题。近80年来，数学家们一直认为最佳可能的解决方案大致类似于方形网格。现在，一个OpenAI模型推翻了这一信念，发现了一个全新的、性能更优的构造家族。这标志着AI首次自主解决了一个数学领域的核心著名开放问题。

OpenAI推理论文/研究

关联讨论 9 条

03:07

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选83

OpenAI模型证伪了离散几何中的一个核心猜想

OpenAI开发的人工智能模型成功解决了数学界悬而未决逾80年的“单元距离问题”，并由此推翻了离散几何领域的一个核心猜想。这一突破被视作人工智能驱动数学研究的里程碑事件，标志着AI在基础科学理论探索中取得了实质性进展。该模型通过创新算法处理复杂的几何问题，展示了机器在自动化发现与验证数学猜想方面的巨大潜力。

OpenAI推理论文/研究

关联讨论 9 条

推荐理由：OpenAI模型独自推翻了一个80年未解的离散几何猜想，这种级别的数学突破以前只属于人类顶级大脑，现在AI也做到了，做理论研究的可以看看它怎么做的。

02:08

HuggingFace Daily Papers（社区热门论文）

66

面向网格上三角剖分无关流匹配的马顿噪声

该研究解决了在三角网格上生成信号时需适应不同网格与三角剖分的问题。理论上，本文提出了一种数学上定义的、与三角剖分无关的噪声分布——Matérn高斯随机场的离散化，作为流匹配框架中的噪声模型。方法上，采用梯度域学习的PoissonNet作为去噪器。实验任务包括生成弹性静止状态与类人姿态。结果表明，该方法能处理超过百万三角形的高精度网格，其生成结果在真实感与多样性上显著超越现有技术。

arXiv论文/研究

00:08

HuggingFace Daily Papers（社区热门论文）

63

基于时空注意力链的快速4D网格生成

该研究提出一种无需训练的4D网格生成新方法，通过“时空注意力链”框架实现动态三维结构的快速重建。方法从锚定网格顶点出发，在潜在空间中追踪时间对应关系，避免了显式匹配的高计算成本。实验显示，新方法仅需9秒即可生成4D网格，速度比现有最优方法提升13倍且质量更优，还能处理长达16倍的视频序列而不降低质量。改进的对应关系使其在2D物体跟踪和4D跟踪任务中达到有竞争力的零样本性能，并首次在4D网格生成中实现了可靠的相机参数估计。

多模态视频论文/研究

00:05

AK@_akhaliq

67

基于点互信息的推理强化学习反自蒸馏方法

arXiv推理数据/训练论文/研究

00:05

AK@_akhaliq

64

ESI-Bench 迈向闭环感知-行动的具身空间智能

具身智能论文/研究

5月20日

22:08

HuggingFace Daily Papers（社区热门论文）

65

用于高效全能模态大语言模型的阶段自适应Token选择

全能模态大语言模型在处理交织的视频与音频token时，固定比例的剪枝方法无法适应跨模态重要性随网络深度的动态变化。为此，本文提出无需训练的阶段自适应token选择方法SEATS。该方法在模型输入前通过注意力加权进行去冗余，在模型内部逐层动态分配模态保留配额，并在跨模态融合完成后移除所有剩余非文本token。实验在Qwen2.5-Omni和Qwen3-Omni模型上验证，仅保留10%的视觉和音频token，即可实现9.3倍FLOPs削减与4.8倍预填充加速，同时保持96.3%的原始性能。

arXivHugging Face多模态推理

21:08

HuggingFace Daily Papers（社区热门论文）

精选74

优化_anything：通用文本参数优化API

该研究提出了一种基于大语言模型的通用文本优化系统，将优化问题统一表述为通过评分函数改进文本产物。在六项任务中达到最优结果：智能体架构使Gemini Flash在ARC-AGI上的准确率从32.5%提升至89.5%；调度算法降低40%云成本；87%的CUDA内核匹配或超越PyTorch表现；圆包装问题超越AlphaEvolve。实验表明，可操作的附加信息比仅使用分数反馈收敛更快、得分更高；多任务搜索通过跨任务迁移学习，在同等预算下优于独立优化，且任务数量越多收益越大。该工作首次证明基于LLM的文本优化是通用问题解决范式，能统一传统领域特定算法。系统已开源，支持多种后端。

智能体arXivGitHub搜索

推荐理由：让一个LLM同时优化agent架构、调度算法和CUDA内核，还能将ARC-AGI从32%拉到89%，这可能是今年最突破认知的通用问题求解范式，做agent的人必须看。