AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态资讯 · 1789 条
全部一手资讯X论文
6月3日周三
6月2日周二
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月3日
22:42
HuggingFace Daily Papers(社区热门论文)
61
AURA:面向机器人策略的恒定VRAM动作门控记忆

AURA-Mem是一种恒定大小的递归记忆机制,专为机器人策略设计。它包装了一个冻结的视觉-语言-动作主干(7B参数),通过学习门控仅在当前观测会改变下一步动作时写入记忆。推理状态固定为4,224字节,而KV-cache在100,000步时大6,061倍。在LIBERO-Long上,门控策略未降低成功率(0.233),略优于始终写入的KV臂(0.217),同时写入次数减少7.0倍。在合成基准上,AURA-Mem匹配最佳O(1)基线精度,写入次数减少5.19–6.13倍,而随机或周期调度无法复现该增益。

具身智能论文/研究
20:42
HuggingFace Daily Papers(社区热门论文)
61
BA-T:面向两视图光束平差法的迭代Transformer

BA-T是一种用于两视图光束平差法的迭代Transformer,受经典BA启发,将BA风格的结构化更新实现为隐式token空间中的可重复层。不同于传统前馈3D重建模型依赖深度解码器堆叠,BA-T基于潜在残差通过单一轻量层逐步精炼位姿和重建结果。实验显示,BA-T在迭代中持续提升精度,实现比传统解码器更强的跨视图一致性,并以仅16%的decoder参数匹配或超越更大模型。代码已开源。

GitHub论文/研究
18:00
Anthropic:Newsroom(网页)
75
Anthropic:一年来AI赋能网络威胁映射分析

Anthropic分析了2025年3月至2026年3月间因恶意网络活动被封禁的832个账号,映射至MITRE ATT&CK框架。67.3%的账号使用AI编写恶意软件,6.5%用于横向移动。攻击者中高风险比例从上半年的33%升至下半年的56%。AI使用从初始访问转向后期活动,账户发现增长8.9%,AI辅助钓鱼下降8.6%。攻击者技能与使用技术数量无显著关联(最低技能者平均16种,最高约20种),所用平台也与风险等级不相关。更高风险攻击者将AI集中于操作密集型技术,并构建允许模型自动链式执行攻击步骤的脚手架。MITRE ATT&CK框架未收录AI自主编排攻击链等行为。

Anthropic安全/对齐论文/研究
关联讨论 1 条X:Anthropic (@AnthropicAI)
17:51
Anthropic:Research(发表成果 · 网页)
精选69
Anthropic 分析 832 个 AI 恶意账户:中高风险攻击者半年从 33% 跃至 56%

Anthropic 分析 2025 年 3 月至 2026 年 3 月间 832 个被封禁的恶意账户,映射至 MITRE ATT&CK 框架。67.3% 使用 AI 编写恶意软件,6.5% 用于横向移动。六个月间中高风险攻击者占比从 33% 升至 56%。AI 用于账户发现增长 8.9%,AI 辅助钓鱼下降 8.6%。传统基于技术数量或平台(Claude Code、API、聊天界面)的威胁评估失效,而 MITRE ATT&CK 框架尚未收录此类智能体编排行为。

Anthropic安全/对齐论文/研究
关联讨论 1 条X:Anthropic (@AnthropicAI)
推荐理由:这份报告用一整年的真实案例揭示了AI攻击正从初始入侵转向深度潜伏,连MITRE ATT&CK框架都开始跟不上。安全从业者值得一读,它告诉你下一波威胁长什么样。
14:42
HuggingFace Daily Papers(社区热门论文)
64
PaddleOCR-VL-1.6:通过欠优化区域精修与渐进式后训练拓展文档解析前沿

PaddleOCR-VL-1.6是一个升级的紧凑型文档解析模型,基于0.9B参数规模的PaddleOCR-VL-1.5构建。针对前一版本中模型行为不稳定、数据稀疏或监督不可靠的欠优化区域,该模型引入了区域感知数据优化框架进行定向增强,并采用基于精选数据选择和强化学习的渐进式后训练方案。PaddleOCR-VL-1.6在OmniDocBench v1.6上取得了96.33%的新SOTA成绩,展现出与顶尖VLMs的竞争力。

arXiv多模态数据/训练论文/研究
13:42
HuggingFace Daily Papers(社区热门论文)
55
Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling

该研究将大语言模型推理测试时扩展的自适应采样过程建模为马尔可夫决策过程,并使用强化学习训练一个轻量级采样控制器。该控制器在每一轮决定是停止采样还是获取更多样本,仅依赖最终答案的统计信息,并能联合权衡答案正确性、延迟与计算成本,且可在CPU上训练和部署。实验在Qwen2.5-7B和Llama-3.1-8B模型上进行,与ASC等强基线相比,该方法在正确性、采样轮数和总样本数之间取得了更优的权衡。

推理论文/研究
12:42
HuggingFace Daily Papers(社区热门论文)
59
面向推理模型的价值感知随机KV缓存淘汰策略

推理模型通过延长思考链提高准确率,但长输出导致内存与计算瓶颈。现有KV缓存淘汰方法因准确率常不及保留完整缓存的稀疏注意力方法而受限。研究发现,淘汰少量大数值价值状态会导致模型陷入重复推理循环;引入随机性则能提升缓存多样性以改善准确率。基于此,本文提出无需训练的“价值感知随机KV缓存淘汰”方案。在Qwen3模型上的实验表明,该方法进行4倍缓存压缩时,在六个推理任务上的平均准确率高于同等稀疏度下的SOTA选择方法,并比最强淘汰方法提升超过4%。

推理论文/研究部署/工程
12:42
HuggingFace Daily Papers(社区热门论文)
精选70
世界模型与语言模型:论具体推理与抽象推理的互补性

本研究探讨了世界模型与多模态大语言模型在预测未来状态时的互补性。世界模型可生成具体的视觉未来轨迹,但可能视觉合理却任务错误;多模态大语言模型则擅长抽象推理。为此,研究提出了“受控的具体推理”框架,并构建了VRQABench和OpenWorldQA两个基准。同时,提出了Privileged-Future On-Policy Self-Distillation(PF-OPSD)方法,该方法在训练时利用真实未来视频作为特权上下文评估推理轨迹,但部署时无需真实未来。实验结果显示,PF-OPSD在两个基准上分别比基线高出10.6%和10.9%,并提升了对噪声或冲突轨迹的鲁棒性。

智能体多模态开源/仓库推理

推荐理由:世界模型靠视觉预测,语言模型靠抽象推理,这篇把两者真正拧在一起了。用未来视频做自我蒸馏提升 10%,还给全开源,做 agent 决策的可以认真看看‘什么时候不信自己的眼睛’是怎么训出来的。
11:05
Hacker News 热门(buzzing.cc 中文翻译)
精选75
斯坦福大学法学院研究:人工智能的表现优于法学教授

斯坦福大学法学院的一项研究表明,人工智能的表现优于法学教授。该发现引发了广泛关注,在Hacker News平台获得了104个Points。

推理论文/研究

推荐理由:斯坦福法学院自己下场测的,AI在法律考试上超过教授,虽然不是什么新题型,但官方自己出这种结果,对法律科技赛道是个真信号。
10:41
HuggingFace Daily Papers(社区热门论文)
68
视觉状态追踪基准VSTAT:评估多模态大语言模型的视频理解能力

研究者提出了视觉状态追踪基准VSTAT,用于诊断多模态大语言模型在视频理解中持续追踪实体与状态的能力。该基准包含834个来自合成与真实视频的片段,并配有1500个必须通过连续感知才能回答的问题。测试发现,现有顶尖多模态大语言模型在VSTAT上的表现远低于人类,仅略高于随机答案基线。分析表明,模型的文本推理能力尚可,但视觉感知所必需的事件追踪能力存在不足。初步评估也显示,包括智能体在内的现有方法也未能有效解决这一问题。

多模态视频论文/研究
10:41
HuggingFace Daily Papers(社区热门论文)
56
Humanoid-GPT:通过规模化数据与结构实现零样本动作追踪

Humanoid-GPT是一个基于GPT架构的Transformer模型,专为人形机器人全身控制设计。它在一个包含20亿帧的重定向运动语料库上进行预训练,该语料库统一了主要的动作捕捉数据集与大规模内部录制数据。通过扩展数据规模和模型容量,Humanoid-GPT成为了能够追踪高动态行为的单一生成式Transformer,并对未见过的运动和控制任务展现出前所未有的零样本泛化能力。实验证明,该模型在零样本泛化至新任务的同时,能稳健地追踪复杂动态动作,建立了新的性能前沿。

具身智能数据/训练论文/研究
10:41
HuggingFace Daily Papers(社区热门论文)
61
语言模型需要睡眠:学习自我修改与巩固记忆

受人类学习过程启发,研究提出了一种让大语言模型持续学习的“睡眠”范式。该范式包含两个阶段:第一阶段为记忆巩固,通过“知识播种”将较小模型的记忆向上蒸馏至更大网络,以保留知识并提升容量;第二阶段为“做梦”,模型利用强化学习生成合成数据课程进行自我演练和改进,无需人工监督。实验验证了该范式在长期、持续学习、知识整合及少样本泛化任务上的重要性。

论文/研究
10:41
HuggingFace Daily Papers(社区热门论文)
65
NVIDIA OmniDreams:用于闭环自动驾驶模拟的实时生成式世界模型

OmniDreams是一个基于Cosmos扩散模型进行中后期训练的基础生成式世界模型,使用21k小时驾驶场景数据训练。它能根据过去帧、当前仿真器状态和即时驾驶动作,自回归地实时生成动作条件化的逼真传感器视频,可合成极端天气和不可预测的动态智能体行为等复杂现象。该模型部署于包含Alpamayo 1策略模型和AlpaSim协调器的闭环系统中,作为高响应性环境。初步结果显示,基于OmniDreams后训练的世界-动作模型(WAM)在Physical AI自动驾驶NuRec数据集上,仅用Alpamayo 1.5研究策略模型1/5的总参数就取得了优异性能。

具身智能论文/研究
10:41
HuggingFace Daily Papers(社区热门论文)
67
Ψ-Bench:评估说服性对话中的人格敏感影响力

Ψ-Bench 是一个新提出的基准测试,旨在评估大语言模型在说服性对话中主动影响用户的能力。它设计了三个真实的交互场景,并通过对话历史为模拟客户赋予具体的人格特征。该基准对 10 个前沿大语言模型进行了评估,发现即使是最先进的模型在说服力方面仍有较大提升空间。研究同时发现,在提供客户档案后,模型性能平均提升 18.24%,凸显了用户特定信息对于实现有效说服的重要性。该工作指出,人格敏感影响力是评估与发展更主动的个性化 AI 智能体的一个有挑战性且实用的方向。

智能体arXiv开源生态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
SparDA:面向长上下文LLM推理的高效稀疏解耦注意力架构

SparDA提出解耦稀疏注意力架构,在QKV外引入第四层投影Forecast,预测下一层所需KV块,使CPU到GPU预取与当前层执行重叠。GQA实现中每组使用一个Forecast头。仅增加<0.5%参数,训练仅更新Forecast投影。在8B稀疏预训练模型上匹配或略提升精度,实现prefill加速1.25倍、decode加速1.7倍;相比非offload稀疏基线,单GPU上decode吞吐量提升5.3倍。代码已开源。

推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
46
PACT:行动状态通信实现高效多智能体系统

多智能体系统(MAS)中自由自然语言通信会导致token浪费和上下文膨胀。分析五种通信策略后发现无固定策略最优,但有效消息总包含下游智能体所需的行动中心信息。为此提出PACT协议,将通信视为公共状态更新问题,把每个智能体原始输出压缩为紧凑的行动状态记录再写入共享历史。PACT在不同MAS拓扑中均能实现相当或更强任务性能,同时大幅减少token消耗:在OpenHands上以每个已解决问题token消耗减少10%的代价提升解决率,在SWE-agent上解决率不变但输入token减半。代码已公开。

智能体MCP/工具论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
46
SGDR:面向Web智能体的在线技能学习方法

SGDR是一种面向Web智能体的在线技能学习方法,能在执行过程中按步骤动态复用技能。它包含三个组件:滑动窗口提取将完成轨迹转化为可调用子过程;双文本-代码表示连接技能检索与可执行动作;状态接地动态检索机制同时匹配任务目标与当前网页状态。在WebArena五个领域上,SGDR搭配GPT-4.1的平均成功率达37.5%,搭配Qwen3-4B达24.3%,分别相对最强基线提升10.6%和10.0%。代码已开源。

智能体论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
60
智能体终极考试(Agents' Last Exam)

AI系统在多项基准上表现强劲,但未转化为经济上有意义的行业部署。新基准Agents' Last Exam(ALE)由250+行业专家联合开发,基于O*NET/SOC 2018联邦职业分类,覆盖13个行业集群、55个子领域、1000+任务,用于评估AI智能体在长周期、高经济价值真实工作流上的表现。当前最难层级平均完全通过率仅2.6%。ALE设计为动态基准,任务池持续扩展,旨在弥合基准成功与GDP影响之间的差距。

智能体arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
38
CIPER:跨视角图像检索与位姿估计的统一框架

现有跨视角地理定位方法将城市级检索和精确位姿估计分离,导致级联误差与特征不一致。CIPER提出单一架构同时完成两项任务:采用共享Transformer编码器配合任务专用token,分离全局检索特征与空间定位线索;引入双向Transformer位姿解码器,以地面特征作为空间查询进行双向交叉注意力,弥合地面与航拍视角的域差距。基于集合预测策略实现稳定3-DoF回归。在VIGOR、KITTI和Ford Multi-AV数据集上,CIPER在有限视场角和任意朝向条件下表现优越。代码已开源。

arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
Muon 优于 Adam 的曲率视角解释

研究从曲率角度解释 Muon 在 LLM 训练中效率约为 Adam 两倍的原因。二阶泰勒展开显示,两者一阶增益相当,但 Muon 的二阶曲率惩罚更小。曲率惩罚分解为更新范数与归一化方向锐度(NDS),两者更新范数相近,Muon 的 NDS 更低,且数据不平衡会放大这一优势。中后期训练中,Muon 的 NDS 优势主要源自更小的层内曲率。理论证明,Muon 通过平衡不同曲率组间的更新能量实现更小平均 NDS,在曲率异质性足够强时,同等步数下局部二次损失也更低。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
自我评估已然存在:用极少数据激发基座大模型的潜在评判校准能力

研究发现,基座大语言模型未经针对性训练,仅凭少量样本提示即可预测外部评判者的多属性质量分数,效果显著高于随机。Self-Evaluation Elicitation(SEE)方法分两阶段激发该能力:先通过校准耦合的强化学习改进答案并预测评判者,再以掩码蒸馏精炼预测而不改动答案。仅用160个示例(比强化学习基线少约31倍),SEE就在三个基准上提升留出校准并保持答案质量。该自我评估集中在模型自身的token分布,对未训练过的评判者表现稳定,表明其捕捉的是可迁移的质量概念而非单一评判者偏好。

arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
55
Imaginative Perception Tokens 增强多模态语言模型的空间推理

多模态语言模型在无法直接观测空间信息时推理能力不足。Imaginative Perception Tokens (IPT) 是一种中间感知表征,使模型能在保持与输入观测一致的前提下,外推出替代空间配置下的感知结果。研究基于统一 VLM 模型 BAGEL,构建了 Perspective Taking、Path Tracing 和 Multiview Counting 三个任务共约 2 万样本的基准。IPT 监督训练持续提升空间推理性能,在 MVC 上准确率提升 3.4%,在 PT 上与强闭源模型相当,且常优于文本思维链训练。IPT 为不可观测空间结构提供了原则性监督信号,同时生成可解释的中间表征。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
DistIL:基于分布化DAgger的丰富反馈强化学习方法

现有RLVR仅用单比特反馈判断答案正误,忽略执行轨迹、工具输出等丰富信息。DistIL通过分布化DAgger算法,使学习器局部访问当前策略下状态的专家分布,优化前向交叉熵目标实现序列级信用分配。理论证明前向交叉熵保证单调策略改进和遗憾界,而反向KL或JS散度的自我蒸馏无法做到。DistIL在科学推理、编程和硬数学问题等领域优于RLVR和自我蒸馏基线,并提升Pass@N。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
通过 Fisher 信息度量模型鲁棒性:谱界、理论保证与实用算法

提出基于 Fisher 信息矩阵(FIM)谱范数的攻击无关鲁棒性度量,量化模型输出对输入扰动的 worst-case 敏感度。理论上证明 FIM 等于输入 Jacobian 的方差,并推导出 VGG、ResNet、DenseNet、Transformer 等架构的闭式谱界,给出首个理论鲁棒性排序。开发基于幂迭代和 Hutchinson 估计的高效算法,支持白盒与黑盒场景。在 CIFAR、ImageNet、医学图像等数据集上的实验表明,该度量与对抗脆弱性高度相关。代码已开源。

安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
GENEB: 为什么基因组模型难以比较

基因组基础模型的进展因基准碎片化、评估协议不兼容而难以评估。GENEB是一个大规模诊断基准,在统一探针协议下评估40个模型在100个任务(13个功能类别)上的冻结表示,包含少样本场景。分析显示聚合排行榜不稳定:模型排名在不同任务类别间差异显著,规模带来的收益有限且不一致,架构和预训练对齐的影响常超过参数数量。GENEB为基因组机器学习提供了原则性比较和类别感知模型选择的参考框架。

论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
58
BRepCLIP:面向CAD理解的BRep原语对比多模态预训练框架

BRepCLIP是首个通过对比预训练将CAD边界表示(BRep)几何与语言和图像嵌入对齐的框架。每个CAD对象被建模为面与边token序列,使用表面(如圆柱面、环面、NURBS)和曲线(如直线、圆弧、B样条)的离散词汇表,并补充空间与语义描述符。Transformer编码器将这些token汇聚为全局BRep嵌入,通过联合对比目标与CLIP的文本、图像编码器对齐。相比基于点云的OpenShape,BRepCLIP在ABC、CADParser、Automate数据集上Top-1检索分别提升40.4%、22.0%和23.9%,在FabWave上零样本分类Top-1提升15%。该框架还可作为CAD感知相似度度量用于评估文本和图像条件CAD生成。

arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
60
TIDE:模板引导的迭代式主动多问题发现框架

TIDE是一种模板引导的迭代框架,用于从用户上下文中主动发现多个隐藏问题。传统智能体仅响应显式请求,而大量共存的潜藏问题存在于文档、工具和代码中。TIDE通过迭代发现机制每轮批量筛选候选问题,并基于已发现结果调节后续搜索以扩大覆盖;同时通过思维模板从历史案例中提炼复用模式,指示模型关注哪些上下文信号及如何关联,将每个预测锚定到可识别的问题类别。在个人工作空间和软件仓库两个真实场景中,基于四个模型骨干的验证显示,TIDE在任务覆盖、问题识别与解决方面均显著优于单次预测和并行多智能体基线。

智能体arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
SePO:自演化提示智能体用于系统提示优化

SePO提出自指设计,单个提示智能体同时优化任务智能体及自身的系统提示,通过开放式演化搜索维护候选提示档案。训练分两阶段:预训练(多任务池演化)与微调(目标任务)。在数学(AIME'25)、抽象推理(ARC-AGI-1)、研究生科学(GPQA)、代码生成(MBPP)和数独五个基准上,SePO一致超越Manual-CoT、TextGrad和MetaSPO,平均准确率较Manual-CoT提升4.49个百分点。预训练习得的提示优化技能可泛化至未见任务。

智能体arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
个人相机胶卷视觉问答AI智能体(Camroll-Agent)

研究个人相机胶卷视觉问答场景,AI助手可访问用户相机胶卷并检索相关照片回答事实性或开放性问题。构建camroll数据集,包含50名用户、31,476张图像和2,500个问答对。设计camroll-agent对话式智能体,配备层次化记忆和最小工具集以高效导航大规模个性化视觉记忆。实验表明其优于多种基线方法,揭示个性化视觉记忆需要不同于标准长上下文文本记忆的方法,尤其在一致性、视觉细节和用户特定上下文方面。

智能体多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
VideoKR:面向知识与推理密集型视频理解

VideoKR是首个专为强化知识与推理密集型视频理解设计的大规模训练语料,包含315K个视频推理示例,覆盖145K个新收集的CC许可专家领域视频。研究开发了一种人机协同、面向技能的示例生成管道,并构建了专家标注基准VideoKR-Eval。实验表明,在标准SFT→GRPO流水线下,基于VideoKR后训练的模型在知识密集型视频推理上超越先前方法,同时在通用视频推理上保持竞争力。消融实验进一步证实了数据设计的驱动作用。

多模态数据/训练视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
68
Video2LoRA:面向视觉语言模型的参数化视频内化方法

Video2LoRA通过感知器超网络读取冻结视觉语言模型编码视频时的逐层中间表示,单次前向传播生成LoRA适配器,无需迭代梯度更新。在SmolVLM2 500M和2.2B上训练后,同一冻结VLM仅从适配器回答查询,上下文中零视觉token。在五个字幕基准和八个视频问答基准配对中,Video2LoRA非劣效且等价于直接视频上下文推理。虽仅用12帧384px训练,但稳定支持1024帧和1024px,将回答时视觉token负载减少最高1500倍,查询TTFT减少6–80倍。非重叠视频段独立生成的适配器可在秩空间中组合。

多模态论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
62
Flash-WAM:面向世界动作模型的模态感知蒸馏

世界动作模型(WAMs)通过迭代扩散联合生成未来视频与机器人动作,但数十步去噪成本阻碍实时控制。Flash-WAM 提出模态感知步蒸馏:为动作流低噪声区采用线性梯度缩放参数化,为视频流高噪声区采用方差保持参数化,将推理压缩至单步。在 LingBot-VA 上实例化后,RoboTwin 2.0 每块延迟从 8.1 秒降至 348 ms(NVIDIA L40S),23 倍加速。仿真基准成功率保持(RoboTwin 2.0 85.5%,LIBERO 95.7%),真实世界 Unitree G1 人形机器人平均 60%,而朴素一致性蒸馏仅 24%。

具身智能推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
61
重新思考持续经验内化:面向自进化LLM智能体

经验内化将LLM智能体过往交互经验转化为可复用参数化能力。现有研究集中于单次迁移,但多轮学习下已有方法出现渐进式能力崩溃。通过分析三个维度发现:原则级经验比实例级更持久;逐步注入模式优于全局注入;离策略上下文蒸馏比在策略更稳定。这些发现为构建稳定可持续的经验内化方法提供指导。

智能体arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
SpeechEditBench:双语多属性指令引导语音编辑基准

SpeechEditBench 是一个双语多属性基准测试,系统评估指令引导的语音编辑能力。基准涵盖七种原子编辑任务及组合编辑任务,并提出基于锚点的评估协议,分别衡量目标属性编辑成功、非目标属性保持成功及联合成功。评测主流语音大语言模型和专用语音编辑系统发现:(1)无单一模型在所有维度表现优异;(2)闭源语音LLM整体优于开源模型;(3)组合编辑极具挑战。该基准为定位语音LLM瓶颈提供诊断框架,数据代码已公开。

arXiv论文/研究语音
03:41
HuggingFace Daily Papers(社区热门论文)
64
语义运动锚点:弥合协同语音手势中的运动与意义

研究提出“语义运动锚点”方法,用于解决协同语音手势生成与检索中语义理解不足的问题。该方法将3D手势离散化为身体-手部运动原语,并转化为结构化的自然语言描述,作为辅助监督信号锚定于语音文本。在BEAT2数据集上,该方法将文本到手势检索的R@1指标提升了8.2%,并优于现有方法。检索增强的手势生成用户研究显示,该方法检索到的手势在传达交流意图方面明显优于基线。

多模态论文/研究
03:41
HuggingFace Daily Papers(社区热门论文)
66
DOT-MoE:用于MoE化的可微最优传输

DOT-MoE提出了一种将预训练密集模型转换为Mixture of Experts架构的新框架。该方法将密集层的分解建模为一个可微最优传输问题,利用Sinkhorn-Knopp迭代来实施严格的专家容量约束。同时,通过Straight-Through Estimators端到端联合学习离散的神经元-专家分配与token-专家路由策略。实验表明,DOT-MoE在多个基准测试中显著优于结构化剪枝等基线方法,能够在减少50%活跃参数的同时,保留原始密集模型90%的性能。

arXiv推理数据/训练论文/研究
01:40
HuggingFace Daily Papers(社区热门论文)
60
TVIR:面向文本-视觉交错报告生成的深度研究智能体构建

针对现有深度研究系统以文本为中心、视觉元素可靠性与对齐性评估不足的问题,本文提出了TVIR框架,包括TVIR-Bench基准测试和TVIR-Agent多智能体框架。TVIR-Bench包含100个要求视觉元素服务于特定分析目标的多模态任务。TVIR-Agent采用分层多智能体设计,负责构建大纲、检索图像、生成可溯源图表并进行上下文感知写作。研究进一步开发了结合文本与视觉评估的双路径评估框架。对九个系统的实验表明,TVIR-Agent表现优异,凸显了多模态设计对于证据驱动报告生成的重要性。

图像生成多模态论文/研究
01:40
HuggingFace Daily Papers(社区热门论文)
精选71
AFUN: 迈向功能理解的可供性基础模型

AFUN是一个用于功能理解的可供性基础模型。它从单个RGB-D观察和语言任务描述出发,能同时预测任务条件的功能掩码(where)和3D接触后运动曲线(how)。为实现开放世界泛化,该研究构建了一个大规模标准化数据管道,整合了机器人、人类、仿真与真实扫描数据。评估结果显示,AFUN在可供性分割任务上,于4个基准的8个测试集中平均gIoU/cIoU指标分别大幅领先基线模型+23.9/+26.3;在接触点预测上,命中率比最佳基线高出12.7%–61.3%;在3D运动预测上也取得最佳性能。该模型无需针对特定机器人实体进行微调即可直接部署。

具身智能数据/训练论文/研究

推荐理由:在 affordance 基础模型方向做出一步,跨 8 个测试集大幅超越基线,并可直接部署到真实机器人,对具身智能的通用化是个值得关注的信号。
00:40
HuggingFace Daily Papers(社区热门论文)
61
Harness-1:面向搜索智能体的强化学习与状态外部化框架

Harness-1是一个20B参数的检索子智能体,通过强化学习训练。其核心创新是将状态管理外部化至环境侧的框架中,该框架负责维护包括候选池、重要性标注的精选集、证据链与验证记录等工作记忆,使策略本身专注于搜索语义决策。在八个涵盖网页、金融、专利等领域的检索基准测试中,Harness-1取得了0.730的平均精选召回率,超越了次优的开源搜索子智能体11.4个点,并与规模更大的前沿模型保持竞争力。其代码已开源。

智能体检索增强搜索论文/研究
6月2日
23:40
HuggingFace Daily Papers(社区热门论文)
60
PaW:策略与世界模型协同训练框架

提出PaW框架,通过协同训练策略与世界模型来提升语言智能体性能。该方法直接利用on-policy强化学习rollout中已有的信号(动作与后续观测的配对),无需额外模拟器、训练阶段或推理计算。PaW引入三个组件:基于动作熵的世界模型数据选择、噪声容忍的损失函数以及奖励自适应的损失平衡,以确保辅助监督的稳定性。实验表明,在三个智能体任务基准上,PaW在不同模型和RL算法上均持续优于强RL基线,证实了标准RL rollout可作为世界模型监督的实用来源。

智能体开源生态论文/研究
‹ 上一页
1…678910…45
下一页 ›