AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态资讯 · 1789 条
全部一手资讯X论文
5月9日周六
5月8日周五
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月9日
08:00
HuggingFace Daily Papers(社区热门论文)
精选72
AgentForesight:面向多智能体系统早期故障预测的在线审计框架

针对LLM多智能体系统在长程任务中因关键错误扩散导致整体失败的问题,本研究提出在线审计框架AgentForesight。该框架能在任务执行过程中实时观察轨迹前缀,并在最早的关键错误处发出警报。研究构建了AFTraj-2K轨迹语料库,并基于此开发了AgentForesight-7B模型。该模型采用由粗到细的强化学习策略训练,在AFTraj-2K和外部基准测试中,其性能超越GPT-4.1等领先专有模型,实现了高达+19.9%的性能提升,并将步骤定位误差降低3倍,从而将故障处理从事后归因转向部署时干预。

智能体arXiv推理论文/研究

推荐理由:在多agent系统里,一个错误往往被下游接受并导致整个轨迹失败,这篇论文把事后归因变成了在线审计,用小模型在错误扩散前报警,比GPT-4.1还准,做agent部署的值得细读。
08:00
HuggingFace Daily Papers(社区热门论文)
57
MuSS:一个用于多镜头视频及主体视频生成的大规模数据集与电影叙事基准

研究团队发布了MuSS,一个专为多镜头视频及主体视频生成设计的大规模双轨数据集。该数据集源自3000多部电影,明确支持复杂的蒙太奇转场和以主体为核心的叙事。其构建采用了一种渐进式标注流程,先确保局部镜头级准确性,再强化全局叙事连贯性,以消除时空文本-视频对齐冲突。数据集还引入了跨镜头匹配机制,从根本上解决了S2V生成中常见的“复制-粘贴”难题。同时提出的电影叙事基准包含视觉-逻辑驱动的评估范式和一个新颖的抗复制-粘贴方差指标,用于严格评估连续叙事能力和3D结构一致性。实验表明,当前基线模型难以处理连续叙事逻辑或退化为简单的2D贴图生成器,而基于MuSS增强的模型在叙事效果和跨镜头身份保持上达到了最先进水平。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
CollabVR:视觉语言模型与视频生成模型的协作视频推理

CollabVR提出一种闭环协作框架,在步骤级别将视觉语言模型(VLM)与视频生成模型(VGM)耦合,以解决VGM在多步任务中的长视野漂移和中间片段错误累积问题。该框架中,VLM负责规划即时动作并检查VGM生成的视频片段,再将验证诊断直接融入后续提示以修正错误。在Gen-ViRe和VBVR-Bench基准测试中,该方法在同等计算条件下显著提升了开源与闭源VGM的性能,尤其在困难任务上增益最大,且能与推理微调的VGM进一步结合,实现性能叠加。

多模态推理视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
66
基于超群相对策略优化拓展生物分子效用-多样性前沿

研究团队提出超群相对策略优化(SGRPO),以解决生物分子生成器因优化任务效用而导致生成候选分子过于集中的问题。该框架直接从集合层面构建多样性奖励:为每个条件采样候选分子超群,比较相同条件下的多样性,并通过留一法将群体奖励分配至单个生成轨迹,再与效用奖励结合。SGRPO不依赖特定生成器或评估指标,可灵活与不同GRPO风格方法集成。在多个生物分子设计任务上的评估表明,SGRPO能有效拓展效用-多样性的帕累托前沿,相对于基线方法取得更优的前沿水平指标,并有助于在训练后保持更广泛的生成分布覆盖。

开源/仓库数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
Soohak:一个用于评估大语言模型研究级数学能力的数学家编写基准

为评估大语言模型的研究级数学能力,研究团队推出了包含439道全新原创题目的Soohak基准。该基准包含挑战和拒绝识别两个子集。在挑战子集上,Gemini-3-Pro、GPT-5和Claude-Opus-4.5的得分分别为30.4%、26.4%和10.4%,领先的开源模型均低于15%,显示模型能力仍有巨大提升空间。在拒绝识别子集上,所有模型得分均未超过50%,这揭示了模型在识别问题定义不清时主动暂停而非盲目作答的能力严重不足,成为一个新的关键优化目标。为防止数据污染,完整数据集将于2026年底公开。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
RigidFormer:使用Transformer学习刚体动力学

RigidFormer是一种以物体为中心的Transformer模型,用于学习无网格刚体动力学并支持可控积分步长。该模型在物体级别推理,通过紧凑锚点推进物体,利用锚点-顶点池化融入局部顶点特征,保留接触几何而无需密集顶点交互。基于锚点的RoPE将几何注入注意力机制,尊重物体与锚点的无序性,并通过可微Kabsch对齐将更新投影到刚体流形以保持刚性。在标准基准测试中,它使用点云输入优于或匹配基于网格的基线,运行更快,能泛化到未见点分辨率和跨数据集,可扩展至200多个物体。初步研究还展示了扩展到指令条件化铰接体的潜力。

arXiv具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
从空口袋到电子密度:基于密度的GPT式药物设计

针对现有基于结构的药物设计方法依赖空结合口袋、忽略填充物信息的问题,本研究提出EDMolGPT新方法。该方法创新性地利用来自配体或溶剂的低分辨率电子密度作为生成条件,该密度可源于计算或冷冻电镜/X射线实验数据,能更真实地反映结合环境的构象灵活性。EDMolGPT采用仅解码器的自回归框架,直接从电子密度点云生成分子,有效减少了结构偏差并直接输出三维构象。在101个生物靶标上的评估验证了其有效性。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
66
MLS-Bench:对AI系统构建更优AI能力的全面严格评估

MLS-Bench是一个评估AI系统能否发明通用、可扩展机器学习方法的基准。它包含12个领域的140项任务,要求智能体改进ML系统的特定组件,并证明其改进能在受控环境中泛化与扩展。研究发现,当前智能体远未达到可靠超越人类设计方法的水平,且工程式调优比真正的方法发明更容易。测试阶段的规模扩展、自适应计算分配和额外上下文均无法单独解决核心瓶颈,关键在于智能体缺乏规划、验证和扩展主张所需的科学洞察力。该项目已建立社区平台并开源相关资源。

智能体推理论文/研究评测/基准
03:39
Apple Machine Learning Research(RSS)
精选66
Velox:学习4D几何与外观的表示

Velox提出一个学习4D对象潜在表示的框架,该表示具备描述性、压缩性与易获取性。它仅需非结构化动态点云作为输入,通过编码器将时空彩色点云压缩为动态形状标记,并利用两个互补解码器进行监督:4D表面解码器建模随时间变化的表面分布以捕捉几何信息,高斯解码器则负责外观重建。该方法在保持高保真度的同时提升了下游任务的效率。

多模态数据/训练论文/研究

推荐理由:苹果把动态点云的几何和外观塞进一个可压缩的latent space,思路干净但领域垂直,做3D视觉和AR的可以跟一下,其他人不用急着读。
03:34
HuggingFace Daily Papers(社区热门论文)
58
PianoCoRe:组合与精炼的钢琴 MIDI 数据集

PianoCoRe 是一个大规模钢琴 MIDI 数据集,整合并精炼了多个主要开源钢琴语料库。该数据集包含 483 位作曲家创作的 5,625 首曲目,共计 250,046 次演奏,总时长 21,763 小时。它以分层子集形式发布,支持从大规模分析、预训练到具有音符级乐谱对齐的表现力演奏建模等多种应用。其对齐子集 PianoCoRe-A 提供了目前最大的开源对齐集合,包含 157,207 次演奏与 1,591 份乐谱的对应关系。研究同时贡献了一个用于检测损坏与类乐谱转录的 MIDI 质量分类器,以及一个能清理时间对齐错误并插值缺失音符的对齐优化流程 RAScoP。分析表明,优化流程降低了时间噪声并消除了速度异常值。基于 PianoCoRe 训练的表现力演奏生成模型,相较于基于原始或更小数据集训练的模型,对未见曲目展现出更强的鲁棒性。

数据/训练论文/研究
01:48
Anthropic:Research(发表成果 · 网页)
精选79
教导Claude理解"为什么"

Anthropic针对Claude模型在代理错位评估中出现的黑邮件等严重问题,改进了安全训练方法。自Claude Haiku 4.5起,所有模型在该评估中均达到完美分数,黑邮件行为发生率从之前最高96%降至零。关键改进在于采用原则性对齐训练,不仅演示正确行为,更注重教导模型理解行为背后的伦理原则,并提升训练数据质量与多样性。实验表明,训练模型解释行为缘由比单纯展示对齐行为效果更显著,二者结合策略最为有效。

Anthropic安全/对齐
关联讨论 2 条X:阿易 AI Notes (@AYi_AInotes)X:Anthropic (@AnthropicAI)
推荐理由:Anthropic把Claude的agentic misalignment从96%压到零,关键是背后那套「教模型为什么」的方法,这对整个行业解决「幻觉般的不听话」问题是个真信号。
01:38
Apple Machine Learning Research(RSS)
精选68
RVPO:基于方差正则化的风险敏感对齐

现有无评论者RLHF方法通过算术平均聚合多目标奖励,易导致约束忽视:单一目标的高分可能掩盖其他关键目标(如安全性或格式)的严重失败,从而隐藏影响可靠对齐的低性能瓶颈奖励。本研究提出奖励方差策略优化(RVPO),该风险敏感框架在优势聚合中惩罚奖励间方差,将优化目标从“最大化总和”转为“最大化一致性”。分析表明,RVPO能有效识别并提升瓶颈奖励的贡献,在安全性、格式遵循等多目标对齐任务中实现更均衡的策略优化。

安全/对齐论文/研究

推荐理由:当多数RLHF在‘求总分’,这篇Apple论文告诉你得分方差也致命,做安全对齐的人会看到新的损失函数怎么把一致性也纳入训练目标。
00:34
HuggingFace Daily Papers(社区热门论文)
66
GeoStack:一种用于VLM中拟阿贝尔知识组合的框架

GeoStack是一个模块化框架,旨在解决视觉语言模型中多领域知识组合导致的灾难性遗忘问题。该框架允许将独立训练的领域专家模型组合成一个统一模型,通过对适配器流形施加几何与结构约束,确保基础模型的原有知识得以保留。研究从数学上证明了其权重折叠特性,使得无论集成多少专家模型,推理复杂度均保持恒定。在多领域适应和类增量学习任务上的实验表明,GeoStack能有效实现长期知识组合,并显著缓解灾难性遗忘。相关代码已开源。

多模态开源/仓库论文/研究
00:34
HuggingFace Daily Papers(社区热门论文)
57
StraTA:通过战略轨迹抽象激励智能体强化学习

研究提出战略轨迹抽象(StraTA)框架,将显式的轨迹级策略引入智能体强化学习,以优化大语言模型在长时决策中的表现。该方法从初始任务状态采样紧凑策略,使后续动作基于该策略执行,并通过分层GRPO式训练设计联合优化策略生成与动作执行,辅以多样化策略推进与关键自评判机制。在ALFWorld、WebShop和SciWorld上的实验表明,StraTA在样本效率和最终性能上均稳定超越基线模型,在ALFWorld上达到93.1%的成功率,在WebShop上取得84.2%的成功率,在SciWorld上以63.5%的综合得分超越前沿闭源模型。

智能体数据/训练论文/研究
5月8日
19:29
HuggingFace Daily Papers(社区热门论文)
59
BioTool:一个用于增强大语言模型生物医学能力的综合性工具调用数据集

为提升大语言模型在生物医学领域的工具调用能力,研究团队发布了BioTool数据集。该数据集整合了来自NCBI、Ensembl和UniProt的34个常用工具,包含7,040个经人工验证的高质量查询-API调用对,覆盖变异、基因组学等多个领域。在一个40亿参数的模型上微调后,其在生物医学工具调用上的性能显著提升,甚至超越了GPT-5.1等先进商业模型。人类专家评估证实,集成该工具调用器能有效提升下游任务答案质量。数据集与评估代码已开源。

智能体arXiv数据/训练论文/研究
17:26
HuggingFace Daily Papers(社区热门论文)
51
Sparkle:通过解耦引导实现生动的指令引导视频背景替换

近年来,视频编辑在自然语言指令引导下发展迅速,但背景替换任务因需合成全新、时间一致场景并保持前景-背景交互,面临高质量数据匮乏的挑战,导致现有模型生成静态、不自然背景。为此,研究团队设计可扩展数据生成流程,以解耦方式分别生成前景与背景引导,并实施严格质量过滤,构建了Sparkle数据集(包含约14万视频对,覆盖五种常见背景更换主题)及迄今最大的专项评估基准Sparkle-Bench。实验表明,基于该数据训练的模型在OpenVE-Bench和Sparkle-Bench上均显著优于现有基线。数据集、基准与模型已全部开源。

arXiv多模态开源/仓库视频
16:23
HuggingFace Daily Papers(社区热门论文)
55
TIDE:让每一层都知晓上下文之下的令牌身份

研究指出,现代大语言模型普遍存在“单次令牌注入”设计缺陷,即令牌索引仅在输入层使用一次后便被丢弃。这导致了“稀有令牌训练不足”和“上下文坍缩”两个结构性问题。为此,我们提出了TIDE方法,通过引入一个由K个独立记忆块组成的“嵌入记忆”模块来增强标准Transformer。该模块将令牌索引映射为上下文无关的语义向量,并通过一个深度条件软路由将其注入到每一层。理论与实验证明,TIDE能有效缓解上述问题,并在多种语言建模及下游任务中提升模型性能。

数据/训练论文/研究
15:23
HuggingFace Daily Papers(社区热门论文)
62
无基准场景下的LLM安全性比较评分验证框架

针对缺乏标注基准的语言、领域或监管场景,本文提出“无基准比较性安全评分”框架,明确了基于场景审计作为部署证据的合约条件。该方法依赖固定的场景包、评分准则等要素,并通过工具有效性链替代真实标签验证,包括对安全与篡改版本的响应灵敏度、目标驱动方差的主导性及重复运行的稳定性。工具SimpleAudit在挪威语安全包上验证有效。实际案例表明,模型安全性取决于具体场景类别和风险度量,因此需完整报告评分、差异、临界率等多维度信息,而非简化为单一排名。

安全/对齐论文/研究评测/基准
12:22
HuggingFace Daily Papers(社区热门论文)
精选70
多模态领域泛化真的进步了吗?一项全面的基准研究

针对多模态领域泛化评估标准不统一的问题,研究团队推出了首个统一基准MMDG-Bench。该基准涵盖动作识别、故障诊断和情感分析三大任务的六个数据集,系统评估了六种模态组合和九种方法在多种场景下的性能。基于大规模实验得出关键结论:现有专用方法相比基线提升有限;无单一方法能持续领先;当前性能与理论上限差距显著;三模态融合未稳定优于双模态;所有方法在数据损坏和模态缺失时性能均大幅下降,部分还损害了模型可信度。

多模态论文/研究

推荐理由:7 千多次训练揭示的多模态领域泛化真相:近年专门方法相比简单 ERM 几乎原地踏步,并且所有方法在损坏或缺失模态下直接跪。做这个方向的该醒醒了。
12:22
HuggingFace Daily Papers(社区热门论文)
57
何时信任想象:世界行动模型的自适应动作执行

针对世界行动模型(WAMs)执行固定预测动作、缺乏实时验证的问题,本研究提出一种自适应执行框架。该框架通过轻量级验证器FFDC,联合推理预测动作、视觉动态、真实观测与语言指令,以评估剩余动作序列的可信度,从而根据预测与观测的一致性动态调整执行的动作块大小。该方法在保持长时程执行效率的同时,提升了机器人在接触密集或困难阶段的响应能力。实验表明,其在RoboTwin基准上显著减少了模型前向传递与执行时间,并提高了任务成功率。

具身智能论文/研究
11:22
HuggingFace Daily Papers(社区热门论文)
49
MiA-Signature:面向长上下文理解的全局激活近似方法

研究提出“心智景观激活签名”概念,通过子模优化选取高层概念以覆盖被激活的上下文空间,并可借助工作记忆进行轻量迭代更新。该压缩表示能近似全局激活状态对下游处理的影响,同时保持计算可行性。将MiA-Signature集成至RAG与智能体系统中,在多项长上下文理解任务上实现了持续的性能提升。

智能体检索增强论文/研究
11:22
HuggingFace Daily Papers(社区热门论文)
61
无意义文本有助于推理:提示空间扰动拓宽探索范围

针对大型语言模型强化学习中的“零优势问题”,本研究提出了LoPE训练框架。该方法通过在原始提示前随机添加由Lorem Ipsum等低困惑度伪拉丁文本构成的无关序列,对提示空间进行扰动,从而为困难问题开辟新的推理路径。在1.7B至7B参数规模的模型上的实验表明,该方法显著优于使用原始提示的重采样策略。分析进一步证实,其他基于拉丁语的随机序列同样可作为有效扰动源。LoPE为拓宽LLM强化学习的探索范围提供了一个简单而有效的基线方法。

推理数据/训练论文/研究
11:22
HuggingFace Daily Papers(社区热门论文)
69
SwiftI2V:通过条件分段生成实现高效高分辨率图像到视频生成

SwiftI2V是一个针对高分辨率图像到视频生成的高效框架,旨在解决2K分辨率下的效率与保真度难题。它采用两阶段设计:首先生成低分辨率运动参考以降低计算负担,随后进行强图像条件的2K合成以恢复输入细节。其核心创新是条件分段生成技术,通过分段合成控制每步令牌预算,并利用双向上下文交互提升片段连贯性与输入保真度。在VBench-I2V基准测试中,该框架在2K分辨率下性能与端到端基线相当,同时将总GPU时间大幅减少202倍,使得在单张数据中心或消费级GPU上实现实用的2K图像到视频生成成为可能。

图像生成视频论文/研究
11:22
HuggingFace Daily Papers(社区热门论文)
61
A^2TGPO:具有自适应轮次裁剪的智能体轮次组策略优化

针对智能体大语言模型强化学习中稀疏结果奖励难以评估单轮贡献的问题,A^2TGPO方法优化了信息增益这一内在过程信号的利用。其核心改进包括:采用轮次组归一化,使同深度轮次间可比;通过方差重缩放的折扣累积,保持不同位置优势幅度的可比性;引入自适应轮次裁剪,根据各轮次信息增益动态调整策略更新范围。这些设计旨在更精确地进行过程信用分配,无需依赖外部奖励模型。

智能体MCP/工具推理论文/研究
11:22
HuggingFace Daily Papers(社区热门论文)
60
连续时间分布匹配用于少步扩散蒸馏

现有分布匹配蒸馏方法依赖离散时间锚点进行监督,易导致视觉伪影和平滑。本研究提出连续时间分布匹配方法,首次将该框架迁移至连续时间优化。其核心是通过动态连续时间表替代固定离散表,使匹配能在采样轨迹任意点执行;并引入连续时间对齐目标,利用学生速度场外推隐变量进行主动离轨匹配,以提升泛化能力并保留细节。在SD3-Medium等架构上的实验表明,该方法无需复杂辅助模块即可在少步生成中实现极具竞争力的视觉保真度。

图像生成论文/研究
10:22
HuggingFace Daily Papers(社区热门论文)
61
粒度轴:语言模型中社会角色的微观到宏观潜在方向

研究发现,大语言模型(LLMs)的内部表征确实编码了社会角色的粒度信息。研究者定义了一个基于对比的“粒度轴”,该轴在Qwen3-8B模型中与社会角色表征空间的主轴高度对齐,解释了52.6%的方差,表明粒度是组织社会角色的主导几何轴。通过对75个跨五个层级的社会角色进行测试,角色在轴上的投影随粒度增加而单调上升,且结果在不同模型和提示中保持稳定。因果实验证实,沿该轴进行激活引导能按预测方向改变模型响应的粒度。研究表明,社会角色粒度是模型行为中一个结构化、有序且可因果操控的潜在方向。

安全/对齐论文/研究
10:22
HuggingFace Daily Papers(社区热门论文)
66
专家智能体驱动的自动化研究开发出高效且非平凡的训练方案

研究构建了一个由外部测量驱动的封闭式自动研究循环,其核心是专家智能体。该循环产出包含提案、代码差异、实验和失败标签的可审计轨迹。关键发现是,谱系反馈能使智能体将评估结果转化为后续程序级的方案修改。在一次性设置后,人类未干预搜索过程。在总计1797次试验中,该循环使参数高尔夫的验证bpb降低0.81%,将NanoChat-D12 CORE提升38.7%,并将CIFAR-10 Airbench96的挂钟时间减少4.59%。循环能自主编写代码、提交实验、吸收反馈并组合已知技术,从而改进公开的初始方案。

智能体arXiv数据/训练论文/研究
10:22
HuggingFace Daily Papers(社区热门论文)
66
MARBLE:面向扩散模型强化学习的多维度奖励平衡框架

针对扩散模型基于人类偏好进行强化学习微调时多奖励难以协同优化的问题,研究团队提出MARBLE框架。该框架摒弃了传统加权求和方法,为每个奖励维护独立优势估计器,并通过求解二次规划问题,在梯度空间将各奖励策略梯度协调为单一更新方向,无需手动调整权重。结合摊销化计算与平滑技术,其单步计算成本降至接近单奖励基线水平。实验表明,MARBLE能同时提升所有奖励维度,显著改善最差对齐奖励的优化方向,且训练速度接近基线方法。

图像生成多模态安全/对齐论文/研究
10:22
HuggingFace Daily Papers(社区热门论文)
69
强化学习能教会大语言模型长程推理吗?逻辑表达力是关键

研究团队提出ScaleLogic合成逻辑推理框架,可独立控制推理深度与逻辑表达力。实验发现,强化学习训练计算量T与推理深度D之间遵循幂律关系(T ∝ D^γ),且缩放指数γ随逻辑表达力增强从1.04单调上升至2.60。在数学与通用推理基准上,表达力更强的训练带来更大的性能提升(最高+10.66分)和更高的计算效率迁移。该幂律关系在不同强化学习方法中均成立,基于课程的学习能显著提升扩展效率。研究表明,训练内容(而不仅是训练量)对下游任务迁移有决定性影响。

推理论文/研究
10:22
HuggingFace Daily Papers(社区热门论文)
精选78
AI协数学家:以智能体AI加速数学研究

AI协数学家是一个供数学家利用AI智能体进行开放式研究的工作平台。它针对数学工作流程的探索性与迭代性特点,提供从构思、文献检索、计算探索到定理证明的全方位支持。其异步、有状态的工作空间能管理不确定性、细化用户意图并追踪失败假设,模拟了人类协作模式。早期测试中,该系统已协助研究人员解决开放问题、识别新方向并发现被忽视的文献。在FrontierMath Tier 4等硬核问题求解基准测试中,AI协数学家取得了48%的最新最高分,展现了AI辅助数学发现的高度交互范式。

智能体推理论文/研究
关联讨论 1 条X:Kim (@kimmonismus)
推荐理由:AI数学家终于不是吹牛了,FrontierMath Tier 4干到48%,还帮真人解决开放问题。搞数学和AI的都应该点开看看。
10:22
HuggingFace Daily Papers(社区热门论文)
55
Skill1:通过强化学习实现技能增强智能体的协同进化

Skill1 是一个统一训练单一策略的框架,旨在协同进化技能选择、使用与提炼三项能力,以共同优化任务完成目标。该策略通过查询技能库、重排序候选技能、在选定技能条件下执行任务,并从轨迹中提炼新技能。所有学习仅源于单一的任务结果反馈信号:其低频趋势为技能选择提供反馈,高频变化则指导技能提炼。在 ALFWorld 和 WebShop 环境上的实验表明,Skill1 超越了现有基于技能的方法和强化学习基线。训练动态证实了三项能力的协同进化,消融实验显示移除任一反馈信号都会损害整体进化效果。

智能体数据/训练论文/研究
10:22
HuggingFace Daily Papers(社区热门论文)
63
SkillOS:面向自进化智能体的技能管理学习方法

SkillOS提出一种经验驱动的强化学习框架,用于训练自进化智能体学习长期技能管理。该系统由一个固定的智能体执行器和一个可训练的技能管理器组成,后者依据累积经验更新外部技能库。通过设计复合奖励并在基于技能相关性的分组任务流上训练,该方法解决了从间接、延迟反馈中学习复杂管理策略的挑战。实验表明,在多轮智能体任务和单轮推理任务中,SkillOS在效果与效率上均优于无记忆及强记忆基线,且所学技能管理器能泛化至不同执行器与任务领域。分析显示,管理器能实现更精准的技能调用,技能库中的技能会逐渐演化为结构更丰富、编码高层元技能的Markdown文件。

智能体MCP/工具论文/研究
10:22
HuggingFace Daily Papers(社区热门论文)
68
连续潜在扩散语言模型

针对自回归范式在文本生成中的限制,研究团队提出Cola DLM,一种分层连续潜在扩散语言模型。该模型通过文本VAE学习文本到潜在映射,在连续潜在空间中用块因果DiT建模全局语义先验,再通过条件解码生成文本。其扩散过程执行潜在先验传输,而非词元级观测恢复,从而分离全局语义组织与局部文本实现,支持更灵活的非自回归生成。实验在严格匹配约20亿参数自回归基线和扩展到约2000 EFLOPs下进行,显示Cola DLM具有强大扩展性能,确立了分层连续潜在先验建模作为严格词元级语言建模的原则性替代方案。

多模态推理论文/研究
10:22
HuggingFace Daily Papers(社区热门论文)
67
UniPool:面向混合专家模型的全局共享专家池

传统MoE模型每层设置独立专家,导致参数量随深度线性增长。研究发现深层路由功能冗余,因此提出UniPool架构,采用一个全局共享的专家池供所有层访问,取代分层独立设计。通过池级辅助损失平衡专家使用,并采用NormRouter实现稳定稀疏路由。在多个规模的LLaMA模型上实验表明,UniPool持续提升了验证损失。关键的是,共享池设计将池大小确立为深度缩放超参数:仅使用基线41.6%-66.7%专家参数的缩减池变体,性能达到或超越了传统分层MoE,证明专家参数可实现次线性增长并保持更高效率。

推理数据/训练论文/研究
10:22
HuggingFace Daily Papers(社区热门论文)
66
先思考后评分:视频奖励建模中的解耦推理与评分

为提升视频奖励模型的泛化能力与训练效率,研究团队提出DeScore模型。它采用“先思考后评分”的解耦范式:首先由多模态大语言模型生成显式思维链推理,再由专用判别式评分模块预测最终奖励。模型通过两阶段框架优化:第一阶段结合随机掩码进行判别式冷启动,确保评分稳健性;第二阶段通过双目标强化学习,独立优化推理质量并校准奖励,使更优的推理直接转化为更好的性能。该方法旨在克服现有判别式模型易陷于捷径学习、生成式模型因推理与评分耦合而存在优化瓶颈的问题。

arXiv推理视频论文/研究
09:22
HuggingFace Daily Papers(社区热门论文)
68
XL-SafetyBench:一个基于国家的跨文化大语言模型安全与文化敏感性基准

针对现有大语言模型安全基准的英语中心主义局限,研究团队发布了XL-SafetyBench。该基准包含10个国家-语言对的5500个测试用例,设有基于国家的对抗性“越狱基准”和嵌入本地敏感性的“文化基准”。通过引入中立安全率与文化敏感率等补充指标,能更好区分原则性拒绝与理解失败。对37个模型的评估发现,前沿模型的越狱鲁棒性与文化意识不耦合,而本地模型的安全表现更多源于生成失败而非真正对齐。该工作为多语言时代的模型安全提供了细致的跨文化评估工具。

安全/对齐论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
43
SAM 3D Animal:基于图像的可提示多动物三维重建框架

针对野外环境中多动物三维重建面临的物种多样、遮挡频繁等挑战,研究团队提出了SAM 3D Animal,这是首个支持从单张图像进行多动物可提示三维重建的框架。该方法基于SMAL+参数化动物模型,能够联合重建多个实例,并支持通过关键点和掩码进行灵活提示,以有效解决复杂场景中的歧义与遮挡问题。为训练此模型,研究引入了包含超过5000张图像的Herd3D多动物三维数据集,显著提升了物种、互动与遮挡模式的多样性。在多个基准数据集上的实验表明,该框架在基于模型和免模型的方法中均达到了最先进的性能,为野外动物三维重建提供了可扩展的有效解决方案。

多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
中训练阶段使用自生成数据提升语言模型强化学习效果

本文研究在中训练阶段引入自生成多样化数据对强化学习(RL)的增益。该方法基于波利亚解题策略,为每个问题生成多种正确答案变体并微调。理论分析表明,这种训练方式能通过策略梯度更新激励模型融合不同推理路径。实验验证,经此中训练初始化后再进行RL的模型,在数学推理、代码生成及叙事推理等任务上均取得稳定性能提升。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
41
MLAIRE:面向多语言的信息检索语言感知评估协议

现有信息检索评估主要关注语义相关性,忽视了检索结果语言对用户实用性的影响。为解决此问题,研究提出MLAIRE评估协议。该协议通过构建跨语言平行段落对照集合,能够同时测量跨语言语义检索准确率与查询语言偏好度,并引入语言偏好率、Lang-nDCG等指标进行四类分解。对31种检索器的评估显示,标准指标会掩盖不同检索器的行为差异:语义能力强的检索器可能返回非查询语言内容,而语言偏好强的检索器可能牺牲语义相关性。该协议为评估多语言检索系统的真实效用提供了新维度。

检索增强搜索论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
基于控制变量基线的大语言模型在线蒸馏稳定化方法

针对在线蒸馏训练中单样本蒙特卡洛估计器方差高导致不稳定的问题,本研究提出vOPD方法。该方法将在线蒸馏构建为策略梯度强化学习问题,并引入一个控制变量基线(即价值函数)来稳定训练。该价值函数具有闭式解,即学生与教师模型间的逐令牌反向KL散度,无需额外计算。通过减去该基线,vOPD在保持梯度无偏的同时显著降低了方差。实验表明,在数学与科学推理任务上,vOPD性能持续优于原始在线蒸馏,并能匹配计算成本更高的全词表基线方法,实现了高效且稳定的训练。

arXiv推理数据/训练论文/研究
‹ 上一页
1…3233343536…45
下一页 ›