AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态论文 · 2151 条
全部一手资讯X论文
5月13日周三
5月12日周二
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月13日
00:01
elvis@omarsar0
68
Nous Research提出Lighthouse Attention:一种可移除的训练时注意力加速方案

Lighthouse Attention是一种用于加速长上下文预训练的子二次注意力包装器。其核心是在训练时,通过一个无梯度的分层选择层对称压缩查询、键和值,从而包装标准SDPA注意力并保持因果性。关键优势在于,训练末期可通过简短恢复阶段完全移除该包装器,使得部署模型仍使用原始注意力机制,不增加任何推理开销。初步实验表明,它能缩短总训练时间并降低最终损失。与多数需改变架构或牺牲质量的方案不同,该方法作为纯训练时优化,成功规避了这两大问题,若未来可扩展,将成为长上下文预训练的重要加速工具。

数据/训练论文/研究
5月12日
22:44
HuggingFace Daily Papers(社区热门论文)
63
提示-激活对偶性:通过注意力层干预改进激活引导

针对传统残差流引导在多轮对话中因KV缓存污染导致连贯性下降的问题,本研究提出门控裁剪注意力差值引导(GCAD)方法。该方法从系统提示对自注意力的贡献中提取引导信号,并通过令牌级门控机制施加干预,从而避免累积性污染。在角色引导实验中,GCAD在保持特质控制的同时,显著提升了长程对话的连贯性。在多轮基准测试中,它将平均连贯性漂移从-18.6改善至-1.9,并将第10轮的特质表达率从78.0%提升至93.1%。结果表明,沿模型已有的提示介导路径进行干预,能使激活引导更为可靠。

安全/对齐论文/研究
22:41
Perplexity@perplexity_ai
56
我们发布了关于如何在NVIDIA GB200 NVL72 Blackwell机架上部署训练后Qwen3 235B模型的新研究。 GB200不仅是训练平台,更为大型MoE模型的高吞吐量推理带来了重大升级,相比Hopper实现显著进步。
论文/研究部署/工程
21:44
HuggingFace Daily Papers(社区热门论文)
69
键值均值注意力机制

研究团队提出键值均值注意力机制,这是一种支持固定或可增长状态的新型分块循环注意力。在强Transformer基线中引入固定大小的KVM层,仅需极少参数即可构建高效的O(N)分块RNN。使用可增长KVM缓存训练的模型在长上下文任务中表现优异,仅需次二次方预填充时间和次线性状态增长。该机制基于标准操作实现,无需定制内核,支持分块并行化训练与预填充,兼具传统Transformer与线性RNN的优势。它可应用于每一层以节省KV缓存内存,并在O(N)到O(N²)之间提供灵活的预填充时间复杂度选择,也可与线性RNN层混合部署以增强长上下文解码能力。相关代码与模型已开源。

开源/仓库论文/研究部署/工程
21:29
AK@_akhaliq
56
Qwen-Image-2.0 技术报告
图像生成多模态论文/研究
21:29
AK@_akhaliq
57
TMAS 通过多智能体协同扩展测试时计算
智能体推理论文/研究
21:29
AK@_akhaliq
54
叛逆学生 通过逆向教师信号进行推理探索 结合自蒸馏的RLVR方法
推理论文/研究
21:29
AK@_akhaliq
64
TMAS 通过多智能体协同扩展测试时计算
智能体推理论文/研究
20:44
HuggingFace Daily Papers(社区热门论文)
58
ELF:嵌入式语言流

研究团队提出嵌入式语言流(ELF),这是一种基于连续时间流匹配、在连续嵌入空间中运行的扩散语言模型。与主流离散扩散模型不同,ELF在绝大部分采样过程中保持在连续空间,仅在最后一步通过共享权重网络映射到离散词元。这一设计使其能直接借鉴图像扩散模型的成熟技术(如无分类器引导)。实验表明,ELF在生成质量上显著优于当前领先的离散和连续扩散语言模型,并能以更少的采样步骤实现更优性能,为构建有效的连续扩散语言模型提供了新路径。

arXiv数据/训练论文/研究
18:44
HuggingFace Daily Papers(社区热门论文)
57
Muon能微调Adam预训练的模型吗?

本研究探讨了在微调Adam预训练模型时,若将优化器直接切换为Muon会导致性能下降的问题,并将其归因于两者不同的隐式偏差造成的优化器不匹配。这种不匹配会破坏预训练知识,且其影响程度与参数更新强度成正比。实验表明,通过采用LoRA等参数高效微调方法来约束更新,可以有效缓解该问题。在语言和视觉任务中,LoRA显著缩小了全参数微调下Adam与Muon之间的性能差距。对LoRA秩、灾难性遗忘及变体的进一步研究证实,不匹配的严重程度确实与更新强度相关。相关代码已开源。

开源/仓库数据/训练论文/研究
17:59
AK@_akhaliq
63
Soohak 一个由数学家策划的基准测试,用于评估LLMs的研究级数学能力
Hugging Face推理论文/研究
16:59
AK@_akhaliq
58
Pixal3D 从图像生成像素对齐的三维模型
arXiv多模态论文/研究
16:44
HuggingFace Daily Papers(社区热门论文)
69
RoboMemArena:一个全面且具有挑战性的机器人记忆基准

研究团队推出机器人记忆基准 RoboMemArena,包含26个长轨迹任务,平均轨迹长度超1,000步,其中68.9%的子任务依赖记忆。该基准利用视觉语言模型生成子任务与轨迹,并提供记忆相关标注,同时配备真实世界任务以支持物理评估。团队进一步提出 PrediMem 双系统架构,通过高层VLM规划器管理包含近期与关键帧缓冲的记忆库,并利用预测编码头提升对任务动态的敏感性。实验表明 PrediMem 在基准上优于所有基线模型,为复杂记忆系统的设计提供了新见解。

智能体arXiv具身智能论文/研究
16:44
HuggingFace Daily Papers(社区热门论文)
61
CapVector:在参数空间中为视觉-语言-动作模型学习可迁移的能力向量

本文提出CapVector方法,以解决预训练视觉-语言-动作模型在标准微调中性能提升有限的问题。该方法将辅助目标微调的两个核心目标——增强通用能力与拟合任务特定分布——在参数空间进行解耦。仅需在小规模任务集上使用两种策略训练至收敛,所得两模型间的参数差值即构成“能力向量”。该向量与预训练参数合并后,能形成能力增强的元模型。实验表明,结合轻量正交正则化的标准微调,能以更低计算成本达到与辅助微调基线相当的性能,且所得向量在不同模型与新环境中均表现出有效性和泛化能力。

具身智能论文/研究
16:44
HuggingFace Daily Papers(社区热门论文)
65
SlimSpec:用于加速推测解码的低秩草稿模型LM-Head

推测解码通过轻量草稿模型生成候选令牌来加速大语言模型推理,但其LM-Head对大规模词汇的投影计算成本高昂。现有方法多采用词汇截断,但增加了复杂性。本文提出SlimSpec,采用低秩参数化压缩草稿模型LM-Head的内部表示而非输出,从而保留完整词汇支持。在EAGLE-3草稿模型和多个目标模型及基准测试中评估,SlimSpec在延迟和吞吐量场景下,相比标准LM-Head实现了4-5倍加速,同时保持有竞争力的接受长度,端到端加速效果超越现有方法8-9%,且对训练和推理流程改动最小。

arXiv推理论文/研究
16:44
HuggingFace Daily Papers(社区热门论文)
62
TMAS:通过多智能体协同扩展测试时计算

研究提出TMAS框架,通过组织多个专用智能体在推理过程中进行协作,实现跨智能体、轨迹与迭代的结构化信息流动。该框架引入分层记忆系统:经验库存储可靠的低层中间结论与局部反馈以供复用,指导库则记录已探索的高层策略以引导后续推理避开冗余模式。同时,团队设计了适配TMAS的混合奖励强化学习方案,在保持基础推理能力的同时,提升经验利用率并鼓励对新策略的探索。在多个高难度推理基准测试中,TMAS展现出优于现有基线的迭代扩展能力与稳定性。

智能体推理论文/研究
15:44
HuggingFace Daily Papers(社区热门论文)
59
DECO:面向终端设备的稀疏混合专家模型,实现媲美稠密模型的性能

为克服混合专家模型参数量大导致的存储与访存瓶颈,研究团队提出稀疏MoE架构DECO,以适配终端设备对高性能、低计算成本和小存储开销的需求。DECO采用基于可学习专家级缩放的ReLU可微分灵活路由,自适应平衡路由专家与共享专家的贡献,并引入NormSiLU激活函数提升路由稳定性与稀疏度。实验表明,在总参数量和训练数据量相同的情况下,DECO仅激活20%的专家即可匹配稠密Transformer性能,且超越现有MoE基线;其专用加速内核在真实硬件上实现了相比稠密推理3.00倍的加速。代码与模型将开源。

开源/仓库推理端侧论文/研究
14:44
HuggingFace Daily Papers(社区热门论文)
65
Alpha Blending假说:深度伪造检测中的合成捷径

本文提出Alpha Blending假说,认为当前先进的深度伪造检测器主要依赖定位伪造人脸与原始帧合成时产生的低级合成痕迹,而非识别语义异常或生成指纹。实验证实检测器对自混合图像及非生成式篡改高度敏感。基于此提出的BlenD方法,仅使用真实人脸与自混合图像训练,在2019至2025年的15个复合深度伪造数据集上实现了最优的跨数据集泛化性能。通过集成显式混合搜索器与抗混合捷径的模型预测,AUROC指标提升至94.0%,达到最新最高水平。代码与模型将公开。

安全/对齐数据/训练论文/研究
13:44
HuggingFace Daily Papers(社区热门论文)
62
通过强化学习将分布感知注入多模态大语言模型以解决深度不平衡回归问题

针对多模态大语言模型在长尾目标分布下数值回归表现不佳的问题,本研究提出一种基于分布感知的强化学习框架。该方法通过群组相对策略优化,引入基于一致性相关系数的奖励机制,在批次层面提供基于比较的监督,使模型预测分布与真实分布在相关性、尺度和均值上对齐。该即插即用框架无需修改模型架构。在统一的长尾回归基准测试中,该方法相比监督微调和现有回归方法取得了持续改进,尤其在中等样本和少样本场景下提升显著。

多模态数据/训练论文/研究
13:44
HuggingFace Daily Papers(社区热门论文)
59
PaperFit:面向科学文档的视觉在环排版优化

研究团队提出了视觉排版优化任务,旨在通过迭代的视觉验证与源码修订,将可编译的LaTeX论文转化为视觉精良且符合页面预算的PDF。为此,他们构建了PaperFit-Bench基准,涵盖10种会议模板和13种缺陷类型。论文提出的PaperFit系统是一个视觉在环的智能体,能够迭代渲染页面、诊断排版缺陷并执行约束修复。实验表明,PaperFit大幅优于所有基线方法,证实了从可编译源码到可出版PDF的转化需要视觉在环的优化,且该任务是文档自动化流程中一个关键缺失环节。

论文/研究
12:44
HuggingFace Daily Papers(社区热门论文)
65
Shepherd:一个为元智能体提供形式化执行追踪的运行时基板

Shepherd提出了一种函数式编程模型,将元智能体对目标智能体的操作形式化为函数,其核心操作在Lean中实现。该系统将所有智能体-环境交互记录为类似Git的类型化执行追踪,支持对任意历史状态进行分支与重放。其分支智能体进程及文件系统的速度比Docker快5倍,重放时提示缓存复用率超过95%。应用案例表明,其实时监督可将结对编程通过率从28.8%提升至54.7%;反事实元优化在四个基准测试中最高超出基线11个百分点,同时减少高达58%的挂钟时间;在Tree-RL训练中,于选定轮次进行分支展开将性能从34.2%提高至39.4%。该系统已开源。

智能体arXivMCP/工具开源/仓库
12:44
HuggingFace Daily Papers(社区热门论文)
精选70
WorldReasonBench:面向未来世界状态预测的视频生成器人类对齐压力测试

研究团队发布WorldReasonBench基准,旨在直接评估视频生成模型作为“世界模拟器”的推理能力。该基准包含436个测试案例,涵盖物理、社会、逻辑和信息四大维度及22个子类,要求模型根据初始状态与动作生成状态演化一致的未来视频。评估采用人类对齐的双部分方法:过程感知推理验证通过结构化问答检测时序与因果错误;多维质量评估则对推理质量、时序一致性和视觉美学进行评分。测试发现,当前先进模型在视觉合理性与世界推理能力间存在显著差距,生成的视频可能看似逼真却违反动态、因果或信息守恒规律。相关资源已开源。

多模态视频论文/研究

推荐理由:视频生成越来越像真的,但逻辑和因果一塌糊涂,这个基准把问题量化了,想做世界模拟器的团队可以拿来测测自己的模型到底懂不懂世界。
12:44
HuggingFace Daily Papers(社区热门论文)
62
NanoResearch:通过技能、记忆与策略协同演化实现个性化研究自动化

针对现有AI研究系统缺乏跨项目知识复用、用户经验保留与隐式偏好学习能力的问题,本文提出NanoResearch多智能体框架。该框架通过技能库、记忆模块和无标签策略学习三层结构协同演化:技能库提炼可复用操作规则,记忆模块保存用户与项目特定经验,策略学习将自由反馈转化为规划器参数更新。三者循环促进,使系统能基于个人历史与偏好持续自我优化。实验表明,NanoResearch性能显著优于现有系统,并能随使用周期不断降低成本、提升研究成果。

智能体论文/研究
12:44
HuggingFace Daily Papers(社区热门论文)
64
面向智能体强化学习的动态技能生命周期管理

研究团队提出SLIM框架,用于动态管理大型语言模型智能体在强化学习中使用的外部技能。该框架将活跃技能集视为与策略学习协同优化的变量,通过留一验证评估技能边际贡献,并执行三项操作:保留高价值技能、淘汰贡献可忽略的旧技能、在持续失败时扩展技能库。在ALFWorld和SearchQA基准测试中,SLIM平均超越最佳基线方法7.1个百分点。实验表明,策略学习与外部技能保留可共存:部分技能被策略内化,另一些则持续提供外部价值,验证了动态技能管理的普适性与优越性。

智能体MCP/工具论文/研究
11:44
HuggingFace Daily Papers(社区热门论文)
64
Omni-Persona:系统性全模态个性化基准测试与改进

研究团队推出首个全面的全模态个性化基准测试框架Omni-Persona,涵盖文本、图像和音频三大模态,包含4个任务组和18个细粒度任务。该研究将任务形式化为在“人物模态图”上进行跨模态路由,并提出了同时奖励正确基础定位与恰当弃答能力的校准准确率作为核心评估指标。诊断实验揭示了开源模型存在持续的音频与视觉基础定位差距,同时发现可回答召回率和参数规模不能完全诊断模型表现,而基于结果的强化学习虽泛化更一致,但在当前奖励设计下会趋于保守。该基准为后续训练和奖励设计提供了关键指导。

多模态论文/研究
11:44
HuggingFace Daily Papers(社区热门论文)
67
G-Zero:从零数据出发的开放式生成自我博弈框架

针对大语言模型在开放域任务中依赖外部评判导致的能力瓶颈与奖励破解问题,研究团队提出无需验证器的协同进化框架G-Zero。其核心是Hint-δ内在奖励机制,通过量化生成模型在有无自生成提示条件下预测结果的偏移,为自我改进提供信号。在此驱动下,提议模型持续生成挑战性查询与提示以针对生成模型的盲点,生成模型则内化这些提示引导的改进。理论分析表明,在理想条件下,该框架具有最佳迭代次优性保证。G-Zero完全从内部动态获取监督,绕开了外部评判者的能力上限,为不可验证领域的持续模型进化提供了可扩展且稳健的路径。

数据/训练论文/研究
11:44
HuggingFace Daily Papers(社区热门论文)
64
大语言模型中的模型合并缩放定律

研究发现语言模型合并遵循一个紧凑的幂律定律,它将模型大小与专家数量相关联:模型容量越大,其性能下限越低;而合并带来的性能提升尾部则随专家数量增加呈现明显的收益递减。该定律在领域内和跨领域均成立,紧密契合不同架构与方法下的实测曲线,并解释了大部分收益在早期获得、且性能波动性随专家增多而缩小这两个稳健规律。基于此的简单理论将性能下限和尾部与基础模型特性及领域多样性联系起来。这一定律使得预测性规划成为可能,例如估算达到目标损失所需的专家数量,或在固定预算下权衡扩展基础模型与增加专家,从而将模型合并从启发式实践转变为一种可计算、可规划的高效方案。

arXiv数据/训练论文/研究
11:44
HuggingFace Daily Papers(社区热门论文)
67
叛逆学生:通过反转教师信号实现自蒸馏推理探索

传统自蒸馏方法在指导学生模型时,会覆盖其成功推理的路径,抑制其自主推理能力。本研究提出一种反向解读自蒸馏信号的新视角:当学生模型在教师模型未预测的路径上成功推理时,这些标记被视为其自主推理的体现。基于此,团队推出了RLRT方法,该方法在GRPO基础上强化正确生成轨迹中的此类标记,将其定义为一种基于学生自身成功的有价值探索,而非均匀多样性探索。在多个版本的Qwen3模型上,RLRT均显著超越了传统自蒸馏和基于探索的基线方法,确立了信息不对称作为强化学习与价值回归框架中一个新的原则性设计维度。

推理数据/训练论文/研究
11:44
HuggingFace Daily Papers(社区热门论文)
68
Pixal3D:基于图像的像素对齐3D生成

针对现有图像到3D生成中像素级保真度不足的问题,研究团队提出Pixal3D新范式。该方法摒弃在规范空间中生成的常规做法,通过像素回投影条件方案,将多尺度图像特征直接提升为3D特征体积,从而建立明确无歧义的像素到3D对应关系。此举显著提升了生成资产相对于输入图像的保真度,使其接近重建水平。该框架可扩展生成高质量3D资产,并能自然支持多视图生成与高保真、对象分离的3D场景合成。

arXiv图像生成多模态论文/研究
11:44
HuggingFace Daily Papers(社区热门论文)
63
Mela:基于转换假说的测试时记忆巩固模型

受神经科学记忆巩固理论与转换假说启发,本研究提出分层记忆模块(HMM)。该模块包含低频与高频子模块,分别生成抽象概要表征与细粒度细节表征,并通过动态重构组合输出。将其集成至Transformer解码器,形成Mela系列模型,可在测试时进行在线记忆巩固。同时引入MemStack方法,将多粒度记忆特征分布至解码器早期层。实验表明,Mela在所有模型规模上均优于Transformer基线,且在预训练上下文长度固定为4K时,能在显著更长的上下文中保持稳定性能,而基线模型一旦超出训练长度则性能急剧下降。

论文/研究
11:36
IT之家(RSS)
65
打破"技术黑箱",上海 AI 实验室等攻克芯片核心材料光刻胶稳定制备难题

上海人工智能实验室联合厦门大学、苏州国家实验室等单位,基于“书生”科学大模型与平台,构建了“AI决策+自动化合成”闭环研发体系,成功创制出高纯度、高一致性的KrF光刻胶树脂。该技术突破了长期依赖国外供应商“黑箱能力”的瓶颈,实现了成品树脂金属杂质含量稳定低于10ppb、分子量分布PDI稳定在1.3以下的关键指标。这为芯片材料领域提供了一条可标准化、快速迭代的新路径,相关成果产业指标已达预期,即将进入客户端验证阶段。

数据/训练论文/研究
09:59
elvis@omarsar0
43
尽管处于早期阶段,但最令人印象深刻的是与这些全能模型(omnimodels)的交互正变得极为自然。实时、低延迟的交互式AI模型将解锁当今难以想象的应用场景。其核心在于,AI能够像人类一样,同时进行交谈、倾听、观察、思考和协作,实现与人的实时同步工作模式。这种交互模型的突破,预示着人机协作将进入一个全新的阶段。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态论文/研究
09:36
IT之家(RSS)
62
苹果连发 3 项 AI 研究,推进空间计算与 Vision Pro 头显方向

苹果近期发布三项人工智能研究,直接回应了其搁置Vision Pro研发的传闻。研究包括:提出SFI-Bench基准,通过134段视频和1555道问题测试多模态大模型的空间功能智能;利用AI自动生成美国手语标注,将人工成本降低数百小时;以及提出HeadsUp方法,基于超万人数据集进行高质量3D头部重建,可能用于优化Vision Pro的Persona等功能。这些进展印证了苹果对空间计算方向的持续投入。

多模态推理论文/研究
09:35
Noam Brown@polynoamial
61
趣闻:这些致命错误最初是用@OpenAI的GPT-5.5标记的 【引用 @EpochAIResearch】:我们正在对FrontierMath的1-4级进行AI辅助审查。这已标记出约三分之一题目的致命错误,且我们认为大多数标记是有效的。完成人工审核后,我们将在修正数据集上公布更新分数。

Epoch AI: We are conducting an AI-assisted review of FrontierMath: Tiers 1-4. This has flagged fatal errors in about a third of pr...

OpenAI论文/研究评测/基准
08:35
Epoch AI@EpochAIResearch
精选80
我们正在对FrontierMath的Tiers 1-4进行AI辅助审查。 这已标记出约三分之一题目存在致命错误, 且我们相信大多数标记是有效的。 在完成全面人工审核后, 我们将在修正的数据集上发布更新后的分数。
数据/训练评测/基准

推荐理由:FrontierMath 是衡量模型数学推理的核心基准,三分之一题目有致命错误这件事会让之前的所有满分评分变得可疑,做评估的人必须重新审视数据。
08:25
Hacker News 热门(buzzing.cc 中文翻译)
59
Interfaze:一种专为大规模高精度而构建的新型架构模型

Interfaze发布了一种专为大规模高精度任务设计的新型架构模型。该架构旨在显著提升模型在扩展规模时的准确性表现,其核心目标是解决传统模型在参数量增大时精度难以同步提升的挑战。新架构通过创新的设计,优化了计算效率与精度之间的平衡,以适应数据量和模型复杂度不断增长的需求。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
43
将大型语言模型训练用于临床事件预测

本研究将Foresight Learning方法扩展至临床预测领域。核心创新在于,将MIMIC-III数据集中的纵向临床笔记转化为“上下文-问题-标签”三元组的训练样本,自动生成了涵盖用药、手术、死亡风险等多维度的6,900个预测实例。基于此训练的轻量级LoRA适配器,显著提升了模型的预测性能与校准能力,其预期校准误差从0.1269大幅降至0.0398,Brier分数从0.199降至0.145。该方法证明了无需人工构建结构化特征或专用分类器,即可从临床文本中提取可复用预测监督信号的可行路径。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
正交梯度投影用于缓解安全对齐税

大语言模型的安全后训练可能削弱其通用能力,产生“对齐税”。本研究将其视为持续学习问题:安全训练的梯度可能干扰已习得的通用能力方向。为此,我们提出正交梯度投影安全对齐方法。该方法从少量通用数据梯度中估计参考子空间,并在安全梯度更新时移除该空间的分量,从而在提升安全性的同时保留通用能力。实验证明,在SFT、DPO及SFT→DPO等流程中,该方法能显著改善安全与效用的权衡,例如在Qwen2.5-7B上平均性能增益从33.98%提升至42.74%。

安全/对齐数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
32
代码引导推理协议评估小语言模型的可执行推理脚手架

本研究提出了“代码引导推理”评估协议,用于系统衡量可执行推理脚手架对小语言模型在多选题任务中的性能提升。该协议标准化了从任务接口到结果记录的六个组件。基于20,498条实验数据分析表明,在具有非零基线的样本中,脚手架辅助的平均准确率为66.21%,较直接回答的38.11%提升了28.10个百分点。研究同时也指出,该方法面临计算开销增大、答案提取过程脆弱以及生成程序可能违规等局限性。

推理论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
50
基于点互信息的推理强化学习反自蒸馏方法

研究发现现有自蒸馏方法在数学推理中效果不稳定,其根源在于“特权上下文”会过度强化解中已确定的结构化信息,同时削弱驱动多步推理的“思考性词元”权重。为此,本文提出反自蒸馏方法(AntiSD),通过反转优化方向,使学生模型主动远离教师分布,并结合熵触发门控机制,形成即插即用的改进方案。实验表明,在4B至30B参数模型上,AntiSD仅需更少训练步骤即可达到GRPO基线准确度,最终性能提升最高达11.5个百分点,为语言模型利用自身训练信号实现推理能力规模化提升提供了可行路径。

推理数据/训练论文/研究
‹ 上一页
1…3435363738…50
下一页 ›