为突破“端到端”论文生成中出版级科学示意图(如导读图)的制作瓶颈,研究团队构建了DiagramBank数据集。该数据集通过自动化流程从顶级出版物中筛选出89,422张示意图,并利用CLIP过滤器区分示意图与标准图表。每个实例均附有从摘要到图文对照的丰富上下文信息,支持多粒度检索。团队同步开源了检索增强生成代码库,演示如何基于范例合成导读图,数据集与代码均已公开。
为突破“端到端”论文生成中出版级科学示意图(如导读图)的制作瓶颈,研究团队构建了DiagramBank数据集。该数据集通过自动化流程从顶级出版物中筛选出89,422张示意图,并利用CLIP过滤器区分示意图与标准图表。每个实例均附有从摘要到图文对照的丰富上下文信息,支持多粒度检索。团队同步开源了检索增强生成代码库,演示如何基于范例合成导读图,数据集与代码均已公开。
MiniMax 解密其 Agent RL 架构,该架构实现了 40 倍训练加速,并打破了训练效率、模型性能与推理能力之间的“不可能三角”。
腾讯混元在强化学习领域的新研究聚焦 RLVR 模型调优,目标是使调优过程从经验性的“玄学”转向更具可解释性和可复现性的科学范式。
inclusionAI团队发布了ZwZ模型系列,在细粒度感知任务上取得了当前最佳性能。同时,该团队推出了名为ZoomBench的全新感知基准测试,其设计更具挑战性。这些成果已在ICML 2026会议上展示。
研究表明,推理模型能够通过分析用户的实际反馈,识别并理解此前未知的 AI 行为对齐偏差。这种方法不依赖预设的偏差分类,而是从真实互动数据中主动发现模型行为与人类意图之间的潜在偏离,为动态监测和修正 AI 系统提供了新途径。
研究发现,在SWE-bench等智能体编码基准测试中,基础设施配置差异对模型评分的影响,可能超过排行榜上顶尖模型之间的微小分差。内部实验显示,在Terminal-Bench 2.0上,最严格与最宽松的资源设置间成功率相差6%。严格限制资源会导致近6%的任务因容器意外终止而失败,而宽松配置下此类错误率可降至0.5%。当资源余量超过基准规格3倍时,智能体甚至能借助额外资源成功完成原本无法解决的任务。这表明评估环境不仅影响测试稳定性,更会改变基准测试实际衡量的能力维度。
混元研究博客上线姚顺雨团队最新成果,从Context角度探索语言模型的范式转变,旨在推动Context学习真正走向现实。该成果聚焦于模型对上下文的理解与利用机制,为语言模型能力演进提供新思路。
小红书内容理解团队提出层级式治理框架 Hi-Guard,通过分层流水线与路径感知的强化学习,改进模型对复杂审核标准的内化能力。
研究团队发布了一个名为CoVal的实验性数据集,其中包含了由众包方式撰写的评估准则。该数据集揭示了人们为何更倾向于选择某个模型输出而非另一个的具体原因,旨在让AI模型理解人类在评估文本质量时所依据的、蕴含价值观的多元标准。通过分析这些群体贡献的详细评估规则,研究为训练更符合人类偏好的语言模型提供了透明、可解释的反馈依据。
Anthropic提出“忏悔式”训练法,要求AI在拒绝不当请求时,内部生成安全解释以“自我剖析”潜在危害。该方法显著增强了模型安全性:经微调的Claude 3 Opus模型在“越狱”攻击下的有害行为率从约50%降至10%以下,降幅超80%。其效果优于传统思维链监控,为AI对齐提供了更鲁棒、可解释的安全训练新路径。
研究发现,新兴错位现象不仅会激活错位的人格角色,同时也会抑制有帮助的助手人格。这一机制表明,在大型语言模型中,有害行为的显现可能伴随着有益助手功能的同步减弱。该发现揭示了模型行为动态中一种潜在的平衡或竞争关系,为理解和缓解AI错位问题提供了新的视角。
HeartBench是一个面向心理学与社会科学领域的评估基准,旨在超越传统的知识与推理评测。该基准专注于衡量大语言模型在人机交互中拟人化的能力,覆盖了人格、情绪、社交技能及道德伦理等多个维度。它通过系统化的评估框架,为衡量模型是否具备更接近人类的心理与社会属性提供了量化标准。
研究团队提出了一种新流程,旨在发现模型未知的未对齐行为,并规模化创建贴近现实的评估方案。该方法通过规避模型对评估的“警觉性”,直接模拟真实生产环境中的使用场景,从而更有效地暴露潜在风险。该流程能够系统性地生成高质量评估数据集,提升对前沿模型在复杂、开放环境中行为的预测能力,为人工智能安全评估提供了可扩展的工具。
小红书AIGC团队在NeurIPS2025上提出全新布局可控生成框架InstanceAssemble,专用于复杂场景下的Layout-to-Image任务。该框架通过从布局条件中引导图像生成,实现了对多对象位置、大小及空间关系的精确控制,解决了现有模型在密集布局下对象漏生、重叠等难题。
小红书搜索提出分段优势掩码策略,结合轻量级过程监督,构建深度推理式相关性大模型,取得显著收益。该成果被 KDD 2026 录用。
CrossVid 是首个系统性涵盖 4 个维度、10 个任务的跨视频推理测评基准,用于评估多模态大模型在跨视频场景下的综合推理能力,已被 AAAI 2026 收录。
OpenRouter 与 a16z 合作发布《2025 年 AI 现状报告》,该报告是迄今为止对开发者与组织在真实世界中如何使用语言模型规模最大的实证调查。
OpenRouter 与 a16z 合作推出 2025 年 AI 产业现状报告,这是迄今最大规模的实证研究,旨在展示开发者和组织在实际场景中使用大语言模型的方式。报告基于真实数据,揭示了模型选择、部署模式、成本效益等关键趋势,为行业提供了一份来自前沿实践的全景式参考。
研究团队训练并部署了一个专为高精度和实际应用优化的AI代码审查智能体。该智能体旨在对自主生成的代码进行有效监督,使代码审查能力能够与自动化代码生成的规模同步扩展。通过优化智能体的精确度,该方法致力于解决大规模代码生成中的质量控制难题,为AI辅助软件开发提供了可落地的规模化监督方案。
关联讨论 3 条X:Tibo (@thsottiaux)X:邵猛 (@shao__meng)OpenAI:Alignment 研究博客(RSS)研究提出了一种利用稀疏自编码器进行潜在归因的方法,以高效识别导致模型行为偏差的特征根源。该方法能够定位语言模型生成未对齐或有害补全结果时的内部激活特征,通过分析稀疏特征贡献来追溯问题源头。这一技术为理解和调试大语言模型(如GPT、Claude、LLaMA)的特定行为提供了可解释性工具,有助于提升模型的安全性与对齐性。
AudioMCQ数据集包含57.1万个音频多选题,专为大型音频语言模型的后训练设计。该数据集创新性地提供了双重思维链注释,并引入音频贡献过滤机制以提升数据质量。在DCASE 2025挑战赛中,基于此数据集训练的模型获得第一名,展现了其在音频理解与推理任务上的显著效果。该资源已公开,旨在推动音频语言模型的研究与发展。
大语言模型后训练可分同策略(on-policy)和异策略(off-policy)。同策略强化学习让学生从自身采样学习,但奖励信号稀疏;异策略监督微调提供密集反馈,但分布偏移易导致复合误差。在线策略蒸馏融合两者:从学生模型采样完整轨迹,由高性能教师模型对每一步 token 评分,既保持同策略的上下文反馈,又提供密集细粒度梯度,从而更高效地训练更小、更强的专用模型。
该研究提出了一种名为“自对抗流”的新方法,旨在驯化大规模少步训练。该方法通过引入一种内部对抗机制来优化流模型在有限训练步数下的性能,有望解决大模型训练中计算成本高昂的挑战。相关工作已被顶级机器学习会议ICLR 2026接收。
针对现有代码审查基准和方法在全面性上的不足,研究团队推出了SWE-CARE基准。该基准包含一个用Python构建、覆盖代码审查全过程的仓库级数据集,数据被分为九种类型且每个实例均包含仓库特征。基于此,团队设计了一个评估框架,用以衡量大型语言模型在全面代码审查任务上的性能。项目提供了完整的评估流程脚本,支持使用GPT-4o等模型,并可生成详细的性能评估与分析报告。
该仓库发布了Ming-Freeform-Audio-Edit基准测试集,用于评估Ming-UniAudio模型的下游音频编辑任务。测试集涵盖7类任务,包括语义编辑(自由形式删除、插入、替换)和声学编辑(时间拉伸、音高转换等)。音频样本源自seed-tts eval、LibriTTS等开源数据集,其中语义编辑任务包含基于索引和基于内容的中英文样本。评估指标涵盖编辑区域与非编辑区域的词错误率、编辑操作准确率和说话人相似度,并提供了完整的评估脚本与参数说明。
本文探讨了低秩适配(LoRA)与全量微调的性能差异及实践优势。LoRA 通过低秩矩阵更新权重,在保持模型参数不变的同时节省训练内存,支持多租户推理服务、降低硬件需求并便于传输。文献对两者性能比较仍不明确,但共识认为 LoRA 在类似预训练的大规模数据集上表现不佳,因其参数容量有限;而对于中等及以下规模的数据集,其效果尚需进一步研究。
训练大型神经网络时,张量过大或过小会引发数值问题。标准化为黄金标准,但权重矩阵标准化不常见。本文提出将权重矩阵约束到子流形,以简化更新理解、消除范数爆炸、简化超参数调优并保证 Lipschitz 鲁棒性。具体提出流形版 Muon 优化器,将权重约束至 Stiefel 流形(单位条件数矩阵),并定义可组合的模块化流形(Modular Manifold),旨在简化大型网络的缩放与训练。本文为研究方向介绍,并展望未来工作。