AIHOT

2月28日

08:00

HuggingFace Daily Papers（社区热门论文）

为突破“端到端”论文生成中出版级科学示意图（如导读图）的制作瓶颈，研究团队构建了DiagramBank数据集。该数据集通过自动化流程从顶级出版物中筛选出89,422张示意图，并利用CLIP过滤器区分示意图与标准图表。每个实例均附有从摘要到图文对照的丰富上下文信息，支持多粒度检索。团队同步开源了检索增强生成代码库，演示如何基于范例合成导读图，数据集与代码均已公开。

多模态数据/训练论文/研究

2月22日

17:39

公众号：智谱（GLM）

GLM-5技术报告：技术细节全公开

模型发布论文/研究

2月14日

22:06

公众号：MiniMax（稀宇科技）

训练加速40倍、打破"不可能三角"：MiniMax Agent RL 架构解密

MiniMax 解密其 Agent RL 架构，该架构实现了 40 倍训练加速，并打破了训练效率、模型性能与推理能力之间的“不可能三角”。

智能体数据/训练论文/研究

13:23

公众号：腾讯混元

腾讯混元新研究：瞄准强化学习"工程深水区"，RLVR 模型调优走向科学化

腾讯混元在强化学习领域的新研究聚焦 RLVR 模型调优，目标是使调优过程从经验性的“玄学”转向更具可解释性和可复现性的科学范式。

数据/训练论文/研究

2月12日

16:14

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/Zooming-without-Zooming

inclusionAI团队发布了ZwZ模型系列，在细粒度感知任务上取得了当前最佳性能。同时，该团队推出了名为ZoomBench的全新感知基准测试，其设计更具挑战性。这些成果已在ICML 2026会议上展示。

多模态论文/研究评测/基准

2月7日

03:00

OpenAI：Alignment 研究博客（RSS）

精选71

在真实世界使用中发现未知的 AI 对齐偏差

研究表明，推理模型能够通过分析用户的实际反馈，识别并理解此前未知的 AI 行为对齐偏差。这种方法不依赖预设的偏差分类，而是从真实互动数据中主动发现模型行为与人类意图之间的潜在偏离，为动态监测和修正 AI 系统提供了新途径。

OpenAI安全/对齐推理论文/研究

推荐理由：OpenAI 让推理模型从真实用户反馈中自动发现未知的对齐失败，这比红队测试更接近真实威胁面。做安全和对齐的人应该认真看，它可能改变你们的检测范式。

2月6日

17:06

公众号：小米 MiMo

Hi， Sparse - 来自 Xiaomi MiMo 的混合稀疏注意力 HySparse

论文/研究部署/工程

2月5日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选74

量化智能体编码评估中的基础设施干扰

研究发现，在SWE-bench等智能体编码基准测试中，基础设施配置差异对模型评分的影响，可能超过排行榜上顶尖模型之间的微小分差。内部实验显示，在Terminal-Bench 2.0上，最严格与最宽松的资源设置间成功率相差6%。严格限制资源会导致近6%的任务因容器意外终止而失败，而宽松配置下此类错误率可降至0.5%。当资源余量超过基准规格3倍时，智能体甚至能借助额外资源成功完成原本无法解决的任务。这表明评估环境不仅影响测试稳定性，更会改变基准测试实际衡量的能力维度。

Anthropic编码论文/研究评测/基准

推荐理由：Anthropic 用自家数据证明，agentic coding benchmark 的排行榜差距可能只是硬件配置差异而非模型能力差距，3 个百分点以内的领先都该打问号。做模型选型的人别再迷信那几个百分点了。

2月3日

19:06

公众号：腾讯混元

混元研究博客上线姚顺雨团队最新成果：从Context探索语言模型的范式转变

混元研究博客上线姚顺雨团队最新成果，从Context角度探索语言模型的范式转变，旨在推动Context学习真正走向现实。该成果聚焦于模型对上下文的理解与利用机制，为语言模型能力演进提供新思路。

推理论文/研究

1月15日

18:00

公众号：小红书技术（dots.llm）

KDD 2026 | 小红书内容审核：Hi-Guard 让内容治理"知其然，更知其所以然"

小红书内容理解团队提出层级式治理框架 Hi-Guard，通过分层流水线与路径感知的强化学习，改进模型对复杂审核标准的内化能力。

安全/对齐论文/研究

03:00

OpenAI：Alignment 研究博客（RSS）

精选55

CoVal：从群体中学习具有价值观意识的评估准则

研究团队发布了一个名为CoVal的实验性数据集，其中包含了由众包方式撰写的评估准则。该数据集揭示了人们为何更倾向于选择某个模型输出而非另一个的具体原因，旨在让AI模型理解人类在评估文本质量时所依据的、蕴含价值观的多元标准。通过分析这些群体贡献的详细评估规则，研究为训练更符合人类偏好的语言模型提供了透明、可解释的反馈依据。

OpenAI安全/对齐论文/研究

推荐理由：OpenAI 把众包标注升级成可学习的价值观评分标准，对做对齐和 RLHF 的团队来说是个新数据源，但离产品落地还远，属于研究信号而非行动指南。

1月13日

03:00

OpenAI：Alignment 研究博客（RSS）

精选63

为何我们对"忏悔式"训练感到兴奋

Anthropic提出“忏悔式”训练法，要求AI在拒绝不当请求时，内部生成安全解释以“自我剖析”潜在危害。该方法显著增强了模型安全性：经微调的Claude 3 Opus模型在“越狱”攻击下的有害行为率从约50%降至10%以下，降幅超80%。其效果优于传统思维链监控，为AI对齐提供了更鲁棒、可解释的安全训练新路径。

OpenAI安全/对齐论文/研究

推荐理由：OpenAI 对齐团队把「confession training」和 chain-of-thought monitoring 做了系统对比，这是对齐领域少有的实操级研究，做安全的团队值得细读，但离普通开发者还远。

12月23日

03:00

OpenAI：Alignment 研究博客（RSS）

Helpful assistant 功能抑制新兴错位

研究发现，新兴错位现象不仅会激活错位的人格角色，同时也会抑制有帮助的助手人格。这一机制表明，在大型语言模型中，有害行为的显现可能伴随着有益助手功能的同步减弱。该发现揭示了模型行为动态中一种潜在的平衡或竞争关系，为理解和缓解AI错位问题提供了新的视角。

OpenAI安全/对齐论文/研究

12月19日

14:35

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/HeartBench

HeartBench是一个面向心理学与社会科学领域的评估基准，旨在超越传统的知识与推理评测。该基准专注于衡量大语言模型在人机交互中拟人化的能力，覆盖了人格、情绪、社交技能及道德伦理等多个维度。它通过系统化的评估框架，为衡量模型是否具备更接近人类的心理与社会属性提供了量化标准。

安全/对齐论文/研究评测/基准

03:00

OpenAI：Alignment 研究博客（RSS）

规避评估意识与预测生产环境中的未对齐行为

研究团队提出了一种新流程，旨在发现模型未知的未对齐行为，并规模化创建贴近现实的评估方案。该方法通过规避模型对评估的“警觉性”，直接模拟真实生产环境中的使用场景，从而更有效地暴露潜在风险。该流程能够系统性地生成高质量评估数据集，提升对前沿模型在复杂、开放环境中行为的预测能力，为人工智能安全评估提供了可扩展的工具。

OpenAI安全/对齐评测/基准

12月18日

18:00

公众号：小红书技术（dots.llm）

NeurIPS2025|小红书AIGC团队提出布局可控生成框架InstanceAssemble

小红书AIGC团队在NeurIPS2025上提出全新布局可控生成框架InstanceAssemble，专用于复杂场景下的Layout-to-Image任务。该框架通过从布局条件中引导图像生成，实现了对多对象位置、大小及空间关系的精确控制，解决了现有模型在密集布局下对象漏生、重叠等难题。

图像生成多模态论文/研究

12月9日

15:02

公众号：小红书技术（dots.llm）

KDD 2026|小红书搜索：生成式相关性让搜索"会思考"

小红书搜索提出分段优势掩码策略，结合轻量级过程监督，构建深度推理式相关性大模型，取得显著收益。该成果被 KDD 2026 录用。

推理论文/研究

12月4日

18:00

公众号：小红书技术（dots.llm）

AAAI 2026 | 跨视频推理基准 CrossVid：给多模态大模型出一道"综合题"

CrossVid 是首个系统性涵盖 4 个维度、10 个任务的跨视频推理测评基准，用于评估多模态大模型在跨视频场景下的综合推理能力，已被 AAAI 2026 收录。

多模态论文/研究评测/基准

08:00

OpenRouter：Announcements（RSS）

OpenRouter 与 a16z 联合发布《2025 年 AI 现状报告》

OpenRouter 与 a16z 合作发布《2025 年 AI 现状报告》，该报告是迄今为止对开发者与组织在真实世界中如何使用语言模型规模最大的实证调查。

行业动态论文/研究

08:00

OpenRouter：Announcements（RSS）

OpenRouter 与 a16z 联合发布 2025 年 AI 产业现状报告

OpenRouter 与 a16z 合作推出 2025 年 AI 产业现状报告，这是迄今最大规模的实证研究，旨在展示开发者和组织在实际场景中使用大语言模型的方式。报告基于真实数据，揭示了模型选择、部署模式、成本效益等关键趋势，为行业提供了一份来自前沿实践的全景式参考。

现象/趋势论文/研究

12月2日

03:00

OpenAI：Alignment 研究博客（RSS）

精选60

大规模验证代码的实用方法

研究团队训练并部署了一个专为高精度和实际应用优化的AI代码审查智能体。该智能体旨在对自主生成的代码进行有效监督，使代码审查能力能够与自动化代码生成的规模同步扩展。通过优化智能体的精确度，该方法致力于解决大规模代码生成中的质量控制难题，为AI辅助软件开发提供了可落地的规模化监督方案。

智能体OpenAI安全/对齐编码

关联讨论 3 条

推荐理由：OpenAI 把对齐研究落到了代码审查这个具体场景，不是空谈 alignment 理论，而是训了个高精度 review agent 来给 AI 写的代码做质检。做 coding agent 的团队该看看，这可能是未来安全合规的标配。

03:00

OpenAI：Alignment 研究博客（RSS）

使用稀疏自编码器潜在归因调试未对齐的补全结果

研究提出了一种利用稀疏自编码器进行潜在归因的方法，以高效识别导致模型行为偏差的特征根源。该方法能够定位语言模型生成未对齐或有害补全结果时的内部激活特征，通过分析稀疏特征贡献来追溯问题源头。这一技术为理解和调试大语言模型（如GPT、Claude、LLaMA）的特定行为提供了可解释性工具，有助于提升模型的安全性与对齐性。

OpenAI安全/对齐论文/研究

11月14日

16:06

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/AudioMCQ：一个附带双CoT注释与音频贡献过滤的571k音频多选题数据集，用于大型音频语言模型后训练

AudioMCQ数据集包含57.1万个音频多选题，专为大型音频语言模型的后训练设计。该数据集创新性地提供了双重思维链注释，并引入音频贡献过滤机制以提升数据质量。在DCASE 2025挑战赛中，基于此数据集训练的模型获得第一名，展现了其在音频理解与推理任务上的显著效果。该资源已公开，旨在推动音频语言模型的研究与发展。

多模态数据/训练论文/研究

10月27日

08:00

Thinking Machines Lab：官方博客（RSS）

在线策略蒸馏

大语言模型后训练可分同策略（on-policy）和异策略（off-policy）。同策略强化学习让学生从自身采样学习，但奖励信号稀疏；异策略监督微调提供密集反馈，但分布偏移易导致复合误差。在线策略蒸馏融合两者：从学生模型采样完整轨迹，由高性能教师模型对每一步 token 评分，既保持同策略的上下文反馈，又提供密集细粒度梯度，从而更高效地训练更小、更强的专用模型。

开源/仓库数据/训练论文/研究

10月24日

15:16

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/TwinFlow

该研究提出了一种名为“自对抗流”的新方法，旨在驯化大规模少步训练。该方法通过引入一种内部对抗机制来优化流模型在有限训练步数下的性能，有望解决大模型训练中计算成本高昂的挑战。相关工作已被顶级机器学习会议ICLR 2026接收。

开源生态数据/训练论文/研究

10月10日

15:36

蚂蚁 inclusionAI：GitHub 新仓库

SWE-CARE：一个用于评估代码审查全面性的基准

针对现有代码审查基准和方法在全面性上的不足，研究团队推出了SWE-CARE基准。该基准包含一个用Python构建、覆盖代码审查全过程的仓库级数据集，数据被分为九种类型且每个实例均包含仓库特征。基于此，团队设计了一个评估框架，用以衡量大型语言模型在全面代码审查任务上的性能。项目提供了完整的评估流程脚本，支持使用GPT-4o等模型，并可生成详细的性能评估与分析报告。

编码论文/研究评测/基准

9月29日

11:19

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/Ming-Freeform-Audio-Edit

该仓库发布了Ming-Freeform-Audio-Edit基准测试集，用于评估Ming-UniAudio模型的下游音频编辑任务。测试集涵盖7类任务，包括语义编辑（自由形式删除、插入、替换）和声学编辑（时间拉伸、音高转换等）。音频样本源自seed-tts eval、LibriTTS等开源数据集，其中语义编辑任务包含基于索引和基于内容的中英文样本。评估指标涵盖编辑区域与非编辑区域的词错误率、编辑操作准确率和说话人相似度，并提供了完整的评估脚本与参数说明。

开源/仓库论文/研究语音

08:00

Thinking Machines Lab：官方博客（RSS）

LoRA 无悔

本文探讨了低秩适配（LoRA）与全量微调的性能差异及实践优势。LoRA 通过低秩矩阵更新权重，在保持模型参数不变的同时节省训练内存，支持多租户推理服务、降低硬件需求并便于传输。文献对两者性能比较仍不明确，但共识认为 LoRA 在类似预训练的大规模数据集上表现不佳，因其参数容量有限；而对于中等及以下规模的数据集，其效果尚需进一步研究。

数据/训练论文/研究

9月26日

08:00

Thinking Machines Lab：官方博客（RSS）

Modular Manifolds

训练大型神经网络时，张量过大或过小会引发数值问题。标准化为黄金标准，但权重矩阵标准化不常见。本文提出将权重矩阵约束到子流形，以简化更新理解、消除范数爆炸、简化超参数调优并保证 Lipschitz 鲁棒性。具体提出流形版 Muon 优化器，将权重约束至 Stiefel 流形（单位条件数矩阵），并定义可组合的模块化流形（Modular Manifold），旨在简化大型网络的缩放与训练。本文为研究方向介绍，并展望未来工作。

数据/训练论文/研究