AIHOT

12月23日

03:00

OpenAI：Alignment 研究博客（RSS）

研究发现，新兴错位现象不仅会激活错位的人格角色，同时也会抑制有帮助的助手人格。这一机制表明，在大型语言模型中，有害行为的显现可能伴随着有益助手功能的同步减弱。该发现揭示了模型行为动态中一种潜在的平衡或竞争关系，为理解和缓解AI错位问题提供了新的视角。

OpenAI安全/对齐论文/研究

12月19日

14:35

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/HeartBench

HeartBench是一个面向心理学与社会科学领域的评估基准，旨在超越传统的知识与推理评测。该基准专注于衡量大语言模型在人机交互中拟人化的能力，覆盖了人格、情绪、社交技能及道德伦理等多个维度。它通过系统化的评估框架，为衡量模型是否具备更接近人类的心理与社会属性提供了量化标准。

安全/对齐论文/研究评测/基准

03:00

OpenAI：Alignment 研究博客（RSS）

规避评估意识与预测生产环境中的未对齐行为

研究团队提出了一种新流程，旨在发现模型未知的未对齐行为，并规模化创建贴近现实的评估方案。该方法通过规避模型对评估的“警觉性”，直接模拟真实生产环境中的使用场景，从而更有效地暴露潜在风险。该流程能够系统性地生成高质量评估数据集，提升对前沿模型在复杂、开放环境中行为的预测能力，为人工智能安全评估提供了可扩展的工具。

OpenAI安全/对齐评测/基准

12月18日

18:00

公众号：小红书技术（dots.llm）

NeurIPS2025|小红书AIGC团队提出布局可控生成框架InstanceAssemble

小红书AIGC团队在NeurIPS2025上提出全新布局可控生成框架InstanceAssemble，专用于复杂场景下的Layout-to-Image任务。该框架通过从布局条件中引导图像生成，实现了对多对象位置、大小及空间关系的精确控制，解决了现有模型在密集布局下对象漏生、重叠等难题。

图像生成多模态论文/研究

12月9日

15:02

公众号：小红书技术（dots.llm）

KDD 2026|小红书搜索：生成式相关性让搜索"会思考"

小红书搜索提出分段优势掩码策略，结合轻量级过程监督，构建深度推理式相关性大模型，取得显著收益。该成果被 KDD 2026 录用。

推理论文/研究

12月4日

18:00

公众号：小红书技术（dots.llm）

AAAI 2026 | 跨视频推理基准 CrossVid：给多模态大模型出一道"综合题"

CrossVid 是首个系统性涵盖 4 个维度、10 个任务的跨视频推理测评基准，用于评估多模态大模型在跨视频场景下的综合推理能力，已被 AAAI 2026 收录。

多模态论文/研究评测/基准

08:00

OpenRouter：Announcements（RSS）

OpenRouter 与 a16z 联合发布《2025 年 AI 现状报告》

OpenRouter 与 a16z 合作发布《2025 年 AI 现状报告》，该报告是迄今为止对开发者与组织在真实世界中如何使用语言模型规模最大的实证调查。

行业动态论文/研究

08:00

OpenRouter：Announcements（RSS）

OpenRouter 与 a16z 联合发布 2025 年 AI 产业现状报告

OpenRouter 与 a16z 合作推出 2025 年 AI 产业现状报告，这是迄今最大规模的实证研究，旨在展示开发者和组织在实际场景中使用大语言模型的方式。报告基于真实数据，揭示了模型选择、部署模式、成本效益等关键趋势，为行业提供了一份来自前沿实践的全景式参考。

现象/趋势论文/研究

12月2日

03:00

OpenAI：Alignment 研究博客（RSS）

精选60

大规模验证代码的实用方法

研究团队训练并部署了一个专为高精度和实际应用优化的AI代码审查智能体。该智能体旨在对自主生成的代码进行有效监督，使代码审查能力能够与自动化代码生成的规模同步扩展。通过优化智能体的精确度，该方法致力于解决大规模代码生成中的质量控制难题，为AI辅助软件开发提供了可落地的规模化监督方案。

智能体OpenAI安全/对齐编码

关联讨论 3 条

推荐理由：OpenAI 把对齐研究落到了代码审查这个具体场景，不是空谈 alignment 理论，而是训了个高精度 review agent 来给 AI 写的代码做质检。做 coding agent 的团队该看看，这可能是未来安全合规的标配。

03:00

OpenAI：Alignment 研究博客（RSS）

使用稀疏自编码器潜在归因调试未对齐的补全结果

研究提出了一种利用稀疏自编码器进行潜在归因的方法，以高效识别导致模型行为偏差的特征根源。该方法能够定位语言模型生成未对齐或有害补全结果时的内部激活特征，通过分析稀疏特征贡献来追溯问题源头。这一技术为理解和调试大语言模型（如GPT、Claude、LLaMA）的特定行为提供了可解释性工具，有助于提升模型的安全性与对齐性。

OpenAI安全/对齐论文/研究

11月14日

16:06

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/AudioMCQ：一个附带双CoT注释与音频贡献过滤的571k音频多选题数据集，用于大型音频语言模型后训练

AudioMCQ数据集包含57.1万个音频多选题，专为大型音频语言模型的后训练设计。该数据集创新性地提供了双重思维链注释，并引入音频贡献过滤机制以提升数据质量。在DCASE 2025挑战赛中，基于此数据集训练的模型获得第一名，展现了其在音频理解与推理任务上的显著效果。该资源已公开，旨在推动音频语言模型的研究与发展。

多模态数据/训练论文/研究

10月27日

08:00

Thinking Machines Lab：官方博客（RSS）

在线策略蒸馏

大语言模型后训练可分同策略（on-policy）和异策略（off-policy）。同策略强化学习让学生从自身采样学习，但奖励信号稀疏；异策略监督微调提供密集反馈，但分布偏移易导致复合误差。在线策略蒸馏融合两者：从学生模型采样完整轨迹，由高性能教师模型对每一步 token 评分，既保持同策略的上下文反馈，又提供密集细粒度梯度，从而更高效地训练更小、更强的专用模型。

开源/仓库数据/训练论文/研究

10月24日

15:16

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/TwinFlow

该研究提出了一种名为“自对抗流”的新方法，旨在驯化大规模少步训练。该方法通过引入一种内部对抗机制来优化流模型在有限训练步数下的性能，有望解决大模型训练中计算成本高昂的挑战。相关工作已被顶级机器学习会议ICLR 2026接收。

开源生态数据/训练论文/研究

10月10日

15:36

蚂蚁 inclusionAI：GitHub 新仓库

SWE-CARE：一个用于评估代码审查全面性的基准

针对现有代码审查基准和方法在全面性上的不足，研究团队推出了SWE-CARE基准。该基准包含一个用Python构建、覆盖代码审查全过程的仓库级数据集，数据被分为九种类型且每个实例均包含仓库特征。基于此，团队设计了一个评估框架，用以衡量大型语言模型在全面代码审查任务上的性能。项目提供了完整的评估流程脚本，支持使用GPT-4o等模型，并可生成详细的性能评估与分析报告。

编码论文/研究评测/基准

9月29日

11:19

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/Ming-Freeform-Audio-Edit

该仓库发布了Ming-Freeform-Audio-Edit基准测试集，用于评估Ming-UniAudio模型的下游音频编辑任务。测试集涵盖7类任务，包括语义编辑（自由形式删除、插入、替换）和声学编辑（时间拉伸、音高转换等）。音频样本源自seed-tts eval、LibriTTS等开源数据集，其中语义编辑任务包含基于索引和基于内容的中英文样本。评估指标涵盖编辑区域与非编辑区域的词错误率、编辑操作准确率和说话人相似度，并提供了完整的评估脚本与参数说明。

开源/仓库论文/研究语音

08:00

Thinking Machines Lab：官方博客（RSS）

LoRA 无悔

本文探讨了低秩适配（LoRA）与全量微调的性能差异及实践优势。LoRA 通过低秩矩阵更新权重，在保持模型参数不变的同时节省训练内存，支持多租户推理服务、降低硬件需求并便于传输。文献对两者性能比较仍不明确，但共识认为 LoRA 在类似预训练的大规模数据集上表现不佳，因其参数容量有限；而对于中等及以下规模的数据集，其效果尚需进一步研究。

数据/训练论文/研究

9月26日

08:00

Thinking Machines Lab：官方博客（RSS）

Modular Manifolds

训练大型神经网络时，张量过大或过小会引发数值问题。标准化为黄金标准，但权重矩阵标准化不常见。本文提出将权重矩阵约束到子流形，以简化更新理解、消除范数爆炸、简化超参数调优并保证 Lipschitz 鲁棒性。具体提出流形版 Muon 优化器，将权重约束至 Stiefel 流形（单位条件数矩阵），并定义可组合的模块化流形（Modular Manifold），旨在简化大型网络的缩放与训练。本文为研究方向介绍，并展望未来工作。

数据/训练论文/研究