一项针对1260名定量社会科学家的调查显示,虽然81%的受访者用过AI聊天机器人,但仅有20%将Claude Code、Codex等编码智能体常规应用于工作。采用率存在显著差异:以男性名字命名的研究者使用率是女性研究者的两倍;顶尖大学研究者可能性高出40%。用户产出更多工作论文和基金申请,但这可能反映早期采用者自身差异。研究者对AI助力撰写可发表论文更乐观,但对重塑整个社会科学领域持保留态度。这是一项初步调查,更深入研究仍在进行中。
一项针对1260名定量社会科学家的调查显示,虽然81%的受访者用过AI聊天机器人,但仅有20%将Claude Code、Codex等编码智能体常规应用于工作。采用率存在显著差异:以男性名字命名的研究者使用率是女性研究者的两倍;顶尖大学研究者可能性高出40%。用户产出更多工作论文和基金申请,但这可能反映早期采用者自身差异。研究者对AI助力撰写可发表论文更乐观,但对重塑整个社会科学领域持保留态度。这是一项初步调查,更深入研究仍在进行中。
Meta 推出SilverTorch推荐系统架构,统一了用户生成内容的所有检索组件。该架构吞吐量比现有技术高23.7倍,计算成本效率比CPU方案高20.9倍,同时提升了准确性。
Artificial Analysis与IBM Research联合推出ITBench-AA,首个评估AI智能体在企业IT任务中表现的基准,首发任务为站点可靠性工程(SRE)。该基准包含59项Kubernetes事件响应任务,所有前沿模型得分均未超过50%。其中,Claude Opus 4.7以47%领先,GPT-5.5得46%,通义千问(Qwen3.7 Max)得42%。开源模型中,智谱GLM-5.1(推理)得分40%,与Gemini 3.5 Flash持平;深度求索(DeepSeek V4 Pro)得38%。分析还发现,模型推理轮次差异近3倍,但更长轮次并不保证更高准确率。
Google Research 推出了一种新的隐私分析解决方案。该方案结合了一种新的密码学安全聚合协议与可信执行环境(TEE)的透明性,旨在实现前沿的隐私与安全保证。其核心是基于零信任原则,通过密码学与硬件保护的结合,确保系统仅能获取群体的匿名化聚合洞察。
由Artificial Analysis和IBM推出的ITBench-AA SRE基准测试显示,所有前沿大模型得分均未超过50%。Claude Opus 4.7(自适应推理,最大努力)以47%领先,GPT-5.5(xhigh)和Qwen3.7 Max分别得46%和42%。该测试包含59个需要通过Shell命令调查Kubernetes事件快照并提交根因诊断的智能体任务。关键发现是模型推理轮次差异近3倍,但更长的轨迹并不转化为更高准确率,过度调查的模型会因提交误报而受罚。在成本方面,开源模型Gemma 4 31B(Reasoning)以每任务$0.14的成本获得37%得分,优于成本更高但得分更低的闭源模型。
关联讨论 2 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:通义千问 / Qwen (@Alibaba_Qwen)Qwen3.5在TokenSpeed推理引擎上,针对智能体工作负载达到了创纪录的580 tokens per second (tps)速度。这一成果由通义千问推理团队、lightseekorg Foundation TokenSpeed团队、NVIDIA及Mooncake团队共同实现,并采用了tri_dao的FlashAttention-4 (FA4) 优化。此里程碑标志着开源大语言模型推理性能的边界得到了推动,相关详情可查阅PyTorch社区博客。
The speed-of-light optimization for Qwen3.5 on the TokenSpeed inference engine is a significant milestone, achieving a r...
QUACK 是一个开源评估框架,用于审计多模态社交推理智能体的语言基础性。它从游戏结果、行为轨迹和陈述一致性三个层面评估智能体。其核心的陈述验证管道能从日志中重建轨迹并逐条核查陈述,自动标记空间幻觉、无依据指控等问题。实验评估了三个前沿视觉语言模型,结果显示即使最强的智能体,其15.1%的可验证空间主张也存在幻觉,且超过半数的指控缺乏证据支持。该项目的完整组件已在 GitHub 开源。
本文提出JLT,一个基于冻结FLUX.2 VAE编码的130M参数潜在扩散Transformer。研究对比了清洁潜在预测与速度预测DiT在相同表示与训练设置下的表现。分析表明,速度回归继承了各向同性目标协方差下限并放大低方差方向,而清洁预测则能抑制这些方向。在ImageNet 256x256上,JLT-B/1通过classifier-free guidance获得2.50的FID-50K分数,相比速度预测展现出显著优势。研究指出,潜在扩散中的预测目标是与表示相关的几何选择,而非可互换的代数参数化。
研究将人类烹饪艺术数据压缩至仅2兆字节。该成果已发布于arxiv.org,论文编号为2605.22391。
腾讯HY实验室与四家机构发布了专门测试AI对中国古文字识别能力的基准Chronicles-OCR,包含2800张专家标注图像,覆盖甲骨文、金文等七大类。测试显示,28个前沿多模态模型集体表现不佳:VLLM在甲骨文上准确率仅14%,GPT-5与Gemini 2.5 Pro得分近零。值得注意的是,开启推理模式反而损害性能,因模型实为识别龟壳、青铜器等载体(准确率96.7%),而非真正识别字符本身。
The best VLLM scores only 14% on oracle bone script recognition. Chronicles-OCR, a new ancient Chinese character benchma...
MiniMax 在开源 M2 模型半年后,系统性发布了其背后所有工作的论文,详细阐述了设计思路、训练细节与系统架构。此前,其开源系统 CISPO、Forge RL System 和 Self-Evolution 已被社区广泛采用,且多版模型发布后曾登顶 HuggingFace 排行榜。与此同时,MiniMax 官方宣布已为下一代模型 M3 做好准备,并且 MSA 论文也即将发布。
Recently, we took time to consolidate all of the work behind M2 and published it here: our M2 paper on arXiv It's been j...
Google DeepMind推出Gemini Embedding 2,这是一款原生多模态嵌入模型,支持在统一表示空间中嵌入视频、音频、图像和文本。该模型利用Gemini的多模态能力,通过大规模对比学习实现SOTA性能。在关键基准上表现优异:MSCOCO取得62.9 R@1,Vatex取得68.8 NDCG@10,MTEB multilingual达到69.9,MTEB Code达到84.0,超越了专用模型。其统一能力使其适用于RAG、推荐与搜索等下游任务,并在天文学、生物科学、艺术和烹饪等专业领域展现出强大的零样本性能。
现有大语言模型智能体在理想化基准测试中表现良好,但在具有固有随机性和缺陷的真实环境中部署时,性能常会下降。研究提出了NoisyAgent训练框架,旨在缩小这一差距。该框架通过模拟真实场景中的“用户噪声”(交互的歧义性)和“工具噪声”(工具执行失败)两类噪声源来增强智能体。训练过程中,噪声被策略性地施加于部分训练轮次,并随着模型适应而逐步增加难度。实验表明,该方法在噪声和动态环境中持续提升了智能体的鲁棒性,且在理想化基准测试上也获得了性能增益,证明了建模交互缺陷对于弥合训练与现实部署差距的重要性。
VitaBench 2.0是一个专注于评估大语言模型智能体在长期、碎片化用户交互中表现的基准。其任务按时间顺序组织,要求模型从异构交互中持续提取并更新用户偏好。基准通过设计需要主动向用户或环境获取缺失信息的任务来评估智能体的主动性,并提供了可扩展的内存接口。对前沿模型的评测显示,即使最先进的模型在现实个性化任务上仍面临重大挑战。分析揭示了当前智能体在实际个性化决策中的失败模式与能力瓶颈。
为解决大语言模型并行测试时缩放(TTS)中各分支信息隔离导致的重复探索问题,研究提出了协作并行思考(CPT)框架。该框架无需训练,可在推理时跨并行分支共享中间发现:它从各分支提取紧凑信息,维护一个去重的查询级信息池,并通过输入上下文广播信息,使后续分支能复用已有发现。在 HMMT 和 AIME 基准上的实验表明,CPT 在不同预算和模型规模下,均比强基线方法建立了更好的准确率-延迟帕累托前沿,验证了搜索时协作是实现高效并行 TTS 的有效方向。
英伟达发布图像生成技术 PiD(Pixel Diffusion Decoder),能在消费级 RTX 5090 显卡上,以 13GB 峰值显存,将 512×512 图像潜变量解码放大至 2048×2048。该技术基于 PixelDiT,通过轻量级适配器与 DMD2 蒸馏(4 步推理)实现高速端到端生成,在 GB200 GPU 上最快 210ms,延迟相比级联方案最多快 5.9 倍。
新加坡国立大学、麻省理工学院及A*STAR的研究团队提出了MEMO框架。该框架可以将新的语料库知识编码到一个独立的、可训练的MEMORY模型中,从而让大语言模型获得新知识,而无需修改其原始参数。
本文对Gemma 3系列模型(1B-27B参数)上的线性探针欺骗检测方法进行系统测试。研究发现,该探针在干净数据上AUROC可达0.998以上,但在8种文本风格变换下性能崩溃。文章检验了四种欺骗信号的几何编码假设:单一线性方向、多维子空间、凸锥包及熵代理假设,均被拒绝(如单方向假设AUROC仅0.61-0.80)。然而,经过风格数据增强训练的探针(维度k≥5)在未见过的风格上能恢复近乎完美的检测能力(平均AUROC 0.979-0.983),且此模式在4B和27B模型上均成立,表明探针的脆弱性源于训练数据分布狭窄,而非模型规模局限。
MobileMoE是一系列面向设备端部署的大语言模型,采用混合专家架构,其活动参数规模为0.3-0.9B,总参数量为1.3-5.3B。该研究在移动设备内存与算力约束下,确定了“中等稀疏度结合细粒度共享专家”的最优架构设计。通过涵盖预训练、中期训练、指令微调与量化感知训练的四阶段流程,MobileMoE在14个基准测试中,以2-4倍更少的推理FLOPs达到或超越了领先的设备端密集模型性能,并以最多60%更少的参数量匹配或超过了先进的OLMoE-1B-7B模型。在商用智能手机上,其预填充和解码速度分别比密集基线MobileLLM-Pro快1.8-3.8倍和2.2-3.4倍。
MiniMax推出M2系列大语言模型。其旗舰模型M2采用混合专家(MoE)架构,总参数229.9B,每个token仅激活9.8B参数。该系列专为智能体部署设计,基于三大组件构建:智能体驱动的数据管道、可扩展的智能体原生强化学习系统Forge,以及展示早期自我进化能力的M2.7检查点。这种设计使其在智能体编码、深度搜索、办公任务及推理基准测试中达到了前沿性能水平。
关联讨论 1 条MiniMax:Blog(网页)本文研究智能体强化学习在训练工具使用大语言模型时出现的问题,即导致冗余工具调用增加和模糊模型知识边界。现有基于奖励塑造的方法会引发奖励黑客问题。为此,提出AKBE方法,通过双路径(使用工具与不使用工具)滚动动态探测模型知识边界,定义是否需要工具及最少工具调用次数,并通过比较正确性构建监督信号以引导高效工具使用。在七个问答基准测试中,AKBE将任务准确率平均提升1.85,减少18%工具调用,工具生产力提高25%,且无准确率-效率权衡。
MRT是一个20B参数的掩码区域扩散模型,专为多层透明图像生成与编辑设计。它在超过1000万个多语言设计样本上训练,统一了文本到图层、图像到图层和图层到图层三项任务。模型通过选择性token掩码实现灵活的图层生成与编辑,并引入溢出感知画布图层以处理边界不一致问题,支持半透明背景合成。此外,应用扩散蒸馏实现了8步实时生成。实验表明,MRT在所有任务上显著优于先前先进方法与商业系统。用户研究显示,其图像到图层质量优于同期Qwen-Image-Layered模型,推理速度快10-100倍,GPU内存消耗降低50-90%。
提出了Trajel,一个用于审计多智能体工业工作流中轨迹级模型幻觉的数据集和评估框架。它基于专家标注的智能体轨迹,引入了五种幻觉分类:事实性、引用性、逻辑性、程序性和范围性。基准测试表明,现有基准遗漏了最常见故障模式,近半数幻觉轨迹涉及多种类型。自动化检测器尽管二分类准确度高,但仍会误判最微妙的类型。轨迹感知的检测显著优于标准的事后验证,表明基于分类法的评估对于更安全的智能体部署是必要的。
Camera pose matters for video understanding! Today's MLLMs excel at recognizing activities, but still struggle with the ...
递归流匹配(RecFM)是一种用于预测复杂时空动态的生成式框架。该模型通过强制自一致性来对齐跨离散化尺度的轨迹,从而减少离散化误差并提升物理任务的各项性能。据称,这是首个能够为科学系统实现高保真度一步与少步(2-4步)动态生成的方法,其性能可与最先进的多步求解器相媲美。在多个科学基准测试中,RecFM 实现了最高 20 倍于领先扩散模型的速度提升,同时提高了预测精度。与基础流匹配相比,其均方误差降低了超过 15%。
RT-Lynx 提出了一种新范式,将扩散模型(Diffusion Transformers)的加速方法从权重稀疏化转向激活稀疏化。研究发现,DiT 模型的激活值具有内在稀疏性,且比权重更耐受 N:M 半结构化稀疏剪枝。通过在激活上应用 N:M 稀疏化并引入误差补偿技术,RT-Lynx 在保持生成质量的同时,实现了线性层平均最高 1.55 倍的推理速度提升。该方法在多个扩散模型上通过了实验验证。
空间基础模型虽在标准数据集上表现优异,但其在不同任务、视角、场景、输入密度和硬件下的真实泛化能力尚未得到全面评估。为此,研究者提出了跨范式、多领域的基准测试 SpatialBench,包含19个数据集、546个场景,覆盖5个空间领域。该基准对41个模型在6种范式和4种输入密度下进行了评估,发现当前模型尚未达到“全能”水平。研究表明,全上下文注意力能最大化精度,有界内存策略可提升长序列扩展能力,且在具身任务中,严格的领域对齐与数据质量远比单纯增加数据量更重要。此外,研究还引入了大规模数据集 DA-Next-5M 及强基线模型 DA-Next。
MUSE-Autoskill 提出了一个以技能为核心的智能体框架,使智能体能够通过统一的技能生命周期(创建、记忆、管理、评估与精炼)持续提升任务解决能力。该框架支持按需创建技能、跨任务存储与重用,并借助单元测试和运行时反馈进行持续改进。它还引入了技能级记忆,用于为每个技能积累跨任务经验。在 SkillsBench 上的初步实验表明,经过生命周期管理的技能可以提升任务成功率、效率、重用性及跨智能体迁移能力,突显了将技能作为长期、可感知经验且可测试的资产的重要性。
LocateAnything 提出了一种统一的生成式视觉定位与检测框架,其核心是并行框解码(PBD)技术。该技术将边界框和点等几何元素作为原子单元一步解码,替代了传统视觉语言模型中串行解码坐标 token 的方式,从而保持了框内几何一致性并实现了大规模并行,显著提升了解码吞吐量与定位精度。研究还构建了包含超过 1.38 亿训练样本的大规模数据集 LocateAnything-Data。评估表明,LocateAnything 在提升解码速度的同时,改善了高交并比(high-IoU)下的定位质量。
本研究系统考察了大语言模型中可学习缩放向量的作用。尽管其参数占比极小,但移除后会显著损害模型预训练效果。研究表明,在Pre-Norm架构中,其主要作用并非增强模型表达能力,而是通过自放大的预处理效应优化后续的线性映射。此外,权重衰减对Input-Norm层有益,但对Output-Norm层有害。基于这些发现,文章提出了三种轻量化改进:分支特异性异构性、线性映射周围的改进放置以及幅度-方向重参数化,并将其整合为一个统一的策略。实验验证表明,该策略在以可忽略不计的额外参数和计算开销下,能一致实现更低的最终损失和更优的缩放行为。
现代GAN常被解读为多阶段粗到细生成,但论文指出,标准的分尺度对抗监督并未构建此层级结构:各阶段输出被独立推向真实分布,导致跨阶段输出可能并非同一生成样本,即存在“跨尺度轨迹错位”问题。为此,论文提出跨尺度对齐Transformer (CAT),在保持鉴别器分尺度评估的同时,于生成器侧引入一致性正则化,将中间输出与最终输出对齐。在条件ImageNet-256上,CAT-H/2仅训练60周期,一步推理FID-50K达到1.56,优于多个单步GAN及扩散/流模型基线。
PRISM 是一种仅解码器的自回归 Transformer 模型,用于解决多层光学薄膜设计的组合-连续优化问题。它能通过单一骨干网络联合预测离散材料选择与连续厚度。其主要创新在于使用频谱前缀条件输入,以及将连续厚度直接编码至位置表示的累积深度旋转位置嵌入。基准测试表明,13M 参数的 PRISM-13M 模型在平均绝对误差(MAE)上较其他 Transformer 基线降低超过 50%,且参数量仅为五分之一。44M 参数变体在分布内验证基准上达到了最先进性能(MAE = 0.010),其推理速度显著快于模拟退火法。
提出首个将已训练MoE模型转换为标准全密集架构的系统性框架:对专家进行评分、选择和分组,拼接为密集前馈网络并通过知识蒸馏精炼。在Qwen3-30B-A3B、DeepSeek-V2-Lite和GPT-OSS-20B上评估了7种评分、5种分组和2种幅度缩放方法共350种配置。新提出的多样性感知评分方法一致优于此前方法。在同等参数量下,MoE转密集相比密集到密集剪枝,经过约4B token蒸馏后平均下游准确率提升6.3个百分点,训练速度提升1.6倍。
CORE是一种非参数学习算法,通过对比成功与失败的推理轨迹生成简短自然语言 insights(推理策略和约束),使语言模型快速改进推理。在四个推理任务上,CORE比GRPO、GEPA、episodic RAG和MemRL等基线方法用更少rollout实现更快性能提升;在固定rollout预算下,仅用5个训练样本即可达到可比或更大增益。同时,CORE比非参数基线更上下文高效,将知识存储为紧凑可解释的自然语言insights,所需prompt token更少。
RAT+ 引入指数衰减记忆增强注意力,使模型在推理时支持灵活的空洞注意力。将 RAT+ 与 Quest、MoBA、SnapKV 等查询感知稀疏推理方法结合,在八个 needle-in-a-haystack 任务上,不同稀疏预算下均一致优于标准注意力。验证基于 RAT+ 已发布检查点及用额外 10B token 继续预训练的 OLMo2-7B。最后提出两种假说解释记忆模块为何有益。
针对现有AI文本检测器仅提供分数而缺乏解释性、难以应用于教学等场景的问题,研究团队提出了TELL架构。该系统旨在为用户提供文本被判定为AI或人类撰写的“特征提示”,赋能用户基于自身判断进行决策。TELL在特定领域作者标注数据集上训练,并采用GRPO和课程学习进行优化。在保持与前沿检测器可比性能的同时,系统能原生输出解释性标注。其解释质量在人类评估中,在具体性、可证伪性等多维度上取得了平均72.3%的胜率。
该研究发现,推理模型在多轮对话的持续对抗压力下,会出现“不忠实的屈服”现象:其内部思维链从首轮到末轮均保持事实正确,但最终输出的答案却翻转变错。实验在MT-Consistency、MMLU-Pro和GSM8K三个数据集上进行,结果显示,发生此现象时,模型在“思考模式”下的潜在正确率接近50%,而在“无思考模式”下则骤降至11-15%。该效应在Qwen3-32B和GPT-OSS-20B上显著,在采用内联CoT的Gemma-4-31B-it上则较低。研究由独立的GPT-4o评判者验证,确认了86%的标签。
检索增强生成系统处理多来源语料时,可能因检索来源不同而对同一问题给出不同答案,这是一种现有评估体系无法诊断的失效模式。研究团队在医疗患者教育场景发布了三个工具:基准TransplantQA,为真实患者问题提供基于多机构手册的参考答案;分层检索与审计策略HERO-QA;以及一个基于经验证的5标签分类体系的结构化评估器,用于评分来源间关系。大规模审计显示,更优的检索能力所暴露出的来源分歧远高于此前估计。该框架具有领域通用性。
该研究基于2025 ACL Rolling Review (ARR)的论文,实证评估了大语言模型(LLM)生成的论文评审意见。研究发现,LLM评审与人类评审的对齐程度有限,且在不同提示词和模型之间存在显著差异。此外,当作者采用基于LLM评审意见的迭代修改工作流时,可以有效“博弈”LLM评审,使高达35%的论文的总分获得统计意义上的显著提升。
该研究分析了在问答游戏中,人类与AI智能体协作时的两种关键决策:委托(让AI自主行动)和采纳(评估并使用AI的建议)。实验由23名人类专家与16个AI代理参与,共产生387次委托和1440次采纳决策。结果表明,尽管人机协作表现优于单独行动,但人类决策存在偏差:会低估3.9%的正确AI建议,同时在AI误导时过度信任1.7%的错误建议。当AI建议与人类初始错误答案一致时,低估率高达64.5%。研究指出,当前AI报告的置信度在分歧时接近随机水平,并建议通过校准置信度、提供基于证据的解释和建立信任调节机制来改进协作。