AIHOT

全部动态资讯 · 1789 条

5月23日周六

5月22日周五

5月23日

08:00

HuggingFace Daily Papers（社区热门论文）

论文建立了针对遥感组合图像检索（RSCIR）的统一基准评测框架。研究在PatternCom数据集上，系统评估了六种视觉语言骨干网络支持的代表性组合图像检索方法。同时，引入了一个名为xView2-CIR、以灾害和损毁监测为中心的新数据集。结果表明，无需训练的组合方法可作为遥感图像检索强健且可扩展的基线；而以变化为中心的检索任务，因需保持场景身份不变，带来了与基于属性检索不同的挑战。

GitHub多模态搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AgentFugue：通过集体推理实现长期任务的智能体扩展

现有长期智能体任务的研究主要聚焦于增强单个智能体。本研究则探索通过对等智能体的协作来扩展能力，提出了AgentFugue框架。该框架构建了一个共享推理中心，当多个对等智能体并行探索同一任务时，中心会记录每个智能体的发现、尝试与排除项，使其他智能体能够选择性复用这些中间推理成果，而无需集中式规划。训练后的该中心作为插件通信层，在长期任务测试中表现优于强基线。结果表明，集体推理可使对等智能体扩展成为一种独立的能力提升途径。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SAM：面向长期推理智能体的状态自适应记忆

针对长期智能体推理中交互历史过长且关键信息分散的问题，SAM框架提出了一种状态自适应记忆方案。该方案将当前交互整合为紧凑的记忆线索，同时保留原始轨迹页面以支持意图驱动的召回，无需重新训练主干模型。SAM通过专家监督与强化学习优化记忆模块，使其与轨迹级效用对齐。在BrowseComp、BrowseComp-ZH、WideSearch和HLE等基准测试中，SAM在不同智能体骨架上均持续优于强基线。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ECHO：终端智能体免费学习世界模型

ECHO（环境交叉熵混合目标）是一种针对CLI智能体的新训练方法。它在标准的GRPO策略梯度损失之上，增加了一个辅助损失项，训练模型预测自身动作产生的环境观察token。这将稀疏的结果奖励转化为每一轮rollout的密集监督。实验表明，在TerminalBench-2.0上，ECHO使Qwen3-8B的pass@1从2.70%提升至5.17%，Qwen3-14B从5.17%提升至10.79%。该方法无需专家示范，能使基础模型匹配专家SFT后GRPO的性能，并在部分场景下可能实现无验证器的自我改进。

智能体arXiv推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SEAL：智能体与学习环境的协同进化

针对大语言模型智能体自我进化中，策略与环境被单独优化导致的错位问题，本文提出SEAL框架。它构建了一个闭环协同进化系统：通过收集策略轨迹并诊断失败，将失败诊断作为共享信号，同时优化智能体的模型策略和训练环境。环境侧进化其学习接口，提供更明确的工具可用性提示；策略侧则利用诊断信息更新模型。实验表明，仅使用400个训练样本，SEAL在三种骨干网络上平均提升了8.25至26.25个点，并展现出跨领域迁移能力。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Mix-MoE：通过混合 MoE 改进大语言模型的多语言机器翻译

Mix-MoE 框架通过两阶段训练改进大语言模型的多语言翻译能力：先在单语语料上用混合专家进行后预训练，再在平行语料上训练。它将专家层分为语言模型专家和机器翻译专家，分别保留单语知识和学习翻译知识，并引入基于傅里叶变换特征的路由机制促进专家交互。实验表明，该框架在多语言翻译任务上显著优于现有基线，有效缓解了参数干扰问题。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

VaaWIT：面向多语网页图像翻译的视觉感知大语言模型适配框架

翻译网页图像中的文本对提升内容可访问性至关重要。现有大型视觉语言模型因视觉表征差距，常忽视识别多样字符形态所需的细粒度视觉细节，导致在此任务上表现不佳。为此，本研究提出VaaWIT框架，它通过双流注意力模块实现多语义特征与视觉细节的双向交互，并利用视觉感知适配器以参数高效微调方式将融合特征注入冻结的大语言模型骨干。实验表明，该框架在三个公开基准的八个任务上显著超越了SOTA开源基线模型，性能可与闭源模型相媲美。

图像生成多模态论文/研究

05:27

Hacker News 热门（buzzing.cc 中文翻译）

"玻璃翼"项目：初步进展报告

Anthropic发布了“玻璃翼”项目的初步进展报告。该项目详情尚待公开，相关链接已指向其官方研究页面。该报告目前已引起技术社区关注，在Hacker News上获得119个积分。

Anthropic安全/对齐论文/研究

关联讨论 4 条

04:16

HuggingFace Daily Papers（社区热门论文）

现场音乐扩散模型：交互式扩散音乐生成器的高效微调与后训练

本研究探索将开源音频扩散模型改造为可在消费级硬件上运行的交互式音乐生成器。通过分析发现，传统的分块外扩扩散流程在推理时效率较低。为此，提出了现场音乐扩散模型（LMDMs），通过引入分块KV缓存优化生成过程，显著提升了推理效率。同时，LMDMs采用ARC-Forcing范式实现稳定的后训练对齐，减少了误差累积，无需依赖强化学习或奖励模型。该模型已应用于文本生成音乐、草图合成音乐及实时即兴合奏等场景，并能以“生成式延迟”效果器的形式在游戏笔记本电脑上本地运行，为音乐创作提供实时音色变换支持。

推理论文/研究部署/工程

03:57

Anthropic：Research（发表成果 · 网页）

Project Glasswing项目阶段性进展

上月启动的Project Glasswing项目旨在利用AI能力保护关键软件安全。在约50家合作伙伴参与下，通过使用Claude Mythos Preview模型，已在全球最重要的系统软件中发现超过一万个高危或严重漏洞。Cloudflare等合作伙伴报告其漏洞发现效率提升超十倍，其中仅Cloudflare就在关键系统中发现了2000个漏洞。该模型在多个独立安全测试中表现突出，被评测为网络攻击模拟领域的首个全通关模型。当前的挑战已从快速发现漏洞，转向了如何快速验证、披露和修补海量漏洞。

智能体Anthropic安全/对齐开源生态

关联讨论 4 条

01:30

Apple Machine Learning Research（RSS）

精选66

VSAS-Bench：视觉流式辅助模型的实时评估基准

现有视觉语言模型框架主要在离线场景下评估性能，但实时视觉助手所依赖的流式模型还需考量额外指标，如反映响应时效性的“主动性”和捕捉随时间推移响应稳定性的“一致性”。为此，研究团队提出了VSAS-Bench，这是一个新的评估基准，专门针对流式视觉语言模型在实时交互任务中的表现，填补了当前评估方法在动态、持续生成场景下的空白。

多模态论文/研究评测/基准

推荐理由：苹果搞了个实时视觉助手的评估基准，把离线评测拉到了流式场景，多模态 agent 和实时 VLM 方向的研究者值得跟进一下评估方法。

01:16

HuggingFace Daily Papers（社区热门论文）

评估人工智能预测科学进展的能力：CUSP基准研究

本研究引入CUSP基准，基于4760个科学事件评估AI预测进展的能力。测试发现，当前前沿模型存在系统性局限：虽然能从候选中识别合理方向，但无法可靠预测进展能否实现，且常错误估计时间。性能在不同领域差异显著，AI进展比其他学科更易预测。模型表现对训练截止时间不敏感，表明限制不仅源于训练知识。增加事前知识可提升性能，但无法达到完全信息状态。模型还表现出过度自信和响应偏差。总体而言，当前AI作为科学进展预测工具尚不成熟。

论文/研究

00:16

HuggingFace Daily Papers（社区热门论文）

通过自我调节的模拟规划实现高效智能体推理

针对当前自适应计算策略导致的推理冗长与低效问题，本文提出将智能体决策分解为模拟推理、自我调节和反应执行三系统。研究开发了SR²AM模型，其两个版本v0.1-8B和v1.0-30B分别通过提示多模块系统和重建训练推理LLM的结构化计划实现。在多项基准测试中，v1.0-30B以25.8%-95.3%更少的推理token，达到了与更大参数量系统相当的性能。引入强化学习后，模型规划深度提升22.8%，而频率仅增2.0%，表明其学会了更前瞻性的规划。这为构建高效、自适应的智能体提供了新范式。

智能体推理论文/研究部署/工程

5月22日

23:16

HuggingFace Daily Papers（社区热门论文）

AnyMo：一种设置无关的可穿戴IMU运动理解框架

针对可穿戴IMU信号高度依赖设备位置、朝向等具体设置，难以跨设备迁移的挑战，本文提出了AnyMo框架。该框架首先基于物理原理进行IMU仿真，在身体表面密集采样生成多样合成信号，用于预训练图编码器。随后，将多位置IMU信号转化为全身运动标记，并与大语言模型对齐以理解运动语义。实验表明，AnyMo在未见过的14个下游数据集的零样本活动识别、跨模态检索及运动描述三项任务上均取得显著提升，证明了其作为野外可穿戴运动理解通才模型的潜力。

具身智能多模态论文/研究

22:16

HuggingFace Daily Papers（社区热门论文）

FashionLens：基于任务自适应学习的通用时尚图像检索框架

为了解决现有时尚图像检索方法难以支持多样化查询与意图的问题，研究提出了统一框架FashionLens。首先构建了综合性基准数据集U-FIRE，整合并增强了现有数据以支持跨场景评估与泛化测试。在此基础上，基于多模态大语言模型，提出了两大核心模块：一是通过自适应球面插值将查询动态映射到任务对齐空间的查询校准器；二是根据学习难度与数据规模自动调整任务权重的自适应采样策略。实验表明，该方法在U-FIRE上取得了最先进性能，并能稳健泛化至未见任务。相关代码与数据已开源。

arXivGitHub多模态搜索

21:16

HuggingFace Daily Papers（社区热门论文）

SEGA：基于频谱-能量引导注意力的扩散 Transformer 分辨率外推方法

研究团队提出一种名为 SEGA 的无训练方法，用于解决扩散 Transformer 在生成超出训练分辨率图像时性能下降的问题。该方法根据去噪过程中潜变量的空间-频谱结构，对旋转位置编码的不同频率分量进行动态、自适应的注意力缩放，从而在提升图像全局结构连贯性的同时，更好地恢复细节保真度。实验表明，SEGA 在多种目标分辨率上均能稳定提升高分辨率图像合成质量，优于当前最先进的无训练基线方法。

图像生成论文/研究

18:16

HuggingFace Daily Papers（社区热门论文）

DecQ：用于增强表征自编码器重建与生成质量的细节凝练查询

表征自编码器（RAEs）使用冻结的视觉模型作为编码器，这在提供高质量生成的同时，限制了其空间重建能力。针对微调能改善重建但会损害生成质量这一权衡难题，本文提出了DecQ框架。该框架引入轻量级的“细节凝练查询”模块，从视觉模型的中间层提取细粒度信息，并将其融合到解码器和生成过程中。实验表明，仅增加8个查询和3.9%的计算量，DecQ就能将基于DINOv2的表征自编码器的峰值信噪比从19.13 dB显著提升至22.76 dB；在生成任务上，其收敛速度比原始框架快3.3倍，FID分数在无引导和有引导下分别达到1.41和1.05，有效兼顾了重建与生成性能。

图像生成编码论文/研究

16:15

HuggingFace Daily Papers（社区热门论文）

TransitLM：用于无地图公交路线生成的大规模数据集与基准测试

TransitLM是首个支持绕过地图依赖的公交路线规划数据集，包含来自中国四个城市超过1300万条记录。它既提供大规模语料用于持续预训练，也设立了三项互补的评估任务。实验表明，基于该数据集训练的大语言模型能高准确率地生成结构合理的路线，并能隐式地将GPS坐标匹配至站点，无需显式地图。这证明公交路线规划可完全从数据中学习，实现直接从起终点信息生成路线的端到端无地图模式。数据集与基准测试代码已开源。

Hugging Face数据/训练论文/研究

15:56

Hacker News 热门（buzzing.cc 中文翻译）

多流大型语言模型：关于提示、推理和I/O并行化/分离的新论文

一篇关于多流大型语言模型的新研究论文提出了将提示处理、推理计算以及输入输出过程进行分离与并行化的架构设计。该方法旨在提升大型语言模型在处理复杂任务时的效率与可扩展性，为构建更灵活、高效的AI系统提供了新的技术思路。

推理论文/研究部署/工程

15:14

HuggingFace Daily Papers（社区热门论文）

本研究探讨在句子级价值观检测中，上下文与显式道德知识的作用。通过对比句子、窗口和全文输入，以及有无检索增强（基于道德知识库）的设置，实验了监督式DeBERTa编码器与零样本大语言模型。结果发现：全文上下文能显著提升DeBERTa性能，但对零样本大模型并无稳定助益；而检索到的道德知识则能一致性地提升各类模型性能。模型规模的扩大并不保证性能增益。分析表明，上下文与检索对易混淆的价值观类别帮助最大。因此，价值观敏感的NLP应综合评估上下文、知识与模型，而非简单依赖更长输入或更大模型。

安全/对齐论文/研究

13:14

HuggingFace Daily Papers（社区热门论文）

基于运动、几何与语义自适应的复杂非线性视觉目标跟踪框架

传统视觉目标跟踪方法依赖特定任务的监督训练，泛化能力有限。近期以SAM 2为代表的基础模型虽具强大视频理解能力，但直接用于跟踪时缺乏对目标运动、几何一致性和语义偏移的显式建模。为此，本研究提出SAMOSA框架，通过引入轻量级非线性运动预测器建模目标动态，利用语义线索检测偏移并恢复跟踪，并结合几何约束提升稳定性，从而将SAM 2的通用先验适配到复杂跟踪任务。实验表明，SAMOSA在通用基准上优于现有SAM 2方法，并在反无人机等非线性运动场景中取得显著性能提升。

GitHub视频论文/研究

13:14

HuggingFace Daily Papers（社区热门论文）

一句一剧：基于多智能体系统的个性化短剧生成

针对现有短剧生成方法在叙事节奏、空间一致性及生产级质控方面的不足，本研究提出了“一句一剧”分层多智能体框架。该框架包含三大核心组件：多智能体辩论式故事生成以保障叙事张力、3D锚定首帧生成以维护跨片段空间一致、以及多阶段审核循环以实现全流程质量控制。此外，系统引入了场景级BGM匹配与转场规划以增强沉浸感。团队还构建了专用基准Short-Drama-Bench进行评估。实验表明，该方法在叙事连贯性、角色场景一致性及整体观看体验上均显著优于现有流程。

智能体多模态视频论文/研究

13:14

HuggingFace Daily Papers（社区热门论文）

SpaceDG：视觉退化下的空间智能基准测试

SpaceDG是首个大规模退化感知空间理解数据集，包含约100万个问答对，源自近1000个室内场景。其核心是物理基础的退化合成引擎，能将退化过程嵌入3D高斯泼溅渲染，真实模拟运动模糊、低光等九种退化类型。配套的SpaceDG-Bench基准包含1102个人工验证问题，覆盖11类推理任务。对25个模型的评估揭示，视觉退化会严重损害空间推理能力。研究表明，在SpaceDG上进行微调能显著提升模型在退化场景下的鲁棒性，性能甚至可超越人类，且不影响其在清晰图像上的表现。

arXiv多模态数据/训练论文/研究

13:14

HuggingFace Daily Papers（社区热门论文）

LatentOmni：通过统一的音视频潜在推理重新思考全模态理解

当前多模态大语言模型在音视频联合推理中存在局限，因其将连续信号压缩为离散文本，损害了时序定位能力。为此，研究提出LatentOmni框架，构建统一的潜在空间以保留密集的感官信息，并交错执行文本推理与音视频潜态更新。该方法引入特征级监督以对齐推理状态与感官特征，并利用Omni-Sync位置嵌入维持音视频潜态的时序一致性。同时，构建了包含3.5万条轨迹的LatentOmni-Instruct-35K数据集。实验证明，LatentOmni在多个基准测试中取得了开源模型的最佳性能，并优于显式文本链式推理基线。

多模态推理论文/研究

12:14

HuggingFace Daily Papers（社区热门论文）

SceneAligner：基于3D重建的平面图定位方法

SceneAligner是一种基于3D重建的平面图定位方法。针对现有技术对环境规模和地图格式的限制，该方法从无约束图像集合重建重力对齐的3D场景，并投影为2D密度图作为平面图代理。通过2D相似变换实现与输入平面图的对齐。为克服密度图与建筑平面图之间的视觉差异，引入跨模态学习机制，利用2D基础模型进行语义对齐，同时保持结构一致性。实验结果显示，该方法在多种场景中显著优于先前方法，特别是在极稀疏输入（如仅单张图像）时仍能有效工作。代码和数据将公开，以促进进一步研究。

多模态端侧论文/研究

11:14

HuggingFace Daily Papers（社区热门论文）

感知还是偏见：多模态大语言模型能否超越人格的第一印象？

多模态大语言模型在需要人格感知的人机交互中应用广泛，但现有评估仅关注大五人格分数的预测。本研究提出了一个新的接地人格推理任务，并发布了包含1104个视频的MM-OCEAN数据集。研究通过三层评估框架对27个模型进行测试，发现一个关键的“偏见鸿沟”：在所有模型中，有51%的正确评分并未基于检索到的行为线索，且整体证据归因率仅在0-33.5%之间。这表明模型往往只是“猜对”了分数，而非基于正确的推理依据，为未来提升模型的接地社交认知能力指明了方向。

arXiv多模态论文/研究评测/基准

11:14

HuggingFace Daily Papers（社区热门论文）

Maestro：基于强化学习的层级化模型-技能编排框架

Maestro是一个用于多模态任务的强化学习编排框架。它通过训练一个轻量策略，动态组合冻结的专家模型与双层技能库，实现步骤级的实时决策：何时调用专家、选择何种模型-技能组合，以及何时终止。在十个代表性多模态基准测试中，仅4B参数的Maestro平均准确率达70.1%，超越了GPT-5和Gemini-2.5-Pro。其策略可泛化至未见过的模型和技能，无需重新训练；在扩展外部专家后，仍显著优于闭源基线，同时保持高效率和低延迟。代码已开源。

智能体MCP/工具多模态论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

通过结构化表发现实现多样化模型发现

针对现有模型搜索系统结果同质化的问题，本文提出 StructuredSemanticSearch 框架。该框架将语义基线与结构化表发现相结合，通过表格发现算子检索相关模型卡片表格，并控制预算以公平比较文本与表格检索效果。创新性地采用方向感知的表格集成技术，生成紧凑的集成视图。评估采用基于“要点”的可审计协议，在597个查询上的实验表明，该结构化感知方法相比纯语义基线，能显著提升证据覆盖率和结果多样性，为动态模型库的评估提供了可扩展的路径。

搜索论文/研究评测/基准

10:14

HuggingFace Daily Papers（社区热门论文）

智能体上下文编译：面向长上下文训练的轨迹编制方法

为解决智能体监督微调中存在的“监督空白”问题，即标准流程忽略了分散在多轮交互中回答问题所需的关键证据，本文提出智能体上下文编译方法。该方法将智能体求解问题时产生的长轨迹，转化为整合了原始问题与远距离工具响应的长上下文问答对，以此直接训练模型的长距离推理能力。实验表明，经ACC训练的轻量模型在长依赖任务上性能大幅提升，可比肩更大规模模型，同时保留通用能力，并展现出自适应的注意力重组与专家化特性。

推理数据/训练论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

基于泰勒级数的时间突变帧选择算法

该研究提出Swift Sampling，一种免训练的视频帧选择算法。其灵感源自人脑的预测编码机制，将视频建模为视觉潜在空间中的可微轨迹，计算特征的速度与加速度，并通过泰勒展开预测后续帧的预期路径。算法识别出大幅偏离预测轨迹的帧，即“时间信息突变帧”，作为包含关键信息的帧进行采样。该方法极其轻量，仅增加0.02倍计算开销，比主流方法低30倍。在长视频问答的多个基准测试中，它均优于均匀采样等方法，在帧预算有限时尤为有效，准确率最高可提升12.5个百分点。

arXiv数据/训练视频论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

精选70

Gated DeltaNet-2：解耦线性注意力中的擦除与写入

线性注意力通过固定循环状态替代无界缓存，但面临精确编辑压缩记忆的挑战。现有模型如Delta-rule与KDA使用单一标量门同时控制“擦除”与“写入”两个操作。本文提出Gated DeltaNet-2，引入独立的通道级擦除门和写入门，实现了这两个操作的解耦，从而泛化并改进了前代模型。该模型在1.3B参数规模、100B tokens训练下，在语言建模、常识推理等任务中表现优异，尤其在长上下文RULER多键检索基准上优势显著。

推理论文/研究

推荐理由：把线性注意力里擦除和写入的解耦，像给模型装了独立刹车和油门，在长上下文检索上直接拉开差距，做架构的值得细读。

10:14

HuggingFace Daily Papers（社区热门论文）

Spreadsheet-RL：通过强化学习提升大语言模型在现实电子表格任务中的智能体能力

本文提出Spreadsheet-RL，一个用于在真实微软Excel环境中训练专业电子表格智能体的强化学习微调框架。该框架包含从网络论坛自动收集起始-目标电子表格数据对的流水线，并发布了涵盖金融、供应链等领域的Domain-Spreadsheet基准数据集。其核心的Spreadsheet Gym环境通过Python沙箱暴露丰富的Excel功能，并设计了专用工具集与路由规则。实验表明，Spreadsheet-RL显著提升了模型性能：Qwen3-4B模型在SpreadsheetBench上的Pass@1从12.0%提升至23.4%，在Domain-Spreadsheet上从8.4%提升至17.2%，展示了其在电子表格自动化及更广泛数据交互任务中的应用潜力。

智能体数据/训练论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

TerminalWorld：在真实终端任务上评测智能体

研究团队发布了TerminalWorld，一个可扩展的数据引擎，能自动从大量真实终端录制中逆向工程生成高保真的评估任务。该引擎处理了80,870份录制，产出了涵盖18个类别、1,280个唯一命令的1,530个任务基准。其中包含一个经过人工复核的200个任务子集。测试显示，当前先进的模型与智能体在真实终端工作流上表现欠佳，最高通过率仅为62.5%。该基准衡量的能力与现有专家设计基准的相关性很弱（r=0.20），凸显其独特价值。引擎的自动化设计使其具备真实性与可扩展性，数据与代码已开源。

智能体开源/仓库论文/研究评测/基准

10:14

HuggingFace Daily Papers（社区热门论文）

伯尼尼：基于潜在语义规划的视频扩散模型

本文提出了Bernini，一个用于视频生成与编辑的统一框架。该框架创新性地将多模态大语言模型与扩散模型分工协作：MLLM负责在ViT嵌入空间预测目标语义表示，扩散模型则依据此语义规划及文本特征合成像素。为处理多视觉输入，模型引入了分段感知三维旋转位置编码，并结合思维链推理，显著提升了从理解到生成的转化能力。该架构支持模块化训练与轻量协同优化，在多项视频生成与编辑基准测试中均取得最优表现。

Hugging Face多模态视频论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

WorldKV：通过世界检索与压缩实现高效世界记忆

为解决自回归视频扩散模型在维持持久世界一致性时面临的内存与计算瓶颈，本文提出了WorldKV框架。该框架包含世界检索与压缩两个核心组件，无需额外训练。世界检索通过相机与动作对应关系，按需召回历史KV缓存块并插入当前窗口。世界压缩通过锚帧关键帧相似性剪枝，将缓存存储减半。实验表明，在保持生成保真度的同时，WorldKV将吞吐量提升了约2倍，性能可与需训练的记忆方法竞争。

论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

精选74

从推理链到可验证子问题：课程强化学习实现LLM推理的信用分配

针对基于结果的强化学习在处理困难推理问题时因正确样本稀少而效率低下的问题，本文提出子问题课程强化学习框架。该框架从参考推理链中提取可验证子问题，并将最终子问题固定为原始问题，从而将部分解题进展转化为可验证的学习信号。其通过在子问题位置独立归一化奖励并分配优势值，实现了更细粒度的信用分配。实验表明，SCRL显著提升了模型在多个数学推理基准上的性能，有效增强了在复杂问题上的探索与推理能力。

arXiv推理数据/训练论文/研究

推荐理由：SCRL 将推理链解构为可验证子问题课程，让 RL 在超难数学题上获得细粒度信用分配，AIME 提点显著，做推理 RL 的团队值得复现。

10:14

HuggingFace Daily Papers（社区热门论文）

Sensor2Sensor：面向自动驾驶的跨形态传感器数据转换

针对自动驾驶系统训练所需高保真、多样化数据不足的难题，研究提出了Sensor2Sensor方法。该方法能将行车记录仪等来源的非结构化单目视频，转化为包含多视角相机图像与LiDAR点云的高保真多模态传感器数据。其核心在于利用4D高斯溅射技术将真实自动驾驶日志转换为视频风格，从而解决缺乏配对训练数据的挑战，并结合扩散模型完成生成式转换。评估表明，该方法能将复杂的真实场景有效转化为可用数据，为自动驾驶开发解锁了海量的外部数据源。

多模态数据/训练论文/研究

10:09

IT之家（RSS）

精选80

图灵测试 76 年后首现 AI 通过实证：GPT-4.5 以 73% 判定率超越真人

加州大学圣地亚哥分校研究首次实证现代AI可通过图灵测试。研究表明，在获得特定提示后，GPT-4.5在5至15分钟的对话中被误认为人类的概率高达73%，显著超过真人。LLaMa-3.1-405B的判定率（56%）与真人相当，而GPT-4o和ELIZA仅约20%。研究指出提示词至关重要，它使AI能模仿人类语气、幽默感甚至易错性等社会行为特征。这一发现迫使人们重新思考图灵测试的意义，并凸显了大语言模型在网络信任与安全方面构成的潜在挑战。

OpenAI安全/对齐论文/研究

推荐理由：这篇PNAS论文首次用严格实验证明现代AI能通过图灵测试，GPT-4.5装人比真人还像，但重点不是它多聪明，而是它多擅长说谎，线上身份信任被彻底动摇。

09:13

HuggingFace Daily Papers（社区热门论文）

精选70

RiT：在表示空间中使用原生扩散变换器已足够

本研究探讨预训练表示空间在流匹配学习中的优势。比较像素、SD-VAE与DINOv2特征后发现，尽管像素与DINOv2的内在维度相近，但DINOv2在几何统计特性（如有效秩、协方差条件等）上表现更优，使回归过程更稳定。基于此，我们提出了表示图像变换器（RiT），它使用冻结的DINOv2特征，通过x-prediction目标训练一个原生扩散变换器。在ImageNet 256×256生成任务上，RiT性能优于参数量更多的DiT^DH-XL模型，且生成的常微分方程仅需少量步骤即可高效求解。

arXiv图像生成论文/研究

推荐理由：这篇论文没发明新架构，但通过剖析DINOv2特征的统计属性，证明简单结构在表示空间也能做出SOTA，对做图像生成的人来说是个省钱省参数的好思路。

08:00

HuggingFace Daily Papers（社区热门论文）

SPACENUM：重新审视视觉语言模型的空间数值理解

SPACENUM 是一个统一框架，考察空间探索中的动态数值转换与空间推理中的静态布局两种设定。通过 Num2Space 和 Space2Num 双向任务，评估视觉语言模型（VLM）在视觉空间结构与语言数值表征之间的映射能力。实验表明，当前 VLM 在两种设定下均接近随机猜测，严重依赖浅层空间线索，无法建立稳定的坐标感知表征。显式推理仅带来边际提升，微调可部分改善空间数值理解。

具身智能多模态论文/研究