AIHOT

全部动态论文 · 2149 条

5月27日周三

5月26日周二

5月27日

08:00

HuggingFace Daily Papers（社区热门论文）

该论文将神经网络训练过程重新解释为对Hamilton-Jacobi初值问题的搜索。每次梯度下降都为粘性Hamilton-Jacobi方程选择初始数据，使得其Hopf-Cole传播器最佳拟合观测数据。此对应关系在log-sum-exp层中是精确的，对残差网络、Transformer及各类循环架构（RNN、LSTM、SSM）等更广泛的网络结构则是结构性的。一个变形参数ε统一了神经网络、热带代数、粘性偏微分方程与凸优化四个视角。定量结论包括：泛化率下界、由ε控制的对抗鲁棒性、将反向传播解释为残差网络Hamilton系统的共态方程，以及具有闭式解O(N)的影响函数。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

A Matter of TASTE：提升AI智能体评测基准的覆盖率与难度

针对现有智能体评测基准（如τ^2-Bench）因难度饱和而难以评估能力上限的问题，研究提出TASTE方法。该方法通过反转传统任务构建流程，利用基于LLM判断有效性信号训练的自适应对比n-gram模型生成有效工具序列，经聚类筛选与迭代难度演化，自动构建出工具覆盖更广、难度更高的τ^c-Bench基准。对11组智能体/大语言模型对的评估显示，多个在τ^2-Bench上接近饱和的模型在τ^c-Bench上性能大幅下降，且生成任务要求的唯一工具组合数量显著增加，表明现有基准高分常反映测试集饱和而非模型稳健能力。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

哪种预训练范式更能服务于空间智能？对视觉语言模型和视频生成模型的实证比较

本研究系统比较了视觉语言模型与视频生成模型两种预训练范式在空间智能方面的表现。通过冻结特征探测方法，在语义标注、实例分组和三维几何预测三个关键维度上进行评估。结果显示两者具有明确的互补性：视觉语言模型在语义与实例任务上更强，而视频生成模型则在密集几何与相机运动信号上表现更优。研究进一步发现，简单地融合二者特征即可获得在几何与语义任务上均表现出色的表示，为构建更强的空间智能骨干模型指明了有前景的方向。

具身智能多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

BiDPO：基于区域感知双模态直接偏好优化的组合式文本到图像生成

BiDPO是一种旨在增强文本到图像模型组合式生成能力的框架，用于更准确地反映包含属性绑定、对象关系和计数的复杂提示。该框架通过精心设计的流程构建了大规模偏好数据集BiComp，并扩展Diffusion DPO技术，联合优化图像与文本偏好。此外，采用区域级指导方法以聚焦于与组合概念相关的区域。实验结果表明，BiDPO在多个基准测试上显著提升了组合保真度，并持续优于现有方法。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

行为规格：作为AI个性化的解释层

AI智能体需与用户对齐，提出“代表准确性”衡量个性化理解保真度。通过“行为规格”将用户数据压缩为解释模式，在14个公共领域自传体语料库上显著提升代表准确性，上下文成本降低约25倍。该方法在基准测试中优于Mem0、Letta、Supermemory、Zep四种商业记忆系统。对需要解释的问题提升最大，但对需要回忆的问题可能干扰。代表准确性区别于回忆能力，使AI对齐可测试。

安全/对齐数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AlphaTransit：基于搜索学习的城市尺度公交线路设计框架

AlphaTransit 是一个用于城市公交网络设计的搜索规划框架，旨在解决线路设计中因延迟反馈导致的路径交互欺骗性问题。该框架结合了蒙特卡洛树搜索（MCTS）与神经策略-价值网络：网络负责提出线路延伸方案并评估设计质量，搜索过程则利用这些预测进行决策，从而在构建线路时实现前瞻性。在 Bloomington TRNDP 基准测试中，AlphaTransit 在混合和全需求设置下分别达到了 54.6% 和 82.1% 的服务率。与不使用搜索的强化学习相比，服务率分别提升 9.9% 和 11.4%；与没有学习引导的 MCTS 相比，分别提升 2.5% 和 11.2%。该研究的代码与数据已开源。

搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DEMON：实时可演奏的扩散音乐引擎

DEMON 是一个实时扩散引擎，将扩散去噪过程转化为可实时演奏的乐器。它基于 ACE-Step 1.5 和 StreamDiffusion 的环形缓冲区架构，采用 TensorRT 加速，在单块 RTX 5090 GPU 上可实现每秒 12.3 次解码完成（60秒音乐），在生产环境环深度 4 下达每秒 11.3 次生成。通过四个核心机制——异构去噪调度、共享可变状态、逐帧源混合与窗口化 VAE 解码——实现了参数的低延迟控制与高达 8.0 倍的解码加速。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

当置信度产生误导：面向扩散语言模型的后缀锚定与锚点邻域置信度调节

扩散语言模型通过迭代去噪掩码token序列解码文本，置信度常被用于选择解码位置。然而，高置信度有时会产生误导，例如EOT token可能获得高置信度导致生成不完整。为缓解此问题，插入后缀锚定可鼓励生成完整响应，但会引入锚点邻域的局部过度自信，导致锚点邻近token过早解码。为此，研究提出了后缀锚定置信度调节方法，该方法插入短后缀锚点以促生成完整响应，并根据解码进度调节锚点附近置信度。在纯文本推理、视觉-语言推理和代码生成基准测试中，该方法持续提升了基于置信度的完全非自回归解码性能，优于显式EOT抑制，并保留了完全非自回归生成的并行优势。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

多场景长语音生成综合评测基准

SwanBench-Speech是一个针对长语音生成的综合评测基准，涵盖长语音生成和对话生成，覆盖声学、语义和表现力挑战。该基准包含1,101个样本，横跨17种常见语音场景，并从上述三个维度定义了包含7个指标的自动化评测方案。实验揭示，当前模型在高表达性场景下表现依然吃力，且在一致性与层次感上与真实录音存在明显差距。

论文/研究评测/基准语音

08:00

HuggingFace Daily Papers（社区热门论文）

基于子频率流形遍历的频率引导动作扩散

机器人行为克隆中，人类演示数据固有的高频噪声（如抖动和停顿）会被基于扩散模型的策略继承并放大。为此，研究提出了频率引导算子（FGO）。该算子在扩散策略的生成过程中，引导噪声样本依次通过频带逐步扩展的中间子频率流形，从而实现频域上的隐式操控与平滑动作生成。在5个基准的15项机器人操作任务上验证，该方法显著提升了动作平滑度和时间一致性。

arXiv具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

FRAPPE：全输入、残差输出自编码器与投影追踪编码器

针对现有媒体压缩标准在率失真复杂度权衡上的瓶颈，研究者提出了一种名为FRAPPE的新型自编码框架。该框架利用投影追踪编码器从全输入预测残差输出，实现了零开销的变速率编码。基于此构建的FRAPPE-Image可变速率RGB图像编解码器，在高压缩比（约0.1 bpp）下，其感知质量优于AVIF，且编码速度提升47倍，能够仅依靠CPU实现实时1080p 30fps的编码。相关代码与预训练模型已开源。

论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

PRISM：评估大语言模型同行评审者的多维基准

针对机器学习论文激增给同行评审带来的压力，研究者提出了PRISM基准框架。该框架从分析深度、新颖性评估、缺陷识别与主要问题优先级、多维建设性四个维度评估评审质量，其方法基于论点挖掘、检索增强验证和共识评分。在对ICLR、ICML和NeurIPS评审的测试中，PRISM发现大语言模型在某些单维度上表现可比甚至超越人类（如分析深度相当），但没有一个系统能在所有维度上同时达到人类的均衡表现，且各系统存在不同盲区。结论认为大语言模型评审者最适合作为人类评审的针对性补充，而非独立替代品。

论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

RUBRIC-ARROW：面向非可验证领域LLM后训练的逐点评分标准奖励建模

RUBRIC-ARROW是一个用于解决大语言模型在主观、非可验证领域进行后训练时，评分标准奖励模型所面临的评分僵局问题的交替式奖励建模框架。该框架联合训练一个评分标准生成器和一个基于该标准的评判者，其强化学习阶段仅使用成对偏好数据。核心方法在于采用概率评分规则以减少平局，并结合交替式GRPO方案，利用阶段性偏好奖励训练逐点评分评估器。实验表明，该框架在奖励建模准确性上具备竞争力，并能为下游策略后训练带来一致收益。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Skill0.5：一种面向分布外泛化的联合技能内化与利用智能体强化学习框架

针对大语言模型在技能利用中外部化与内部化的两难困境，本文提出了Skill0.5框架。该框架通过一个动态、难度感知的路由器，将任务分流至不同的掌握层级。对于通用技能，通过特权蒸馏进行内化，为处理困难任务构建认知基础；对于任务特定技能，则在简单任务上通过诊断探测来强制利用，以避免捷径学习。在ALFWorld和WebShop基准测试中，Skill0.5在分布内和分布外场景下均优于现有的基于记忆和基于技能的强化学习基线方法。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Parallax：面向语言建模的参数化局部线性注意力

Parallax是一种可扩展至大语言模型的参数化局部线性注意力机制。它消除了局部线性注意力中的数值求解器，并引入额外的查询投影器来探测KV协方差。该研究提出一种硬件感知算法，其算术强度优于FlashAttention，将注意力转向更计算密集的模式。其原型解码内核在不同批次大小和上下文长度下匹配或超越FlashAttention 2/3。在0.6B和1.7B规模的预训练中，Parallax展现出持续的困惑度改进，且该收益可迁移至下游基准测试。研究还发现Muon优化器能有效释放Parallax的性能潜力。

开源生态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AsyncTool：异步工具调用能力评测基准

当前对大语言模型智能体的评估忽略了工具使用的时序维度，尤其未考虑工具响应延迟的影响，且多局限于单任务场景。为此，研究团队提出了AsyncTool，这是一个评估智能体在具有延迟工具反馈的交互式多任务环境中表现的基准。它同时呈现多个异构任务，模拟真实的响应延迟，并在步骤、子任务和任务三个级别进行评估，引入了效率导向的指标。实验表明，延迟的工具反馈对现有智能体构成重大挑战并导致性能下降，而能更好协调任务切换与状态维护的模型表现更优。

智能体arXivMCP/工具论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SmartDirector：基于关键帧条件与叙事节奏控制的电影级视频生成

现有视频生成方法多依赖文本或首尾帧等稀疏条件，难以精确控制叙事结构与节奏。为此，本文提出SmartDirector框架，通过引入多个关键帧来增强视频生成的叙事能力，支持单镜头生成、多镜头合成及视频扩展。该框架分为两阶段：Director-Gen根据关键帧生成低分辨率视频；Director-SR利用高分辨率关键帧作为语义锚点进行超分优化，以恢复细节。为支持训练，构建了从电影中策划单、多镜头序列的数据管道。实验表明，该方法显著优于现有先进方案。

arXiv多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OR-Space：面向工业优化智能体的全生命周期工作区基准测试

OR-Space 是一个为工业优化智能体设计的全生命周期工作区基准测试，旨在评估其在持久化多制品工作区和多阶段任务下的可靠优化能力。基准测试定义了三种任务模式：从异构资产构建求解模型（Build）、根据需求修改现有模型（Revise）、以及基于工作区证据回答关于方案的问题（Explain）。它通过结合持久化工作区和面向生命周期的任务，评估智能体是否能在超越端到端文本生成之外执行可靠的优化工作。

智能体数据/训练论文/研究

07:21

karminski-牙医@karminski3

微软等发布SkillOpt框架，用机器学习流程系统优化AI智能体技能

微软联合上海交通大学等机构发布SkillOpt框架，旨在通过机器学习流程系统性地优化AI智能体的技能。该框架引入独立的优化器模型，通过harness闭环流程对技能进行编辑，且每次编辑必须在验证集上带来分数提升才被接受。框架设置了每步4到8个编辑操作的学习率预算，使核心修改控制在1到4个。实验表明，优化后的技能可使GPT-5.5的对话准确率提升23.5分。

智能体arXivMicrosoft数据/训练

02:02

Hacker News 热门（buzzing.cc 中文翻译）

语言模型也需要休息

一项新研究提出“语言模型也需要休息”的观点。该论文于2026年5月26日在arXiv发布（编号2605.26099），并在Hacker News上获得102点热度。研究可能探讨了大语言模型在持续运行后需要某种形式的“睡眠”或暂停机制，以恢复性能或优化状态。

arXiv论文/研究

5月26日

23:59

Ant Ling@AntLingAGI

团队发布了KPop技术，用于稳定大规模MoE模型的强化学习训练。它取代了此前IcePop方法的固定比例掩码，改用自适应二元KL散度区域来匹配每个token的固有噪声，从而实现更鲁棒的参数更新，支持长期、智能体化的强化学习训练。具体应用中，万亿参数的Ring-2.6-1T模型在仅使用纯强化学习训练（未修改基础设施或路由重放）的情况下，于SWE-bench Verified评测中得分超过76。KPop仅通过一个关键参数即可实现该优化。

Jia Guo: Curious about the secret sauce behind our trillion-scale agentic foundation model? Here it comes!🥳 Last year, we releas...

智能体数据/训练论文/研究

23:29

Ant Ling@AntLingAGI

精选68

团队推出 KPop，用于稳定大规模 MoE 模型的智能体强化学习训练。它用基于二元 KL 散度的自适应掩码机制，替代了此前 IcePop 方法中的固定比例掩码，能根据训练过程中的训练-推理不匹配程度动态调整。这一改进使得 Ring-2.6-1T 模型在无需修改基础设施或路由重放的情况下，仅通过纯 RL 训练，在 SWE-bench Verified 上取得了超过 76 分的成绩。

Jia Guo: Curious about the secret sauce behind our trillion-scale agentic foundation model? Here it comes!🥳 Last year, we releas...

智能体数据/训练编码论文/研究

推荐理由：蚂蚁团队把 IcePop 升级成 KPop，从固定掩码变成自适应 KL 区域，思路很巧。Ring-2.6-1T 纯 RL 直接冲到 SWE-bench 76+，做 agentic RL 训练的同学值得翻一下博客。

23:03

Rohan Paul@rohanpaul_ai

论文提出Self-play SWE-RL方法，通过自我博弈提升软件智能体能力

Meta、CMU等机构在论文中提出了Self-play SWE-RL方法。该方法让编程智能体通过“自我博弈”生成训练数据，而非仅依赖人工标注的问题。具体而言，一个模型探索代码库、注入bug并留下测试用例来描述问题；另一个模型则学习根据测试修复系统。其中，测试成为了描述问题的核心语言。该方法在SWE-bench Verified上提升了+10.4分，在SWE-Bench Pro上提升了+7.8分。值得注意的是，评估使用了该系统未训练过的自然语言问题，表明其可能学到了更深层的软件理解能力。

智能体arXivMeta编码

22:28

Ant Ling@AntLingAGI

SwiGLU在现代大语言模型中无处不在--但对于大输入，它的行为类似于x2。这种二次增长会膨胀激活值，放大异常值，并使深层网络或低精度（FP8/FP4）训练容易出现损失尖峰。我们提出了PowLU，一种为稳定大规模预训练而设计的即插即用激活函数。🧵

推理数据/训练论文/研究

21:19

HuggingFace Daily Papers（社区热门论文）

CUA-Gym：为计算机使用智能体扩展可验证的训练环境与任务

针对计算机使用智能体（CUA）训练中可验证数据稀缺的问题，本文提出了CUA-Gym这一可扩展流水线，能够协同生成任务指令、环境状态与奖励函数。该流水线包含生成器智能体与判别器智能体，并通过协调器驱动执行与过滤。基于此流程，我们构建了包含32,112个验证元组、涵盖110个环境的数据集。使用GSPO算法在CUA-Gym上训练的A3B和A17B模型，在OSWorld-Verified基准上分别达到62.1%和72.6%的分数，优于同等规模的先前开源模型。模型还在未见过的WebArena基准上取得提升，展现了跨环境迁移能力。项目将开源完整的合成流程、数据集、环境及模型。

智能体arXiv开源生态数据/训练

20:19

HuggingFace Daily Papers（社区热门论文）

语言模型需要睡眠

针对Transformer架构在处理长上下文时注意力机制效率低的问题，研究提出一种“睡眠式巩固机制”。该方法让模型定期将近期上下文转换为持久化的快速权重，并清空键值缓存。期间，模型通过N次离线循环处理累积上下文，并通过局部规则更新其状态空间模型块中的快速权重。这使得额外计算被转移至“睡眠”阶段，从而保持了推理的实时性。该方法在细胞自动机、多跳图检索等合成任务及一项数学推理任务（常规Transformer及SSM-Attention混合模型均失败）上进行了测试。结果表明，增加睡眠持续期N能提升性能，在需要更深层次推理的任务上增益最大。

推理论文/研究

18:28

X.PIN@thexpin

华为AI芯片：绕过制程限制的扩展路径

华为将不依赖更小制程节点，通过封装与架构创新来扩展其昇腾AI芯片。根据何庭波的论文，华为计划在2025年至2030年间，通过Chiplets、2.5D扇出封装和3D堆叠技术，推进其昇腾SuperPoD系列，具体产品包括2025年的910C、2026年的950及后续的990。约2030年，Ascend 990将引入LogicFolding技术，目标是到2035年实现100倍的集成度跃升。

端侧论文/研究部署/工程

18:13

IT之家（RSS）

中日韩新马泰 6 国科学家联合发布亚洲首个合成细胞十年技术路线图

中国科学院深圳先进技术研究院联合亚洲六国100多个实验室，在《自然·生物技术》发布了亚洲首个合成细胞十年技术路线图。该路线图聚焦于“人工合成单细胞生命”，提出以AI驱动的生物铸造厂为核心、“中央工厂+分布式工作站”的跨国协作模式，并明确了两阶段目标：第一阶段构建“原始细胞”，第二阶段实现具备自我复制能力的“自主细胞”。

论文/研究

16:19

HuggingFace Daily Papers（社区热门论文）

预见与学习：释放主动智能体的空闲时间计算能力

当前AI智能体是反应式的，仅在用户提问后响应，浪费了交互间的空闲时间。为解决此问题，本文提出了ProAct主动式智能体架构，它能利用空闲时间，通过分析对话历史与持久记忆预测用户需求，并迭代地获取信息、准备证据，从而在用户提问前填补知识缺口。为评估该能力，研究者发布了包含200个场景的ProActEval基准。实验表明，相比反应式基线，ProAct将任务完成所需轮次减少14.8%，用户操作负担降低11.7%，并将模型幻觉率大幅降低28.1%，同时在MemBench上取得了最先进的反思准确率。

智能体arXiv推理论文/研究

15:00

Rohan Paul@rohanpaul_ai

灵巧机械手的一个工程挑战在于平衡强度与速度。这里 SharpaWave 正以超过每秒 4 次的频率进行快速手部循环。动态触觉阵列采用视觉-触觉传感：指尖集成了摄像头和 1000 多个触觉像素。

具身智能多模态论文/研究

14:18

HuggingFace Daily Papers（社区热门论文）

精选75

通过奖励倾斜分布匹配强化少步生成器

本文提出奖励倾斜分布匹配蒸馏（RTDMD），这是一个将分布匹配蒸馏与奖励引导强化学习统一应用于少步流生成器的两阶段框架。该方法通过最小化到奖励倾斜教师分布的KL散度，自然分解为分布匹配项与奖励最大化项。第一阶段引入环境一致分布匹配蒸馏（AC-DMD），在子区间进行分布匹配，并通过一致性正则化辅助分数模型追踪生成器分布。第二阶段联合优化两项，并推导混合策略梯度及步子集GRPO（SubGRPO）以降低方差。在SD3、SD3.5和FLUX.2上的实验表明，RTDMD仅用4步推理即可在偏好、美学和组合指标上达到新的 state-of-the-art。

arXiv图像生成论文/研究

推荐理由：这篇直接把分布匹配蒸馏和奖励建模拧在一起，在 SD3/3.5/FLUX.2 上用 4 步推理就压了之前所有文生图对齐方法，做图像生成训练和偏好对齐的该看。

14:18

HuggingFace Daily Papers（社区热门论文）

基于实例分割的像素级路面病害评估

本研究提出一种基于 Mask R-CNN 实例分割的视觉系统，用于精细化的路面病害分析，并在车辆采集的 UWGB-StreetCrack 数据集上进行评估。研究比较了五种基于 Detectron2 的骨干网络变体。其中，采用 ResNet-101 FPN 骨干的最佳 Mask R-CNN 模型，在项目特定的边界框匹配协议下，达到了 84.23% 的精确率、90.04% 的召回率和 87.04% 的 F1 分数。该模型预测的总体裂纹面积分数为 2.164%，与标注的真实值 2.170% 高度吻合。作为对比，一个基于 CSPDarknet53 的 YOLO 检测器性能显著较低。结果表明，实例分割是处理实地路面图像和估算裂纹面积的实用方向。

论文/研究

14:18

HuggingFace Daily Papers（社区热门论文）

InstructSAM：基于任意指令的多实例分割框架

本文提出InstructSAM，一个用于在任意指令下执行多实例分割的统一框架。该方法将问题形式化为集合结构的查询预测任务，通过在视觉语言模型中注入可学习实例查询，并设计混合注意力机制与SAM3交互，实现了在单次前向传播中完成多实例分割。论文同时构建了大规模指令实例分割数据集与基准Inst2Seg。实验表明，仅2B规模的InstructSAM在相关基准上取得了优异性能，优于此前的端到端方法和SAM3的智能体流程。

多模态论文/研究

12:18

HuggingFace Daily Papers（社区热门论文）

通道级向量量化

本文提出通道级向量量化，这是一种新的图像token化范式，用通道级token取代了传统的基于块的token。该方法量化特征图的每个通道，将图像表示为离散的视觉细节层次。基于此，作者提出了采用“下一个通道预测”机制的通道级自回归模型。该模型顺序预测通道，先勾勒全局结构再细化细节。实验表明，CVQ在16K+大小的码本上实现了100%利用率，显著提升了重建质量；CAR模型在文本到图像生成任务中取得了86.7的DPG分数和0.79的GenEval分数。

图像生成论文/研究

12:18

HuggingFace Daily Papers（社区热门论文）

On-Policy对抗流蒸馏用于自回归视频生成

提出Adversarial Flow Distillation（AFD）框架，用于将黑盒视频教师模型知识蒸馏至因果自回归学生模型。该方法在相同提示词下并行生成教师与学生输出，训练Bradley-Terry判别器以估计干净样本上的师生差异，并将此在策略优势转化为对学生自身噪声状态的前向过程流匹配更新，无需教师分数、潜变量、去噪轨迹或步长对齐。实验表明，AFD在两个自回归学生系列上持续提升运动与物理敏感的生成质量，同时保持整体效果，为蒸馏专有或异构视频生成器提供了实用路径。

数据/训练论文/研究

12:18

HuggingFace Daily Papers（社区热门论文）

Helix4D：复杂动态网格生成

Helix4D是一个动态网格生成框架，旨在解决现有方法在处理复杂拓扑、透明材质和薄结构等场景时的不足。该框架继承了Trellis2的强大表示能力，将其从图像生成3D扩展到基于视频的4D生成。为兼顾信息共享与预训练质量，它采用了滑动窗口跨帧注意力并锚定第一帧。同时，其设计的4D时序编码复用了低频空间RoPE频段来表示时间维度，无需额外参数。实验在ActionBench和自建复杂数据集上验证了该方法生成高质量动态网格的有效性。

多模态视频论文/研究

12:18

HuggingFace Daily Papers（社区热门论文）

ControlLight：面向可控、一致且可泛化的低光增强

现有基于深度学习的低光增强方法受限于有限数据集和单一增强目标，泛化能力和可控性不足。本文提出ControlLight框架，通过构建带有连续光照强度监督的大规模真实退化图像数据集，并引入感知对齐加权流匹配损失以确保不同控制强度下输出结构的一致性，实现了对增强强度的灵活控制。实验表明，该方法在低光增强任务上达到了最先进的性能，同时具备强连续可控性和对真实场景的良好泛化能力。

arXiv论文/研究

12:11

IT之家（RSS）

小米汽车发布 Xiaomi Auto World Model 世界模型全新框架：重建 + 生成一体化，主流基准测试全面 SOTA

小米汽车发布 Xiaomi Auto World Model 框架，首次将三维重建与视频生成深度耦合，打破行业独立拆分的技术路线。该框架在 Waymo、nuScenes 等主流基准测试中全面取得 SOTA，并已在合成数据生成（已交付超10万 clips 数据）、仿真测试、辅助驾驶学堂三大场景落地。

多模态数据/训练端侧视频

11:18

HuggingFace Daily Papers（社区热门论文）

迈向原生多模态建模：一份路线图

本文提出了从多模态无关推理迈向世界建模的路径，聚焦从后期融合范式转向原生多模态建模（NMM）。研究正式定义了架构的原生性，将中期融合与早期融合从非原生范式中区分，并依据输入输出对偶性将现有原生模型分为三类：用于跨模态理解的“多模态输入至文本输出”、面向特定场景生成的“多模态输入至目标输出”，以及统一建模的“多模态输入至多模态输出”。文章系统性地探讨了向最终原生多模态建模框架的工业级转型路径，涵盖架构协调、大规模数据构建、全栈训练方案、推理部署及综合评估。

多模态论文/研究

11:18

HuggingFace Daily Papers（社区热门论文）

SemBridge：通过多语义桥实现稀疏编码器中的语言迁移

提出SemBridge，一种为稀疏编码器跨语言适配设计的嵌入初始化方法。该方法利用多语义桥模型建立源语言与目标语言词汇间的语义对齐，通过选择少量语义相关的源语言词来初始化目标语言词，过滤语义噪声，从而加速微调收敛并提升训练效率。在五种语言和四种稀疏架构上的大量实验表明，SemBridge在零样本检索中性能优越，并在微调后能持续提升检索效果，为在多语言环境中部署高性能稀疏检索系统提供了实用方案。

论文/研究