AIHOT

全部动态论文 · 2151 条

5月20日周三

5月19日周二

5月20日

04:04

HuggingFace Daily Papers（社区热门论文）

针对长上下文大语言模型服务中INT2 KV缓存量化精度下降的问题，本文提出OSCAR方法。其核心是通过离线估计注意力实际使用的协方差结构，推导出固定的旋转矩阵和裁剪阈值，使KV缓存量化与下游注意力计算对齐。实验表明，OSCAR显著提升了量化精度：在Qwen3-4B和Qwen3-8B上，其与BF16的差距分别缩小至3.78和1.42个百分点，而朴素旋转方法性能几乎崩溃。该方法在更大模型及128K长上下文测试中表现稳健。在系统层面，OSCAR将KV缓存内存占用降低约8倍，并将大批次吞吐量提升最高达7倍。

推理论文/研究部署/工程

03:03

HuggingFace Daily Papers（社区热门论文）

DexHoldem：基于灵巧操作系统的德州扑克游戏

研究团队推出了DexHoldem，一个基于ShadowHand机械手和德州扑克的现实世界系统级基准测试平台。平台包含1470个操作演示、物理策略基准和智能体感知基准。测试表明，π0.5模型在操作执行上表现最优，而Opus 4.7与GPT 5.5在感知任务上各有所长，揭示了视觉能力与状态恢复能力之间的差距。闭环案例研究证明感知与策略错误会在实际部署中累积。该平台统一评估了灵巧操作、感知与具身决策能力。

具身智能论文/研究

03:03

HuggingFace Daily Papers（社区热门论文）

对称兼容优化器设计原则

深度学习中，神经网络结构具有对称性，而主流优化器按坐标独立更新，两者存在不匹配。本研究提出对称兼容原则，要求优化器的梯度更新规则在相应参数块的对称群作用下保持等变性。基于此，研究为通用矩阵层提供了统一视角，并推导了适用于嵌入层、LM头、SwiGLU MLP投影矩阵及MoE路由器等不同对称性参数块的专用优化器，形成端到端的逐层优化器栈。实验表明，在稠密与稀疏MoE模型的预训练中，对称兼容更新相比AdamW一致提升了验证损失，并增强了训练稳定性。

arXiv数据/训练论文/研究

02:55

Ars Technica：AI（RSS）

两个基于AI的科学助手在药物重定位任务中取得成功

两个基于AI的科学助手在药物重定位研究中展现出实际应用潜力。它们能够自主生成科学假设，其中一个工具还能进一步分析实验数据。这类技术有望加速药物研发流程，通过AI辅助发现现有药物的新用途，提升研究效率并降低开发成本。目前该任务已成功验证了AI在复杂生物医学问题中的辅助决策能力。

其他论文/研究

01:48

Google DeepMind：Blog（RSS）

精选68

加速遗传线索以逆转细胞衰老

生物学家利用Co-Scientist这一工具，成功发现能够使人类细胞年轻化的新型因子。该研究通过人工智能加速了遗传线索的探索过程，为逆转细胞衰老领域提供了新的关键因素。这一发现标志着利用技术手段干预生物老化进程取得了实质性进展。

DeepMindGoogle其他

推荐理由：DeepMind 的 Co-Scientist 找到了逆轉細胞老化的全新基因因子，這是 AI 真正在幫生物學家做發現的時刻，科學研究被加速了。

5月19日

23:58

AK@_akhaliq

英伟达推出 LongLive-2.0 一种用于长视频生成的 NVFP4 并行基础设施

论文/研究

23:58

elvis@omarsar0

代码或成AI代理框架的关键路径

推文聚焦于一篇探讨AI代理（Agent）开发框架的百页报告，其核心主张是“代码作为代理框架”具有重要潜力。报告总结了相关方法与应用，并论证该路径可能推动更广泛的科学框架工程。论文进一步提出，未来的智能系统必须具备四项关键特性：可执行、可检查、有状态以及受控。报告旨在为构建有效AI代理提供参考，并推荐相关学习资源。

智能体arXivMCP/工具论文/研究

21:01

HuggingFace Daily Papers（社区热门论文）

评估交互式AI代理的认知年龄对齐

尽管具身化AI及多模态大语言模型在推理任务中表现出潜力，但与人类智能仍存显著差距。现有先进代理常无法完成儿童能轻松解决的基础任务。受韦氏儿童智力量表启发，本研究推出ChildAgentEval——首个基于心理测量学的交互式基准，用于评估多模态大语言模型代理的认知年龄对齐程度。该基准通过系统比较各类交互式代理的推理能力与人类特定年龄发展阶段，揭示了当前AI系统在模拟年龄特异性认知行为上的能力边界。

智能体推理论文/研究评测/基准

20:01

HuggingFace Daily Papers（社区热门论文）

MementoGUI：面向长时程GUI代理的学习型多模态记忆控制

针对现有GUI代理在长期任务中因记忆机制不足而表现脆弱的问题，本文提出了MementoGUI框架。它是一个插件式智能体记忆框架，为基于MLLM的GUI代理配备了学习型控制器MementoCore，无需微调主干模型即可在线进行记忆选择、压缩与检索。该框架将长期交互建模为在线记忆控制问题，通过工作记忆保存文本摘要与视觉证据，并通过情节记忆检索可复用的历史轨迹。MementoCore将记忆控制模块化为四个专用算子，并开发了相应的数据构建流程与评估基准。实验表明，该框架能稳定提升代理在多个基准上的性能。

智能体多模态论文/研究

18:28

Rohan Paul@rohanpaul_ai

人形机器人的核心价值不在于外形相似，而在于具备足够的物理能力（如力量、平衡和全身协调）来处理复杂任务。实现这一目标的关键是"全身控制"，即机器人能调动全身与环境互动并适应负载变化。波士顿动力的Atlas机器人通过本体感知成功处理超过100磅的动态负载，展示了这种能力。为实现高性能操作，团队已放弃传统MPC控制范式，全面转向强化学习（RL）。这种全身控制能力是物理智能的基础，也是人形机器人价值主张的核心。

Alberto Rodriguez: You can't lift a fridge with just your hands. Your whole body needs to conform to its shape, and bear the load between y...

具身智能论文/研究

17:00

HuggingFace Daily Papers（社区热门论文）

SafeDiffusion-R1：面向安全扩散后训练的在线奖励引导

本研究针对扩散模型去除预训练阶段不安全内容时面临的监督数据昂贵及离线方法易导致灾难性遗忘等问题，提出了SafeDiffusion-R1在线强化学习框架。该框架采用组相对策略优化算法，在正负文本提示上进行后训练，无需依赖配对监督数据。其核心在于引入了一种奖励引导机制，直接利用CLIP嵌入特性，在嵌入空间中引导文本表征向安全方向优化，从而无需微调专门的安全奖励模型。实验表明，该方法将不安全内容生成比例从48.9%降至18.07%，裸体检测数大幅减少，同时提升了组合生成质量，并可泛化至多种危害类别，达到当前最优水平。

arXivGitHub图像生成安全/对齐

16:51

IT之家（RSS）

新研究证实：睡眠过少或过多都会加速全身多器官衰老

一项发表于《自然》期刊的研究利用英国生物样本库约50万人的数据，通过机器学习构建了17大器官系统的衰老时钟。研究发现，睡眠时间与器官衰老速度呈U型关联：每日睡眠不足6小时或超过8小时，会加速大脑、心脏、肺部等多个器官的衰老；维持在6.4至7.8小时则最为健康。研究还证实，睡眠不足会直接诱发老年抑郁症，而睡眠过长则通过影响大脑和脂肪组织衰老的生物通路间接引发抑郁症，两者机制不同。

其他论文/研究

16:00

Berryxia.AI@berryxia

腾讯开源Chronicles-OCR基准：评估视觉语言模型的古汉字感知能力

腾讯开源了Chronicles-OCR基准，旨在专门评估视觉语言模型对古汉字的感知能力。该数据集横跨3000年演变，涵盖从甲骨文到草书的7种历史字体，包含2800张来自多样材质的真实图像。研究设置了字符定位、细粒度识别、古文字解析和字体分类四项核心任务。测试结果揭示，面对历史字体带来的视觉分布漂移，大部分模型的感知能力会急剧下降。该研究为古文字研究提供了重要的AI评测工具。

Tencent Hy: 🎉 🎉 🎉 We're open-sourcing Chronicles-OCR, a visual perception benchmark evaluating VLLMs on ancient Chinese character...

多模态论文/研究

16:00

HuggingFace Daily Papers（社区热门论文）

监控内部独白：探测轨迹揭示推理动态

本研究针对大型推理模型（LRM）思维链监控不可靠的难题，提出“探测轨迹”方法。该方法通过在生成每个令牌时评估探测器，捕捉模型隐藏表征的演变轨迹。研究发现，结合完整轨迹的预测比基于单一点的静态预测更能准确区分模型未来行为。通过提取波动性、趋势等信号处理特征，模型状态区分度得到显著提升。同时，基于模板的训练数据可替代昂贵的动态生成数据，且采用最大池化操作能实现高达95%的AUROC性能并形成稳定轨迹。在安全与数学等四个数据集上的验证表明，该轨迹特征能编码任务动态，为监控LRM行为提供了有效补充框架。

安全/对齐推理论文/研究

15:51

IT之家（RSS）

比利时 Imec 公布 3D CCD 内存架构，结合 DRAM 速度与 NAND 密度提升 AI 推理性能

比利时研究机构Imec于5月12日发布了全球首个专为AI设计的3D CCD内存架构。该方案通过垂直堆叠内存芯片，旨在结合DRAM的高速度与NAND闪存的高存储密度，以解决AI推理中的“内存墙”瓶颈。其核心技术采用IGZO材料，在实验室条件下实现了超过4GHz的电荷传输速度。目前该技术仍处于概念验证阶段，主要面临散热和层数扩展等挑战，离实际量产应用尚有距离。

推理论文/研究

15:00

HuggingFace Daily Papers（社区热门论文）

SkillsVote：面向智能体技能收集、推荐与演进的全周期治理框架

针对大语言模型智能体在生成可复用经验轨迹时面临的噪声与治理难题，本文提出了SkillsVote框架。该框架将智能体技能定义为可执行脚本与流程指导的结合，并对百万规模的开源技能库进行环境、质量与可验证性评估。在技能执行前后，框架分别通过结构化检索与轨迹分解归因，仅将成功且可复用的发现纳入基于证据的更新。实验表明，该框架能在不更新模型本身的情况下，显著提升固定模型智能体的性能。

智能体论文/研究

13:56

HuggingFace Daily Papers（社区热门论文）

Code-as-Room：通过智能体代码合成从俯视图生成3D房间

本文提出Code-as-Room，一个基于多模态大语言模型的智能体框架，旨在从俯视图参考图像生成精确且稳定的3D室内场景。该框架将房间表示为可执行的Blender代码，通过多阶段流程解析图像中的空间关系，并合成为几何、材质与光照代码。为克服现有多智能体框架的上下文遗忘问题，引入了跨阶段记忆模块。此外，研究还建立了专用的代码式3D房间合成基准测试，实验结果证明了所提执行框架的有效性。

具身智能多模态论文/研究

13:56

HuggingFace Daily Papers（社区热门论文）

基于智能体规划的物理一致性视频生成

本研究针对视频生成模型频繁违反物理常识的问题展开。分析发现，文本提示作为物理世界的有损压缩，是导致生成结果缺乏物理一致性的根本瓶颈。为此，我们提出NEWTON系统，其核心是将视频生成从独立的系统输出，降级为智能体工具箱中的一个动作。系统通过一个学习型规划器，协调关键帧生成、科学计算等物理感知工具来构建丰富的条件信息，并借助验证器实现闭环迭代优化。在无需修改底层生成模型的前提下，实验表明该系统在VideoPhy-2基准上，将LTX-Video和Veo-3.1模型的联合准确率分别提升了8.3和6.7个百分点，显著增强了视频的物理一致性。

智能体视频论文/研究

12:55

HuggingFace Daily Papers（社区热门论文）

代码作为智能体的运行基础

近期研究表明，在新兴智能体系统中，代码的角色正从目标输出转变为智能体的运行基础。本文提出“代码作为智能体的运行基础”这一统一视角，系统梳理了支撑智能体系统的三个核心层次：连接智能体与外部世界的操作接口层；支撑长期执行的规划、记忆与反馈控制机制层；以及支持多智能体协作的共享代码层。该视角涵盖了编程助手、操作系统自动化等多个应用领域，并指出了评估验证、状态一致性等工程挑战，为构建可执行、可验证、有状态的智能体系统提供了清晰的路线图。

智能体MCP/工具论文/研究

12:55

HuggingFace Daily Papers（社区热门论文）

可行动的世界表征

研究者提出了WorldString，一种神经架构，能够直接从点云或RGB-D视频流中学习，从而建模真实世界物体的状态流形。该架构旨在作为物理世界模型的基础构建模块，充当通用的数字孪生体。其关键特点是完全可微分，这使其能够与策略学习和神经动力学模型进行无缝集成。WorldString为当前主要通过视频生成或动态场景重建来处理物体行动状态的方法，提供了一种统一且基于原理的建模新思路。

arXiv具身智能论文/研究

12:55

HuggingFace Daily Papers（社区热门论文）

AtlasVA：面向无教师VLM智能体的自进化视觉技能记忆

本文针对现有视觉语言模型智能体依赖文本记忆与外部教师模型的局限，提出了AtlasVA框架。该框架无需教师监督，将记忆组织为三层互补的视觉结构：空间热力图、视觉范例和符号文本技能。系统能从轨迹统计中自进化出危险图谱与亲和图谱，并将其转化为基于势函数的内在奖励，以优化强化学习。在索玛方块、冰湖、3D导航及机械臂操作等测试中，AtlasVA在空间密集型任务上显著优于文本记忆基线与同类模型。

智能体具身智能论文/研究

12:55

HuggingFace Daily Papers（社区热门论文）

Incantation：自然语言作为多实体视频世界模型的动作接口

Incantation是首个交互式视频世界模型，采用自然语言作为动作接口，实现每潜变量帧（0.25秒）的精细控制。它支持同时多实体操控与概念级跨实体迁移，突破传统固定渲染管线的限制。模型结合预训练双向视频骨干网络与帧局部文本交叉注意力机制，并通过ODE初始化的Self-Forcing蒸馏和RoPE解耦滑动KV缓存实现实时长视频生成。在跨实体迁移任务中，准确率达89%，大幅超越Action-Index基线的43%；词表外提示准确率为9

多模态视频论文/研究

12:55

HuggingFace Daily Papers（社区热门论文）

精选73

StableVLA：无需额外数据的鲁棒视觉-语言-动作模型

视觉-语言-动作模型在面对训练数据未涵盖的视觉干扰时性能显著下降。为此，本文提出一种基于信息论的轻量级适配器模块（IB-Adapter），能从视觉输入中选择性过滤噪声，且无需额外数据或增强策略。该适配器以少于1000万的额外参数，平均提升性能30%。实验表明，即使骨干网络参数仅为0.5B（较现有7B模型小14倍），StableVLA在合成与真实视觉损坏场景下的长时程任务中，仍能达到与大模型相当的鲁棒性，并超越OpenPi基线。

具身智能多模态论文/研究

推荐理由：VLA 模型在真实世界一遇到光照遮挡就崩，这篇用信息瓶颈原理做的轻量适配器，不加数据就拉回 30% 性能，还用 0.5B 小模型打平 7B，做机器人落地的团队值得看看。

11:51

HuggingFace Daily Papers（社区热门论文）

AI辅助自主研究：路线图与用户指南

研究指出，AI辅助科研已能以极低成本生成论文，并可自主执行多项研究任务。然而，这也暴露了严重的诚信和判断力问题，如伪造结果、忽略错误及难以评估创新性。AI在结构化、基于检索的任务中表现突出，但在提出原创思想、执行关键实验和科学判断方面仍显脆弱。研究表明，高度自动化可能掩盖问题，因此人机协同成为最可信的部署模式。研究提供了涵盖创作、写作、验证与传播全周期的分类体系、工具指南与设计原则。

智能体arXiv论文/研究

11:51

HuggingFace Daily Papers（社区热门论文）

LongLive-2.0：用于长视频生成的NVFP4并行基础设施

LongLive-2.0 是首个支持训练与推理一体化的NVFP4并行基础设施，旨在解决长视频生成中的速度与内存瓶颈。训练阶段提出序列并行自回归方法，结合NVFP4精度以降低显存成本并加速计算，且视频越长效率提升越显著。该系统直接将扩散模型训练为长视频多镜头自回归模型，并支持通过LoRA权重转换为实时生成模式。推理阶段在Blackwell GPU上启用W4A4量化与异步流式解码，在其他架构上则通过序列并行匹配其速度。实验表明训练最高加速2.15倍，推理加速1.84倍，其5B模型可达45.7 FPS并在基准测试中表现优异。

视频论文/研究部署/工程

11:51

HuggingFace Daily Papers（社区热门论文）

精选71

训练后 MoE 可通过自蒸馏跳过一半专家

本文提出零专家自蒸馏适应框架，将训练完成的静态混合专家模型转换为高效动态模型。该方法通过在每个混合专家层注入零输出专家，并利用原始模型作为冻结教师进行两阶段自蒸馏适应，以实现稳定的架构转换。在两个大型开源模型及11个基准测试上的实验表明，该方法能消除超过50%的专家计算量，同时仅带来极小的准确率损失，并显著提升端到端推理速度。

推理论文/研究部署/工程

推荐理由：把训练好的MoE直接改成动态的，推理时跳过一半专家，速度提升20%而精度几乎没掉，做模型部署的值得认真看一下这个一行代码不改的蒸馏方案。

11:51

HuggingFace Daily Papers（社区热门论文）

Lance：基于多任务协同的统一多模态建模

本文介绍了轻量级原生统一模型Lance，支持图像与视频的理解、生成与编辑。该模型摒弃了对模型规模扩张或文本-图像主导设计的依赖，探索通过多任务协同训练实现统一多模态建模的实用范式。其核心在于两个原则：统一上下文建模与解耦能力路径。Lance从头训练，采用共享交织多模态序列的双流专家混合架构，并引入模态感知旋转位置编码以减少异构视觉标记间的干扰，增强跨任务对齐。训练采用分阶段多任务范式，结合能力导向的目标与自适应数据调度。实验表明，Lance在图像与视频生成任务上显著优于现有开源统一模型，同时保持了强大的多模态理解能力。

图像生成多模态视频论文/研究

11:04

Tencent Hy@TencentHunyuan

精选72

开源古代汉字视觉感知评估基准Chronicles-OCR

开源了评估视觉大语言模型（VLLM）对古代汉字视觉感知能力的基准测试Chronicles-OCR。该数据集覆盖了从甲骨文到草书的3000年演变历程，包含7种历史书体与2800张均衡图像。评估涵盖字形定位、细粒度识别、古代文本解析和字体分类四项核心任务，旨在探究视觉分布随时间的变化如何影响模型感知。相关论文与代码已开源。

多模态开源生态论文/研究

推荐理由：腾讯混元开源的视觉感知基准，专攻古汉字识别，覆盖从甲骨文到草书的三千年演变，做 OCR 和视觉模型的可以拿来测测自家模型在历史文本上的感知退化。

10:51

HuggingFace Daily Papers（社区热门论文）

SNLP：通过结构化牛顿校正的层并行推理

研究人员提出结构化牛顿层级并行（SNLP）框架，解决自回归语言模型中Transformer层顺序执行的延迟瓶颈。该方法将层间隐藏状态演进视为非线性方程，采用廉价的结构化牛顿更新并行求解。训练阶段引入SNLP感知正则化，使模型通过少量迭代近似顺序前向传播，提升层并行兼容性并降低标准困惑度4.7%-23.4%。推理时，SNLP结合层融合与分块分解，在0.5B Nanochat模型上实现2.3倍加速，困惑度改善6.1%。研究同时指出预训练模型效果有限且精确收敛会退化为顺序计算。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

HL-OutPaint：高分辨率长时视频的由粗到精视频外绘

HL-OutPaint 是一个用于长序列的高分辨率视频外绘框架。它采用由粗到精的策略，包含两阶段管线：首先通过全局-局部帧交换机制构建低分辨率的全局粗糙指导（GCG），以统一表示视频的长期结构一致性与短期时间动态；随后在该表示的引导下，进行高分辨率的外绘，生成细节丰富且时间一致的内容。实验表明，其在宽空间外推和长视频序列的挑战性场景中优于现有方法。

视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

重新思考记忆方式：超越终身LLM智能体记忆中的原子事实

现有大语言模型智能体的记忆系统多采用提取事实的范式，将对话压缩为原子事实。这会丢失原始细节，限制深度推理，且静态提示词难以适应多变的对话风格。为此，本文提出了TriMem系统，它同时维护三种表示粒度：用于保真存储的原始对话片段、用于高效检索的提取原子事实，以及聚合事实以支持深度推理的合成用户画像。系统进一步利用基于TextGrad的提示词优化技术，通过响应质量反馈迭代优化提示，无需参数更新即可实现持续进化。实验表明，其效果优于强记忆基线。

智能体arXiv推理论文/研究

08:00

Apple Machine Learning Research（RSS）

EpiCache：面向资源受限环境的长程对话场景式KV Cache管理

现有大语言模型虽能处理超长对话，但随对话历史线性增长的KV Cache会导致内存占用迅速超出设备限制。当前KV Cache压缩方法大多在处理完整上下文后才进行缓存淘汰，造成无界峰值内存占用。此外，基于查询的淘汰机制将缓存语义狭窄化至单次查询，导致失效。

论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

ParaVT：通过并行工具调用解决多智能体视频强化学习中的工具先验悖论

现有通过强化学习（RL）训练大语言模型（LLM）调用视频工具（如裁剪）的方法是顺序执行的，易导致错误传播和上下文污染。ParaVT是首个采用多智能体端到端RL训练的并行视频工具调用框架，能在单次调用中分派多个时间窗口裁剪任务。研究发现，预训练模型中存在“工具先验悖论”：既能促进工具探索又会破坏冷启动结构格式的稳定性。为解决此问题，提出了PARA-GRPO方法，通过添加定向格式奖励和随机化每提示的帧预算来稳定训练。该方法在六个长视频理解基准上，相比Qwen3-VL基线平均提升了7.9%，并将训练时的格式合规率从0.13提升至0.64。

智能体视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

从感知到推理：解耦感知与推理以改进视觉-语言模型的后训练

本研究发现，视觉-语言模型在视觉任务上的性能瓶颈主要源于其视觉感知能力的不足，而非推理能力。为此，研究提出将模型能力解耦为视觉感知、视觉推理和文本推理三个独立的训练阶段，并使用专门数据进行分阶段训练。实验证明，视觉感知需要针对性优化，应优先通过分阶段训练加以巩固，且使用强化学习比基于描述的监督微调更有效。该方法在多个模型上实现了持续性能提升，使模型推理准确率提高了1.5%，推理过程缩短了20.8%。在开放权重的视觉-语言模型中，该方法在WeMath和RealWorldQA等基准上取得了领先成绩，相比基础模型分别取得了5.2%和3.7%的性能提升。

arXiv多模态推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

反思Muon在预训练之外：VLA和RLVR中的谱失效与高通补救

该研究指出，Muon优化器通过Newton-Schulz迭代进行统一谱白化，虽在LLM预训练中有效，但在两个新场景存在根本局限：在跨模态视觉-语言-动作训练中，低秩动作梯度会放大噪声尾部方向；在带可验证奖励的强化学习中，低信噪比梯度使得白化过程不稳定。为此，研究提出Pion作为替代方案，采用两阶段提升-抑制机制，形成高通谱效应，将主导奇异值锚定于1而抑制噪声分量，并支持按注意力头独立更新。实验表明，在LIBERO的VLA任务中，Pion在1500步训练后达到100%成功率，优于Muon的97.0%和AdamW的32.2%。在基于通义千问（Qwen3）的RLVR后训练中，Pion在MATH和GSM8K上优于AdamW，而Muon在此场景下会崩溃。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

人脑中的柏拉图表征：通用几何结构的无监督恢复

本研究基于强柏拉图表征假说，旨在探究人类大脑中是否存在类似人工神经网络的共享表征几何结构。团队利用自然场景数据集的fMRI数据，提出一种自监督编码器，从每个被试自身的脑数据中学习其专属的嵌入空间。研究发现，这些独立学习的空间可以通过无监督的正交旋转，在不同被试间实现直接转换，无需配对数据或中间模型。进一步将旋转同步到一个统一的共享空间后，跨被试的检索性能得到提升。结果为人类视觉皮层存在共享神经几何结构提供了证据，表明个体的fMRI表征在不同人之间近似等距，并可通过纯几何变换进行转换。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

在类别不平衡的CT身体成分分割中，解耦采样策略与训练预算

针对医学图像分割中的类别不平衡问题，本研究将少样本学习中的情景采样引入全监督训练，以构建类别均衡的批次。研究在公开的SAROS数据集上，对比了情景采样、随机采样和加权采样在分割9种肌肉与脂肪组织时的表现。在低数据场景下，情景采样的平均Dice系数达到0.787，优于随机采样（0.758）和加权采样（0.762），主要原因是其训练迭代次数多出12倍。研究关键发现是，训练迭代预算本身是影响采样策略评估的重要混淆因素；情景采样能多训练约三倍的迭代次数才趋于稳定，表明类别均衡批次具有隐式正则化效应，为不平衡任务提供了一种低成本的通用策略。

arXiv开源生态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

极简视觉惯性里程计方案

传统视觉惯性里程计依赖高像素相机，资源消耗大。本研究提出了一种极简方案，仅需四个向下感知的光电二极管（通过光学Gabor掩膜提取速度信息）与一个IMU，即可为差速驱动机器人提供鲁棒的平面运动估计。通过物理仿真器联合优化掩膜参数与时序卷积网络，该模型能从四个光电二极管的测量中解算速度，并结合IMU的角速度输出连续轨迹。原型传感器在多样化的室内外地形验证中，无需真实场景微调即可紧密跟踪参考真值，证明了极简传感方案能够实现高效、精准的平面里程计。

具身智能端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ClinSeekAgent：实现多模态证据主动检索的临床推理代理框架

ClinSeekAgent 是一个自动化代理框架，旨在将临床推理范式从被动接收预设证据转变为主动从异构源中检索与整合多模态证据。该框架仅需临床查询和原始数据源访问权限，即可通过查询知识库、导航电子病历及调用影像工具动态收集证据，并随着新信息不断精炼假设以支持临床决策。研究通过构建ClinSeek-Bench基准测试验证其有效性，在多模态任务中将Claude Opus 4.6的F1值从47.5显著提升至62.6。此外，ClinSeekAgent 作为训练管道，可将高质量代理轨迹蒸馏为开源模型ClinSeek-35B-A3B，使其在基准测试中F1平均达到34.0，较基线提升11.9分，性能接近Claude Opus 4.6。

多模态搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

π-Bench：评估长期工作流中的主动个人助理代理

本文提出了一个名为π-Bench的全新基准测试，旨在评估个人助理代理的主动辅助能力。该测试包含100个多轮任务，覆盖5个特定领域的用户角色，其核心创新在于引入了隐藏的用户意图、任务间的依赖关系以及跨会话的连续性，以更真实地模拟现实交互。实验结果表明，主动辅助对当前大模型而言仍是重大挑战，且代理的“任务完成能力”与“主动识别需求能力”之间存在显著差距。

智能体论文/研究评测/基准