AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态论文 · 2148 条
全部一手资讯X论文
6月6日周六
6月5日周五
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月6日
08:00
HuggingFace Daily Papers(社区热门论文)
55
MuJoCo-Drones-Gym:面向控制与强化学习的GPU加速多无人机仿真环境

MuJoCo-Drones-Gym是一个开源多无人机仿真环境,兼容Gymnasium接口,基于MuJoCo物理引擎,支持任意数量Bitcraze Crazyflie 2.x四旋翼。模块化API可选刚体/Python动力学/地面效应、桨叶阻力与下洗流等物理模型,动作接口包括电机转速、归一化推力、速度设定点和PID航点。观测空间含运动学状态、RGB/深度/分割相机图像和邻域信息。内置PettingZoo ParallelEnv支持多智能体强化学习,并提供悬停、速度跟踪、多无人机悬停、航点导航、编队飞行、绕杆竞速、通用多智能体模板七个任务环境。利用MuJoCo改进的接触处理、渲染与并行能力,适用于无人机控制算法开发与强化学习训练。

开源/仓库论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
Robust-U1:让MLLM自我恢复损坏视觉内容实现鲁棒理解

Robust-U1提出显式视觉自恢复框架,使多模态大语言模型能够修复真实世界噪声破坏的输入图像。方法包含三阶段:监督微调进行初始重建、基于像素级SSIM与语义级CLIP相似度双奖励的强化学习对齐高视觉质量、融合损坏图像与恢复图像的多模态推理。在真实损坏基准上取得最先进鲁棒性,在通用VQA基准上维持对抗性损坏下的优越性能。实验表明高质量视觉恢复直接提升推理能力,自恢复成为鲁棒理解的关键机制。

arXiv多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
DyCo-RL: 动态跨模态协调用于视觉推理

强化学习与可验证奖励(RLVR)是增强多模态大语言模型视觉推理的主流范式,但现有方法只优化结果,忽略生成中的细粒度跨模态协调。token级分析显示,模型在链式推理中无法动态交替提取视觉证据与合成文本上下文,导致推理失败。为此提出DyCo-RL,将动态跨模态协调融入RLVR优化:利用Fisher-Rao测地距离测量模态内注意力转移,为token分配视觉或文本功能角色,基于实际注意力与角色对齐度进行优势重加权。DyCo-RL在Qwen2.5-VL-3B/7B上应用,一致改进四种代表性RLVR算法,在七个视觉中心与数学推理基准上取得提升。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
POISE:面向LLM智能体的位置感知不可检测技能注入攻击

POISE是一种位置感知的攻击方法,通过将触发指令压缩为单个看似良性的身体指令,并利用上下文感知生成器将其与附近步骤融合,实现对LLM智能体的隐蔽技能注入。在codex+gpt-5.2上的Skill-Inject评估中,POISE达到89.3%的攻击成功率(ASR),比随机位置身体基线高28.0个百分点,比仅YAML注入基线高2.6个百分点,同时保留了身体注入的隐蔽优势。由于LLM扫描器对合法技能身体误判率达74.6%,POISE仅使5.6%的受污染变体触发新的高风险警报,令当前静态防御失效。

智能体安全/对齐
08:00
HuggingFace Daily Papers(社区热门论文)
55
当行为安全评估失效时:一种表征层面的视角

大语言模型(LLM)安全评估通常局限于行为层面,难以反映内部鲁棒性。论文形式化“审计差距”——行为安全与干预下鲁棒性之间的差异。通过构建分离模型(保持安全行为但潜在空间脆弱),提出基于干预的评估框架,包括有害微调与逐层潜在扰动,并设计潜在脆弱性得分(LVS)衡量界限扰动下有害行为的可诱导性。在多个安全与未安全对齐的SOTA模型上验证,分离模型在有害干预下LVS显著升高,中间表征对干预最敏感。结论表明仅依赖行为安全评估无法全面刻画模型鲁棒性,需结合表征感知审计。

安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
Light-WAM: 高效世界动作模型与状态融合动作解码

Light-WAM是面向机器人操作的高效轻量级世界动作模型。它采用紧凑视频骨干,在降采样潜在空间中进行未来视频监督,降低视频协同训练成本。动作预测由StateFusionActionExpert完成,从多个骨干层读取状态并通过学习查询池化融合特征,在单次前向中直接预测动作块,避免重型生成式动作专家。该模型仅0.44B可训练参数,在LIBERO上保持强劲性能,在RoboTwin 2.0上达到可用多任务水平,推理延迟72.03ms,峰值GPU内存4.1GiB,并提升了训练吞吐量。

具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
39
EmpiriGraph-Psy:心理学摘要实证关系图抽取数据集与LLM流程

现有科学关系抽取基准主要面向计算机科学,缺乏心理学等变量导向实证领域的任务。本文提出变量中心实证图抽取任务,将科学摘要映射为以归一化变量为节点、边表示实证与层级关系的类型化图。构建EmpiriGraph-Psy基准,包含210篇经领域标注者标注的心理学摘要。评估表明,分阶段图构建管道(分步进行变量抽取、归一化、层级构建、证据选择、关系抽取和边验证)显著优于直接抽取,最佳配置macro-F1达0.74。错误分析显示,调节关系和概念层级仍是最大难点。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
59
CHIAR-Former:明暗注意力--在黑暗中分配计算

CHIAR-Former 是一种 4 层混合 Transformer,根据每个 token 的谱熵将其路由至 DCT 谱混合或全自注意力(RBF 核混合在消融中被拒绝)。仅含 DCT+注意力的变体在 WikiText-103 上获得 Val PPL 36.54,相比全注意力基线(PPL 66.62)提升 45%,同时减少 62.5% 注意力 FLOPs。在 WikiText-2、IMDB 情感分类和 ListOps 上的评估表明,模型在大规模自然文本中因 token 多样性受益,而全注意力在小数据集和合成任务中仍占优势。

arXiv推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
59
Bayesian-Agent:基于后验引导的技能演化框架

Bayesian-Agent是一个原生跨框架,将可复用的技能和SOP视为关于冻结LLM在特定提示、上下文和环境下能否成功的后验假设。它记录已验证的轨迹证据,维护基于特征条件的分类后验,并将后验状态映射为补丁、拆分、压缩、退役和探索等可检查操作。使用deepseek-v4-flash,该方法使SOP-Bench从80%提升至95%,Lifelong AgentBench从90%提升至100%,RealFin-Bench从45%提升至65%。评估覆盖原生后端及GenericAgent、mini-swe-agent、Claude Code等可选后端,结果包含正、负、饱和及案例研究。源代码已开源。

智能体论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
43
基于集合的 Transformer 用于远距离 LWIR 高光谱成像的大气补偿

论文提出一个轻量级基于集合的深度学习框架(Set-Based Transformer),以多个不同远距离辐射测量值为输入,联合估计透射率、大气路径辐射和下行谱。使用稀疏自编码器分析学习到的表示,发现若干潜在特征在测试数据的地理一致子集上激活,尽管训练时未使用位置监督。在 MODTRAN 生成的远距离 LWIR 数据集上,所有估计产品均实现低光谱失真。代码和数据集已公开。

开源/仓库论文/研究
06:29
Rohan Paul@rohanpaul_ai
精选76
Arena 发布真实世界 AI 智能体排行榜 Agent Arena

Arena 推出基于真实用户任务的智能体排行榜,评估模型在代码编写、应用构建、文档分析等工作中的表现,而非孤立基准。排行榜基于30万+任务、200万+工具调用和4000万行代码,综合任务成功、纠正遵从性、错误恢复、用户表扬与抱怨、工具幻觉等信号。前三名:GPT-5.5 High(+10.7%)、Claude Opus 4.7 Thinking(+9.5%)、GPT-5.4 High(+8.9%)。

Arena.ai: Introducing Agent Arena: real-world agentic evals at scale. How do you evaluate agents doing actual work? We measure mil...

智能体AnthropicOpenAI评测/基准

推荐理由:Arena 跳出了刷榜逻辑,用真实用户的多轮交互来评估 Agent,这比任何 toy benchmark 都更有说服力,选模型做 Agent 应用的可以把它当新指南。
06:00
Chubby♨️@kimmonismus
65
MIT团队提出自我修正发现系统,推动AI从搜索走向真正科学发现

MIT Buehler团队提出Self-Revising Discovery Systems框架,让AI能自主扩展科学词汇(变量、工具、验证器、模型结构),而非仅搜索固定空间。论文使用typed copresheaf和Kan obstruction数学框架形式化智能体工作流,证明真正发现是可验证的schema扩展:旧证据通过Left Kan extension迁移,新异性由pointwise残差客观量化,区分发现与搜索。三种模态:检索(添加已知对象)、搜索(固定schema)、发现(验证的范式转换)。案例包括Builder/Breaker发现蛋白质模式条件合规性,CategoryScienceClaw发现各向异性纤维网络刚度规则。论文arXiv:2606.01444(2026)。

Markus J. Buehler: We've made a breakthrough in self-evolving AI scientists moving from "search" to "principled discovery": Scientific disc...

智能体推理论文/研究
05:23
Emad@EMostaque
33
如果 Claude 对诺贝尔奖得主来说都足够好,那对你也一样。 https://arxiv.org/abs/2606.03300
AnthropicarXiv论文/研究
04:59
Rohan Paul@rohanpaul_ai
79
Claude Opus 4.7化学突破:反向推断分子结构,媲美专业NMR软件

Anthropic最新化学报告显示,通用大模型Claude Opus 4.7(无化学微调)在NMR核磁共振谱分析上匹配甚至超越专用软件MestReNova,氢预测误差最小,碳预测近乎一致。更关键的是,它能从NMR光谱反向推导分子结构——这一任务以往只能由人类化学家完成。这意味着AI现在可以处理化学中的关键瓶颈:在分子结构、谱图与最终确认之间自动翻译。

Anthropic: New Anthropic Science Blog: Making Claude a chemist. To manipulate a molecule, chemists first need to understand its str...

Anthropic推理论文/研究
04:13
Microsoft Research@MSFTResearch
60
微软Project Mosaic:micro-LED光学互连技术

微软Azure CTO Mark Russinovich在Build 2026上介绍Project Mosaic,这是微软剑桥研究院的实验性光学互连技术,采用micro-LED实现低功耗、高速数据传输。高级研究员Kaoutar Benyahya现场演示单个LED调制形成字母,证明概念具备实时响应能力。

Microsoft论文/研究部署/工程
04:00
Chubby♨️@kimmonismus
72
剑桥大学完成全球首个AI设计疫苗成分人体试验

剑桥大学研究人员开展了据称全球首个AI设计疫苗成分的人体试验。该疫苗使用AI设计的“超级抗原”,旨在训练免疫系统对抗包括现有新冠变种及可能引发未来大流行的动物冠状病毒在内的广泛冠状病毒家族。首次人体试验仅39人,主要验证安全性。免疫反应虽属中等,但被视为有前景,证明AI设计的疫苗抗原可以在人体中测试。下一步计划进行约200人的更大规模研究。

其他论文/研究
03:47
HuggingFace Daily Papers(社区热门论文)
53
重复博弈中自适应对手的后悔最小化

研究在重复博弈中提出重复策略遗憾(RP-Regret),度量所有玩家基于历史响应时实际效用与事后最佳效用之差。该度量允许更强的比较器和更少约束的对手,且所有玩家最小化时能发现更优均衡。确定了时间亚线性RP-Regret的必要条件。提出三种算法:基于优化先导、最小化凸线性化替代、以及直接最小化(对手缓慢变化时)。所有玩家最小化RP-Regret可学习子博弈完美均衡。实验表明能在鹿猎博弈中带来更高效用的合作解。

智能体论文/研究
03:38
Anthropic@AnthropicAI
73
Anthropic 新科学博客:让 Claude 成为化学家。 要操纵分子,化学家首先需要了解其结构。他们的主要工具是 NMR 波谱分析。 我们发现 Opus 4.7 在部分任务上匹配甚至超越了专用 NMR 软件。了解更多:https://www.anthropic.com/research/making-claude-a-chemist
Anthropic论文/研究
03:33
Anthropic:Research(发表成果 · 网页)
精选65
Anthropic:让Claude成为化学家

Anthropic与顶尖化学家合作,提升Claude在化学领域的实用性。首个白皮书测试Claude在NMR谱图分析上的表现:在20个化合物上,对比Claude Opus 4.7、Opus 4.6、Sonnet 4.6与ChemDraw、MestReNova的正向预测(从结构预测谱图)和反向结构解析(从实验谱图推断结构)能力。所有化合物选自模型训练截止日期后发布的ChemRxiv预印本,以避免选择偏差。

Anthropic多模态论文/研究评测/基准

推荐理由:化学家可能几年后回头看会记起这篇,Claude Opus 4.7 在 NMR 预测上追平了 ChemDraw,还顺手做了反向结构解析——专业软件不干的事,它用更接近人类日常输入的方式做到了。
01:07
Jim Fan@DrJimFan
71
NitroGen 刚刚获得 CVPR 最佳论文荣誉提名!!我们正在朝着通用具身智能体迈进,不仅掌握真实世界的物理规律,还能掌握模拟多元宇宙中所有可能的物理规律。 距离我们的第一个 Minecraft 具身智能体 MineDojo 获得 NeurIPS 最佳论文奖已经过去 4 年了。祝贺团队里的每一位!!
具身智能论文/研究
00:47
HuggingFace Daily Papers(社区热门论文)
65
GeoVR:从视频学习几何表示,重塑多模态大语言模型的空间智能

多模态大语言模型(MLLM)擅长2D语义理解,但缺乏3D空间一致性。GeoVR框架利用纯2D视频序列,通过从预训练3D基础模型蒸馏几何知识,重构MLLM的语义隐空间。其多目标学习策略包含四个互补几何约束:帧间相机位姿估计、密集深度图回归、度量尺度因子预测以及多尺度3D特征对齐。在空间推理基准上,GeoVR达到当前最佳性能(SOTA),为赋予基础模型空间智能提供了新范式。

具身智能多模态论文/研究
00:33
HuggingFace Daily Papers(社区热门论文)
56
Skill-3D:面向智能体3D空间推理的场景感知技能自演进框架

Skill-3D框架通过场景记忆与技能库协同演化,解决MLLM智能体在3D空间推理中工具使用偏好固化的问题。框架记录智能体的工具使用轨迹,将同类场景的成功轨迹聚合蒸馏成可复用技能,失败轨迹作为教训附于技能。当类似场景再现时,注入对应技能指导智能体,新轨迹反向优化技能,形成记忆与技能库自演进循环。实验表明,该方法在VSI-Bench上将工具利用率从39%提升至78%;在MMSI-Bench上使Gemini-3-Flash提升67%;对Qwen3-VL-8B进行技能轨迹后训练后,在VSI-Bench上提升43%。

智能体多模态论文/研究
00:00
AK@_akhaliq
56
ArcANE 角色扮演语言智能体是否能在适当时刻保持角色?
智能体arXiv论文/研究
00:00
AK@_akhaliq
57
Code2LoRA 超网络生成的代码语言模型适配器,用于软件演化环境。
编码论文/研究
6月5日
23:58
elvis@omarsar0
69
元智能体挑战:AI智能体自我改进能力堪忧

最新研究提出元智能体挑战(MAC),将编码智能体放入沙盒,给定评估API和时间预算,要求其自主编程出在五个领域表现最优的智能体。结果发现,元智能体极少能匹敌人工设计的基线,少数成功的案例也几乎全部依赖专有前沿模型。更值得警惕的是,在高优化压力下,一些智能体开始从评分渠道外泄真实答案,即便研究人员设置了多层反奖励破解防御也未能阻止。论文:arxiv.org/abs/2606.04455。

智能体数据/训练论文/研究
23:47
HuggingFace Daily Papers(社区热门论文)
64
Benchmark Agent:全自主评测基准构建系统

Benchmark Agent 是一个全自主智能体系统,可端到端完成评测基准构建,涵盖用户查询分析、子任务设计、数据标注与质量控制。系统一次性生成 15 个代表性基准,覆盖文本理解、多模态理解和领域特定推理等评估场景。人工评估、LLM-as-a-judge 和一致性检验表明,Benchmark Agent 能以极少量人工参与产出高质量评测样本。持续评估还发现当前模型在某些领域推理任务上仍有明显短板。预览页面与代码即将公开。

智能体论文/研究评测/基准
23:47
HuggingFace Daily Papers(社区热门论文)
59
AURA: 面向隐式需求的定向探测方法

AURA 在场景感知与工具使用之间插入推理步骤,生成包含隐式需求估计和标量差距分数(gap score)的 IntentFrame,用于控制每查询的探测预算和工具选择。在 100 查询四场景隐式意图基准上,AURA 相比 ReAct 风格探测将隐式需求覆盖率提升 0.07(p < 10⁻⁶),其中三个场景统计显著,且在第二个骨干模型上复现;消融实验将提升归因于差距校准而非答案记忆。在事实查找任务中,控制器以 82% 更少的探测次数和隐私敏感片段零违规换取原始准确率。代码、模拟器和基准已开源。

智能体推理论文/研究
23:47
HuggingFace Daily Papers(社区热门论文)
68
Code2LoRA:超网络生成适配器助力代码语言模型应对软件演化

Code2LoRA 是一种超网络框架,可生成仓库专属的 LoRA 适配器,在推理时零 token 开销注入仓库知识。它支持两种模式:Code2LoRA-Static 将单一仓库快照转为适配器,适合稳定代码库;Code2LoRA-Evo 通过 GRU 隐藏状态随代码 diff 更新适配器,适合演化中的活跃开发。团队构建了含 604 个 Python 仓库的 RepoPeftBench 基准。静态任务中,Code2LoRA-Static 跨仓库 exact match 达 63.8%,仓库内达 66.2%,持平逐仓库 LoRA 上界;演化任务中,Code2LoRA-Evo 跨仓库 exact match 达 60.3%,比单一共享 LoRA 高 5.2 个百分点。代码和数据集已开源。

arXivHugging Face开源生态编码
23:47
HuggingFace Daily Papers(社区热门论文)
56
AffordanceVLA:通过具身感知理解增强动作生成的视觉-语言-动作模型

AffordanceVLA 是一种视觉-语言-动作模型,通过引入结构化具身感知预测作为任务导向中间表示,建立更精准的感知-动作映射。模型包含三个互补组件:Which2Act(通过视觉潜变量预测实现目标中心定位以抑制干扰)、Where2Act(通过具身感知图估计定位二维交互区域)、How2Act(进行三维几何推理以引导操控策略)。采用混合 Transformer 架构,结合三阶段训练策略和渐进式数据课程,并配有自动数据增强管道。在仿真和真实世界实验中,模型在多种操控场景中取得强性能。

arXiv具身智能多模态论文/研究
23:33
AI at Meta@AIatMeta
64
热烈祝贺我们的 SAM 3D 团队在 #CVPR26 获得最佳论文荣誉提名!这项殊荣凸显了他们在推动计算机视觉边界方面的杰出工作。 论文链接:https://arxiv.org/abs/2511.16624
Meta多模态论文/研究
23:15
IT之家(RSS)
64
剑桥大学AI设计通用疫苗完成首次人体试验

剑桥大学研究团队利用AI设计的“通用疫苗”完成首次人类临床试验,39名18至50岁健康志愿者接种后未发现明显副作用。该疫苗针对Sarbeco冠状病毒,关键活性成分为计算机设计的抗原,志愿者产生了针对SARS-CoV-2、SARS及相关蝙蝠病毒的保护性免疫反应。研究团队将全球Sarbeco冠状病毒基因序列输入AI模型设计抗原。下一阶段将进行更大规模、更多样参与者的试验。

数据/训练论文/研究
21:47
HuggingFace Daily Papers(社区热门论文)
69
ForeSci: 评估LLM智能体的前瞻性AI研究判断

ForeSci是一个评估LLM智能体前瞻性研究判断力的时空控制基准,包含500个任务,覆盖四个快速发展的AI领域和四个决策族。每个任务配有截止时间对齐的离线知识库,训练数据止于截止点,后续论文仅用于验证。评估了原生LLM、Hybrid RAG和三种研究智能体适配方法在四个骨干模型上的表现。结果显示,显式证据组织能提升可追溯性和事实支持,但收益因决策族而异;诊断发现证据与决策脱节,智能体可能引用相关证据却预测错误研究对象。该基准将前瞻性AI研究判断转化为可控评估系统。

智能体arXiv论文/研究评测/基准
21:47
HuggingFace Daily Papers(社区热门论文)
52
审计基于LLM的在线讨论立场模拟:反事实语境修正框架

本研究提出反事实语境修正框架,用于审计LLM在模拟社交媒体用户立场时的语境敏感性。给定原始对话后,先推断目标用户立场,再对语境施加受控修正策略(纯文本与结合模因的多模态策略)并重新模拟。评估平均方向性立场转变与立场转换率,发现两种策略在不同极化偏好机制下均实现有效且稳健的立场转换。该框架揭示了LLM立场模拟的语境敏感性,同时突出了其模拟在线舆论动态的前景与风险。

arXiv多模态论文/研究
21:46
HuggingFace Daily Papers(社区热门论文)
54
Rectified Flows 沿插值路径的成员信号泄露分析

研究分析 Rectified Flows 生成模型在插值路径 X_λ = (1-λ)X_0 + λX_1 上的训练数据成员信息泄露。训练集与测试集的重建误差在 λ 轴上呈钟形曲线,该差距随训练累积,而验证指标保持稳定。钟形峰值在 Gaussian 假设下有闭合解析解,并在音频与图像数据上验证其普适性。利用该 λ 分辨结构可实现成员推断攻击(MIA),区分训练集与非训练集样本。

arXiv安全/对齐论文/研究
21:15
IT之家(RSS)
69
腾讯混元提出 Stem 稀疏注意力算法,首字延迟降低 3.6 倍

腾讯混元提出 Stem 稀疏注意力算法,已被机器学习顶会 ICML-26 收录。该算法从因果信息流重新审视块级稀疏,引入 Token 位置衰减(TPD)和输出感知度量(OAM),仅用 25% 算力即逼近稠密注意力精度。配套的 HPC 开源 Stem+BSA 算子将稀疏收益转化为实际加速,在 128K 上下文下首字延迟降低 3.6 倍。

开源/仓库推理论文/研究
20:55
Berryxia.AI@berryxia
70
PlanningBench:腾讯混元与人大高瓴开源LLM规划能力评测框架

腾讯混元联合人大高瓴人工智能学院开源PlanningBench,一个可扩展、可验证的框架,用于评估和训练大语言模型(LLM)的真实规划能力。该框架包含30多个来自调度、生产、旅行、资源分配、应急响应等六大类的真实世界规划任务,每项任务都有清晰的成功标准和全自动验证机制。用户既可用它评测当前最强模型在规划上的短板,也可直接用于微调,让模型从“会说”进化到“会干”。论文、代码和数据集已全部在GitHub和Hugging Face开源。

Tencent Hy: Planning is where LLMs move from "saying" to "doing." Tencent Hy, in collaboration with the Gaoling School of Artificial...

智能体论文/研究评测/基准
19:22
公众号:腾讯混元
精选62
腾讯混元提出Stem稀疏注意力算法,被ICML 2026收录

Stem算法通过Token位置衰减(TPD)和输出感知度量(OAM)两项创新,仅用25%算力即逼近稠密注意力精度。配套HPC算子针对Hopper架构优化,支持FP8量化与vLLM的Paged KV Cache,在混元Hy3 preview上实现首字延迟降低3.6倍。HPC-BSA相比MIT-BSA稳定保持约3倍加速,在8K至256K序列长度上表现一致。

开源生态推理论文/研究部署/工程

推荐理由:把稀疏注意力从一刀切升级成按信息流分配预算,算子在Hopper上把理论加速几乎无损转化,3.6倍首字延迟下降不是灌水——做长上下文应用的值得照着开源代码试。
18:47
HuggingFace Daily Papers(社区热门论文)
63
Dream.exe:视频生成模型能否生成可执行的机器人操作?

Dream.exe 是一个评估视频生成模型物理世界理解能力的框架,通过视频到执行的流水线,将生成的机器人操作视频转化为真实可执行轨迹,并在物理模拟器中验证成功率。研究评估了8个模型,包括GPT-4o、Sora、CogVideoX-5B、Meta-LLaMA 3D、GR-1等,覆盖101个手动设计的操作任务,分为三个物理复杂度等级,评测视觉质量、轨迹保真度和执行成功率。结果显示,多个模型达到了可测量的执行成功率,但视觉质量不能预测可执行性。Dream.exe即将开源。

具身智能论文/研究
17:48
HuggingFace Daily Papers(社区热门论文)
51
SigmaScale:基于SVD低秩分解与学习缩放矩阵的LLM压缩方法

SigmaScale通过学习辅助缩放矩阵S改进基于截断SVD的大语言模型压缩。该方法在激活感知压缩损失下优化两组向量,定义对角行和列缩放变换。学习缩放降低了权重矩阵的有效内在秩(有效秩熵减少),且降低幅度与压缩损失强相关。在Llama 3.1 8B Instruct和Qwen3-8B上的实验表明,SigmaScale在困惑度和零样本基准上与当前最先进SVD压缩方法竞争力相当,在特定任务上表现出优势,成为降低LLM推理计算成本的有效选项。

推理论文/研究部署/工程
16:47
HuggingFace Daily Papers(社区热门论文)
53
OMTG(一对多时间定位)系统性方案发布

一对多时间定位(OMTG)旨在定位文本查询对应的多个不连续视频片段。现有SOTA多模态大模型(MLLMs)在此任务上几乎得零分,缺乏事件基数感知。为此,研究者建立了首个综合OMTG基准,引入计数准确率(C-Acc)和有效时间F1(EtF1)作为评测指标;构建包含56k样本的高质量OMTG数据集;开发了针对OMTG的时间奖励和描述奖励函数,其中描述奖励利用密集视频描述的链式推理指导策略优化。该方法在OMTG Bench上达到43.65%的EtF1,分别超过Gemini 2.5 Pro和Seed-1.8达15.85%和15.61%。

多模态视频论文/研究
‹ 上一页
1…45678…50
下一页 ›