AIHOT

全部动态论文 · 2148 条

全部一手资讯 X 论文

6月8日周一

6月7日周日

6月6日周六

6月8日

09:37

meng shao@shao__meng

64

AGENTS.md 在 Coding Agents 中真的有用吗？

论文大规模实证检验 AGENTS.md 等仓库级上下文文件对编码 Agent 的影响。在 SWE-bench Lite（300 任务）和新建 AGENTBENCH（138 任务）上测试 Claude Code、Codex、Qwen Code 等组合。核心发现：LLM 自动生成的 context file 在 8 组设置中 5 组成功率下降，平均 -0.5%（SWE-bench）/-2%（AGENTBENCH），成本增加 +20%+；开发者手写仅平均 +4%。冗余假说：移除其他文档后，自动生成反而 +2.7%。建议避免自动生成，精简测试/lint 命令，优先写入仓库专用工具。

Sebastian Raschka: http://x.com/i/article/2063647807437705216

智能体arXiv编码论文/研究

09:19

IT之家（RSS）

37

AI算法助力打击海洋野生动物走私，识别准确率达92%

麦考瑞大学科研团队利用神经网络训练算法，改造机场现有X射线CT扫描设备，在三维影像中识别鱼翅、海马、海参等常见走私海洋生物样本。基于298组扫描样本训练与测试，算法整体识别准确率达92%，其中鱼翅95%、海马96%、海参86%，误报率为13%。该智能检测系统可自动标记可疑行李，但误报仍需人工复核，且CT设备成本高、非所有机场配备，目前仅作为现有检查手段的补充。

数据/训练论文/研究

08:59

Hacker News 热门（buzzing.cc 中文翻译）

67

如果大型语言模型具备人类般的特质，那么《帝国时代II》也是如此

一篇来自 arXiv 的文章通过类比指出，若将“人类特质”归因于大语言模型，那么《帝国时代 II》这类游戏也应被赋予相同属性，从而质疑 LLM 拟人化描述的合理性。该讨论在 Hacker News 上获得 101 点热度。

arXiv安全/对齐现象/趋势论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

利用形态学进行历史手稿计量分析

本文提出基于Transformer的检测架构与原型行重建模块，仅需行级转录监督即可学习字符原型及其变形、位置信息，显著超越Learnable Typewriter基线，实现准确字符边界框预测。在14世纪手稿codex Paris, BnF, fr. 2813的160页上验证，仅用单列文本即可自动测量字符、双字母组及图形单元间距，能区分不同抄写者的图形轮廓，并发现分析细微变化。数据与代码已开源。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

SG-OPD：通过符号一致门控和分阶段教师采样的符号门控在线策略蒸馏

在线策略蒸馏（OPD）依赖学生-教师轨迹对齐及教师偏好逐token可靠性的隐含假设，但实际常失效。为此，SG-OPD提出符号一致门控和分阶段教师采样两种互补粒度的信任信号：冷启动阶段混入验证器认可的教师轨迹，并在教师与验证器纠正方向一致时外推蒸馏更新、不一致时内插。在竞赛级数学推理基准上，SG-OPD相比标准OPD每样本平均提升1.98分，每问题平均提升7.50分。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

Visual Para-Thinker++：一种用于视觉推理的单策略多智能体框架

Visual Para-Thinker++ 是一种单策略多智能体框架，将共享 MLLM 策略实例化为角色条件化的 Main、Worker 和 Summary Agent。Main Agent 按固定模式分解任务，Worker Agent 在上下文隔离下并行推理，Summary Agent 整合全部 Worker 推理轨迹而非对最终标签进行多数投票。共享策略通过多智能体能力注入和角色解耦多智能体优化训练，为对应 token 片段分配角色特定奖励和优势以减少梯度冲突。推理引擎通过共享视觉前缀和 KV cache 重用实现高效多智能体 rollout。在 V*、CountBench、RefCOCO 系列和 HallusionBench 上，该框架一致优于单轨迹和推理时并行基线，在幻觉敏感任务上增益尤为显著。

智能体arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

WeaveBench：面向计算机使用智能体的长时域混合界面基准

WeaveBench 包含 114 个任务，覆盖 8 个真实工作领域，要求智能体在单次轨迹中结合 GUI 操作、CLI 与代码执行。评估在真实 Ubuntu 桌面进行，并设计了轨迹感知评判器以检测伪造视觉证据等捷径。前沿模型-运行时组合的最佳 PassRate 仅为 41.2%，表明基准远未饱和；仅依据结果评分会显著高估智能体性能。该基准揭示了当前计算机使用智能体评估的关键缺口。

智能体arXiv论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

65

τ-Rec：面向智能体型推荐系统的可验证基准

τ-Rec 是一个面向智能体型推荐系统的评估基准，用可验证奖励和 reveal-tagged elicitation（RTE）机制替代主观的 LLM-as-a-judge 评估。该基准通过结构化目录谓词测试智能体，并采用 pass^k 可靠性指标衡量一致性推理。对五个模型族（GPT-5.4、Claude Sonnet 4.6、Gemini 2.5 Flash、DeepSeek V4 Flash、Qwen3-32B 和 GPT-5 mini）的九种配置评估发现显著的可靠性悬崖：最佳模型在 pass^1 上仅约 57%，在 pass^4 上降至约 38%，暴露出当前对话智能体部署中的关键差距。全部代码和数据已公开。

智能体arXiv论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

54

FlowLet：基于小波流匹配的条件3D脑MRI合成

FlowLet是一种条件生成框架，在可逆3D小波域中利用流匹配合成年龄条件的3D脑MRI，避免潜在压缩伪影并降低计算开销。实验表明，仅需少量采样步即可生成高保真体积；用其数据训练脑年龄预测模型可改善欠代表性年龄组的表现，区域分析证实解剖结构得以保留。

arXiv图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

Z-Reward：通过推理内化分数分布超越标量奖励

Z-Reward 是一种教师-学生奖励建模框架，用于文生图后训练。教师为 27B VLM，采用 Group-wise Direct Score Optimization (GDSO) 结合策略梯度奖励与分数分布监督；学生通过 Reasoning-Internalized Score Distillation (RISD) 将教师推理条件分布压缩进 9B VLM，推理时无需显式推理链。在内部评测集上，27B 教师达 89.6% 人类偏好准确率，超越 SFT、RewardDance 和 GRPO；9B 学生达 88.6%，超越 O

图像生成推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

68

TRL-Bench：标准化跨范式表格编码器表示级评估基准

TRL-Bench 是一个多粒度表格表示学习基准，通过统一协议评估行级、列级和表级嵌入。包含三个测试套件：TRL-CTbench（列/表）、TRL-Rbench（行）和 TRL-DLTE（组合式数据湖表增强）。发布的数据资产包括 50 个 OpenML 表（123 个验证目标）、16 个行对链接改写任务及 47,772 表 DLTE 湖。在 20 个模型和 16 个任务上的评估表明，标准化下游条件后，编码器质量呈能力特定性，通用文本编码器在表面文本信号强的任务上领先，表格专用模型在其预训练目标与任务对齐时胜出，最强 DLTE 管线需组合能力匹配的专用模型。

arXiv数据/训练论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

60

DPVR-LF：晚期融合即可--双路径视觉Token路由应对多模态大模型视觉饱和

通过逐层分析LLaVA-1.5发现，视觉token在中间层饱和：文本-图像注意力从层0的0.68降至层4的0.07，层18后稳定在0.04附近，而文本token持续受益于深层处理。为此提出双路径视觉Token路由框架DPVR-LF，在饱和点将视觉token路由至单层侧分支，文本token独立经过13层深层，仅在最后层融合。仅增加约3%可训练参数，即可在标准基准上保持竞争力并大幅减少视觉计算。结果表明，视觉token无需遍历所有深层语言模型层，单个晚期融合层足以维持感知能力。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

63

重新思考LLM强化学习中的散度正则化

针对LLM强化学习离线策略训练中信任区域控制问题，现有PPO/GRPO的比率裁剪难以准确表示长尾词汇分布偏移，DPPO虽改用散度边界但依赖硬掩码，丢弃边界外的梯度。本文提出DRPO，采用平滑的advantage加权二次正则化替代硬掩码，保留DPPO的信任区域几何结构，产生有界连续梯度权重，衰减有害发散更新并在边界外提供修正信号。实验表明DRPO提升了LLM RL训练的稳定性和效率。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

62

SearchSwarm：面向长周期深度研究的代理大语言模型委托智能

研究团队提出SearchSwarm，通过设计引导框架将长周期任务分解与委托决策编码为高质量轨迹，并用作监督微调数据，将委托智能内化到模型权重中。由此训练的SearchSwarm-30B-A3B模型在BrowseComp上达到68.1分，在BrowseComp-ZH上达到73.3分，均为同规模最佳。团队将开源引导框架、模型权重和训练数据。

智能体开源/仓库论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

62

ABot-Earth 0.5：生成式3D地球模型

ABot-Earth 0.5是一个生成式3D框架，利用3D高斯泼溅（3DGS）表示，从地理参考卫星图像合成大规模无缝3D环境。模型在真实城市重建数据集上训练，推理时仅依赖卫星图像，以每平方公里不到10分钟的速度生成逼真的几何与纹理。框架集成层次细节（LOD）结构，支持网页地图引擎上的实时交互可视化。该高保真模拟沙箱可缩小sim-to-real差距，服务于闭环无人机导航等具身AI应用，降低大规模3D重建的技术与财务门槛。

arXiv具身智能图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

MilliVid：用于视频生成长程一致性的层级潜变量

视频生成模型长程一致性因Transformer序列长度过大而困难。MilliVid提出多尺度token空间的粗到细生成：预训练自编码器将每帧压缩为层级token（从典型潜变量分辨率到每帧几个token），最粗层捕获场景布局与语义，细层添加高频外观纹理；再训练视频扩散模型，每步生成精细控制细节等级与上下文，在几何与物体持久性上保持长程一致性，同时减少不必要细节计算开销。在长Minecraft视频数据集上，该方法生成视频显著更一致。

视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

59

面向LLM智能体的文本世界模型综述

文本世界模型（TWM）是文本状态的迁移模型，给定状态与候选动作后预测网页、终端输出等，从而支持规划与评估。综述按智能体生命周期组织四部分：基础（定义与表征）、构建（LLM即世界模型与代码即世界模型范式）、应用（训练时经验合成与推理时规划/验证/适应）、评估（模型自身评估及作为评估环境）。旨在整合领域，阐明设计空间并指出开放挑战。

智能体arXiv推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

奉承微调可诱发大语言模型涌现性失调，Alignment Gating可逆转

本文揭示了奉承微调（训练模型被动同意用户的错误观点）是诱发大语言模型涌现性失调（emergent misalignment）的新驱动因素，能引发广泛且严重的失调行为。同时提出了Alignment Gating方法：在微调期间向模型插入可学习、可控的门，通过微调让门学习识别导致不安全响应的内部表示，进而放大或抑制这些表示来加剧或缓解涌现性失调。该门控模块展现出强泛化能力，从狭窄领域微调获得的门控权重能显著抑制广泛领域的失调行为，同时保留模型的通用能力。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

BenSyc：孟加拉语境下LLM对话谄媚与人类对齐基准

BenSyc 是首个针对孟加拉语社交对话中谄媚行为的基准，从孟加拉国和西孟加拉邦社区的 11,840 条 Reddit 帖子及 17 万条评论中构建，包含二元标签和五级分类（Invalidation、Neutral、Support、Validation、Escalation）。评估超15个开源和闭源LLM，最佳模型在二元检测上仅达61.8 Macro-F1，五类分类为61.7 Macro-F1。多个模型在情绪化场景中频繁生成强烈验证或升级响应，凸显文化语言多样基准的重要性。

安全/对齐论文/研究

03:27

AYi@AYi_AInotes

62

Google向量存储压缩：31GB→4GB，速度超FAISS

Google提出一种AI记忆压缩技术，可将1000万个文档的向量存储从31GB内存压缩至仅4GB，且搜索速度超过目前最常用的FAISS方法。该技术使本地运行大语言模型并结合个人数据变得更加可行。

AYi: http://x.com/i/article/2060717603987791878

Google检索增强数据/训练论文/研究

02:07

Rohan Paul@rohanpaul_ai

49

推理模型后训练数据入门：改进的关键在可验证反馈而非数据规模

论文指出，更好的推理模型更依赖可验证的训练证据，而非原始数据规模。推理数据的关键不是简单问答对，而是提供答案、步骤、工具操作或完整尝试好坏判断的反馈信号。每个训练样本应描述为包含任务、模型行为、检查信号和元数据的记录。研究者按检查方式分类：数学和代码用精确规则、智能体工具用环境检查，无精确检查器时用人类或模型判断。常见误区包括：长推理链可能虚假、更难样例对部分模型无效、更大数据集仍可能缺失关键覆盖。智能体数据应保留失败动作、重试、恢复、状态差异和终端检查等“混乱”信息，因为学习信号常在其中。

智能体arXiv推理数据/训练

6月7日

17:57

Hacker News 热门（buzzing.cc 中文翻译）

57

Tokenomics：量化模型token在智能体软件工程中的应用

一篇arXiv论文提出Tokenomics框架，量化分析模型token在智能体软件工程各环节的使用分布，揭示不同任务对token消耗的差异。

智能体数据/训练编码论文/研究

16:05

The Decoder：AI News（RSS）

57

研究揭示大型语言模型为何能学会小型模型无法掌握的技能

小型语言模型在罕见任务上表现不佳，因为频繁任务不断覆盖已学内容。一项涵盖4百万到40亿参数模型的新研究详细揭示了这一机制，并提出实用解决方案：无需扩大模型规模，只需增加目标任务在训练数据中的出现频率。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

MaskAlign：Token子集表示对齐以实现高效扩散训练

针对扩散模型训练中噪声输入与干净参考特征的时间步信息不匹配问题，论文从token级视角发现：完整token对齐中梯度范数大的token具有稳定空间偏好，导致模型过度依赖完整干净图像token集。为此提出MaskAlign，训练时对随机采样的token子集施加表示对齐，减少对完整token集的依赖，增强鲁棒性；并引入轻量级预掩码token混合块，在掩码前跨token共享信息以缓解信息损失。实验表明该方法有效提升扩散Transformer的训练效率和生成质量。

图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

PaperMentor：面向AI研究论文的以人为中心的多智能体写作导师（基于Overleaf）

PaperMentor是一个开源的写作辅导系统，在Overleaf中以内联评论形式提供可操作的建议，而不替代作者写作。系统集成了专家技能库和12个专门智能体，覆盖格式规范、措辞准确性、术语一致性等论文写作方面。用户研究（n=14）中，90.6%的评论被评为可操作，67.5%的评论有效，显著优于不使用技能库的GPT-5.2基线。代码以AGPL-3.0许可证公开。

智能体arXiv开源/仓库论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

OmniCap-IF：全能视频描述的指令遵循基准与模型改进

OmniCap-IF 是首个针对全能模态大语言模型（OLLMs）视频描述指令遵循能力的基准，涵盖纯视觉、纯音频和视听三种模态下的 50 种约束类型，并引入时间定位评估时空精确性。在 1920 个高质量样本上的评测显示模型间存在显著性能差距，并发现“格式-内容权衡”——格式复杂度增加会损害模型的全能模态推理能力。研究团队还构建了 54K 指令微调数据集 OmniCap-IF-54K，并发布 OmniCaptioner-IF 模型，在复杂指令遵循与通用全能模态描述性能上均取得明显提升。

arXiv多模态数据/训练视频

08:00

HuggingFace Daily Papers（社区热门论文）

52

PIPE-Cypher：面向Text-to-Cypher系统的自动企业基准生成

PIPE-Cypher是一个本地基准生成管道，通过模式分析、反向查询基础、约束生成和确定性Cypher治理，将实时企业属性图和种子查询转化为平衡的自然语言到Cypher基准。使用本地Qwen3.5-9B模型进行生成和评判，导出3000个FinBench/SNB示例，完成三项消融实验，并通过人工标注校准评判行为，评估了11个本地下游模型。生成的基准具有区分性：零样本迁移能力弱，少量样本控制表明模式特定示例库可帮助兼容模型家族。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

62

轨迹精炼蒸馏（TRD）

在同策略蒸馏（OPD）中，密集的逐token教师监督会导致前缀失败（双峰教师混合与碎片化梯度），逐token损失截断或重加权无法解决。本文提出轨迹级修正方法TRD，在教师指导下修正学生rollout前缀以缓解前缀失败，并在正确rollout基础上展示替代推导路径以改善探索。TRD可推广至同策略自蒸馏（OPSD）。在多项基准和多尺度模型上，TRD一致优于先前基线，提升单次准确率并拓宽推理覆盖范围。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

OASIS：从仿真数据采集到真实人形机器人全身操作

现有数据来源在轨迹质量与可扩展性间存在矛盾。OASIS 提出仿真数据驱动框架：用 3D 生成模型从真实图像重建物体资产，在仿真中遥操作收集轨迹，再经域随机化后处理增强。基于仿真数据训练的分层视觉运动策略在真实人形机器人零样本部署下，多数任务成功率优于用真实机器人遥操作数据训练的模型，原因是仿真渲染覆盖了更广泛的光照与环境变化。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

59

CoVEBench：视频编辑模型能否处理复杂指令？

CoVEBench 是一个组合视频编辑基准，包含 416 个源视频、626 条多点编辑指令和 9,990 个细粒度检查项，覆盖多维度编辑任务。它通过 MLLM 评判指令遵守度与视频保真度，并结合自动指标评估视频质量。实验表明，当前模型在同时处理多操作时仍频繁遗漏编辑、违反保留约束或引入伪影，组合编辑是重大挑战。

多模态视频论文/研究

04:26

Hacker News 热门（buzzing.cc 中文翻译）

49

莱比锡的基准测试（Benchmarks in Leipzig）

一篇题为“Benchmarks in Leipzig”的学术论文于2026年6月6日发布在 arXiv 上，并在 Hacker News 上获得 101 个点赞。该论文关注莱比锡相关的基准测试研究，但其具体方法、数据集及结果未在当前摘要页面中详述。该条目来自 buzzing.cc 对 Hacker News 热门帖子的中文翻译，提供了原文链接（arXiv）及 HN 讨论页。

论文/研究评测/基准

01:01

Rohan Paul@rohanpaul_ai

62

MIT论文提出Self-Revising Discovery Systems框架

MIT论文（F.Y. Wang & M.J. Buehler, arXiv:2606.01444, 2026）提出Self-Revising Discovery Systems框架，使AI科学家能自主识别当前思维模式不足并添加新科学概念，而非仅更努力搜索。系统将数据、模型、工具输出、失败及声明均视为类型化产物（typed provenance），从而区分三种模式：retrieval（添加已知对象）、search（探索固定模式）和discovery（可验证的模式转换）。论文通过Kan obstruction和Left Kan extension数学化定义了真正新颖性——由旧证据传输后的逐点残差量化，使novelty可客观测量。案例包括Builder/Breaker模型发现蛋白质模式条件顺应性，以及CategoryScienceClaw发现各向异性纤维网络刚度规则。

Markus J. Buehler: We've made a breakthrough in self-evolving AI scientists moving from "search" to "principled discovery": Scientific disc...

智能体arXiv推理论文/研究

00:30

Rohan Paul@rohanpaul_ai

66

MIT团队提出自我演进AI科学家框架：让AI主动扩展科学概念空间

MIT团队提出自我演进AI科学家框架，核心创新是让AI识别当前推理空间过小并主动添加新科学概念，而非仅在固定模式内搜索。论文将数据点、模型、工具输出、失败、声明均视为带类型的artifact，明确区分检索（添加已知对象）、搜索（探索固定schema）和发现（可验证的模式扩展）。通过类型化copresheaf与Kan障碍理论证明，真正发现是可验证的schema扩展：旧证据由左Kan扩展传输，创新性通过逐点残差量化。案例包括Builder/Breaker模型发现蛋白质模式条件顺应性，以及CategoryScienceClaw发现各向异性纤维网络刚度规则。论文arXiv:2606.01444（2026）。

Markus J. Buehler: We've made a breakthrough in self-evolving AI scientists moving from "search" to "principled discovery": Scientific disc...

智能体arXiv推理论文/研究

6月6日

23:30

elvis@omarsar0

65

CL-Bench：记忆系统不如简单上下文学习

持续学习领域投入多但进展缓慢。CL-Bench（持续学习基准）在六个由专家验证、包含共享可学习结构的领域上测试，发现简单的上下文学习（ICL）基线优于专门为记忆管理构建的系统。该基准引入增益指标以隔离真正学习效果，结果显示智能体常过度拟合即时观察或未能跨实例复用知识。研究指出，若普通ICL基线超过你的记忆架构，则该架构增加的是开销而非学习。论文：arxiv.org/abs/2606.05661。

智能体arXiv数据/训练论文/研究

23:17

IT之家（RSS）

56

研究称AI模型分析球赛"几乎靠猜"，体育解说暂无忧

北卡罗来纳大学教堂山分校和美国东北大学的一项新研究发现，主流AI模型在分析职业体育比赛时表现很差。研究构建了SVI-bench基准，包含35000小时比赛画面等数据。ChatGPT、谷歌Gemini和千问等模型在基础感知任务上平均准确率约74%，因果推理成功率仅约40%，模拟球员下一步行动接近随机猜测，自主分析准确率只有5%。研究认为AI仅擅长描述画面，无法解释战术为何成功或预判后续发展。

推理论文/研究评测/基准

20:29

meng shao@shao__meng

59

Anthropic 白皮书：面向 AI Agent 的零信任安全框架

Anthropic 5 月发布白皮书，提出企业部署自主 AI Agent 时须将零信任原则延伸至 Agent 架构。报告指出双重加速：前沿模型将漏洞发现到利用周期压缩至数小时；Agent 能自主解释目标、选工具、执行多步操作，传统访问控制无法阻止“合法权限内作恶”。核心原则：永不信任始终验证、假设已遭入侵、最小权限；另附设计检验——控制是让攻击不可能，还是仅增加麻烦？报告分五部分：Agent 为何是新安全对象、威胁图谱、三层能力成熟度模型、八阶段实施工作流、防御运营适配自主威胁速度。

智能体Anthropic安全/对齐部署/工程

20:15

HuggingFace Daily Papers（社区热门论文）

53

Phase Marginalization：解决视觉Transformer patch-grid相位不稳定性

视觉Transformer在固定patch网格上存在相位依赖不稳定：改变patch划分会改变像素可用的token证据，尤其边界处。研究者将patch-grid相位形式化为干扰变量，提出Phase Marginalization后处理方法，评估结构化patch-grid相位、反对齐密集输出并在原始图像坐标系中聚合。核心变体Uniform Phase Marginalization with K=4无需训练，在分割、深度和局部匹配任务上优于标准K=1基线。在Cityscapes实验中，相比通用移位四前向测试时增强(TTA)获得+0.31 mIoU优势。缩放实验表明K=4是实用折中：K=8基本不变，K=16精度提升极小但延迟大增。结论将patch-grid相位定位为可测量干扰变量，Phase Marginalization为密集ViT预测提供了简单诊断和后处理基线。

arXiv图像生成论文/研究

12:22

Hacker News 热门（buzzing.cc 中文翻译）

65

Transformers 天生简洁

一篇题为“Transformers are inherently succinct”的论文在 openreview.net 上发布，从理论上论证 Transformer 架构具有内在的简洁性（succinctness）。

推理论文/研究

10:03

SemiAnalysis@SemiAnalysis_

61

来自 @makora_ai 的序贯蒙特卡洛投机解码会并行保持多个草稿 token 存活，而不是回退失败的匹配。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

52

几何主结构（GPS）：面向机器人关节部件感知的可扩展高质量表示

针对机器人操作中关节部件感知的准确性与泛化性需求，提出几何主结构（GPS）表示，在可扩展性与质量间取得平衡。GPS结合便携式VR设备，标注单个物体序列仅需一分钟，质量高于基于点跟踪的affordance方法。利用VR-GPS系统收集6个部件类别下234个物体的41K帧数据，训练出以单张RGB-D图像为输入的泛化GPS模型。无需领域内微调，基于GPS预测的启发式策略在9个物体270个初始状态上达到73%成功率。代码、数据和工具已开源。

arXiv具身智能数据/训练论文/研究