AIHOT

全部动态论文 · 2148 条

6月3日周三

6月3日

20:42

HuggingFace Daily Papers（社区热门论文）

BA-T是一种用于两视图光束平差法的迭代Transformer，受经典BA启发，将BA风格的结构化更新实现为隐式token空间中的可重复层。不同于传统前馈3D重建模型依赖深度解码器堆叠，BA-T基于潜在残差通过单一轻量层逐步精炼位姿和重建结果。实验显示，BA-T在迭代中持续提升精度，实现比传统解码器更强的跨视图一致性，并以仅16%的decoder参数匹配或超越更大模型。代码已开源。

GitHub论文/研究

18:00

Anthropic：Newsroom（网页）

Anthropic：一年来AI赋能网络威胁映射分析

Anthropic分析了2025年3月至2026年3月间因恶意网络活动被封禁的832个账号，映射至MITRE ATT&CK框架。67.3%的账号使用AI编写恶意软件，6.5%用于横向移动。攻击者中高风险比例从上半年的33%升至下半年的56%。AI使用从初始访问转向后期活动，账户发现增长8.9%，AI辅助钓鱼下降8.6%。攻击者技能与使用技术数量无显著关联（最低技能者平均16种，最高约20种），所用平台也与风险等级不相关。更高风险攻击者将AI集中于操作密集型技术，并构建允许模型自动链式执行攻击步骤的脚手架。MITRE ATT&CK框架未收录AI自主编排攻击链等行为。

Anthropic安全/对齐论文/研究

关联讨论 1 条

17:51

Anthropic：Research（发表成果 · 网页）

精选69

Anthropic 分析 832 个 AI 恶意账户：中高风险攻击者半年从 33% 跃至 56%

Anthropic 分析 2025 年 3 月至 2026 年 3 月间 832 个被封禁的恶意账户，映射至 MITRE ATT&CK 框架。67.3% 使用 AI 编写恶意软件，6.5% 用于横向移动。六个月间中高风险攻击者占比从 33% 升至 56%。AI 用于账户发现增长 8.9%，AI 辅助钓鱼下降 8.6%。传统基于技术数量或平台（Claude Code、API、聊天界面）的威胁评估失效，而 MITRE ATT&CK 框架尚未收录此类智能体编排行为。

Anthropic安全/对齐论文/研究

关联讨论 1 条

推荐理由：这份报告用一整年的真实案例揭示了AI攻击正从初始入侵转向深度潜伏，连MITRE ATT&CK框架都开始跟不上。安全从业者值得一读，它告诉你下一波威胁长什么样。

14:42

HuggingFace Daily Papers（社区热门论文）

PaddleOCR-VL-1.6：通过欠优化区域精修与渐进式后训练拓展文档解析前沿

PaddleOCR-VL-1.6是一个升级的紧凑型文档解析模型，基于0.9B参数规模的PaddleOCR-VL-1.5构建。针对前一版本中模型行为不稳定、数据稀疏或监督不可靠的欠优化区域，该模型引入了区域感知数据优化框架进行定向增强，并采用基于精选数据选择和强化学习的渐进式后训练方案。PaddleOCR-VL-1.6在OmniDocBench v1.6上取得了96.33%的新SOTA成绩，展现出与顶尖VLMs的竞争力。

arXiv多模态数据/训练论文/研究

13:42

HuggingFace Daily Papers（社区热门论文）

Small RL Controller， Large Language Model： RL-Guided Adaptive Sampling for Test-Time Scaling

该研究将大语言模型推理测试时扩展的自适应采样过程建模为马尔可夫决策过程，并使用强化学习训练一个轻量级采样控制器。该控制器在每一轮决定是停止采样还是获取更多样本，仅依赖最终答案的统计信息，并能联合权衡答案正确性、延迟与计算成本，且可在CPU上训练和部署。实验在Qwen2.5-7B和Llama-3.1-8B模型上进行，与ASC等强基线相比，该方法在正确性、采样轮数和总样本数之间取得了更优的权衡。

推理论文/研究

12:42

HuggingFace Daily Papers（社区热门论文）

面向推理模型的价值感知随机KV缓存淘汰策略

推理模型通过延长思考链提高准确率，但长输出导致内存与计算瓶颈。现有KV缓存淘汰方法因准确率常不及保留完整缓存的稀疏注意力方法而受限。研究发现，淘汰少量大数值价值状态会导致模型陷入重复推理循环；引入随机性则能提升缓存多样性以改善准确率。基于此，本文提出无需训练的“价值感知随机KV缓存淘汰”方案。在Qwen3模型上的实验表明，该方法进行4倍缓存压缩时，在六个推理任务上的平均准确率高于同等稀疏度下的SOTA选择方法，并比最强淘汰方法提升超过4%。

推理论文/研究部署/工程

12:42

HuggingFace Daily Papers（社区热门论文）

精选70

世界模型与语言模型：论具体推理与抽象推理的互补性

本研究探讨了世界模型与多模态大语言模型在预测未来状态时的互补性。世界模型可生成具体的视觉未来轨迹，但可能视觉合理却任务错误；多模态大语言模型则擅长抽象推理。为此，研究提出了“受控的具体推理”框架，并构建了VRQABench和OpenWorldQA两个基准。同时，提出了Privileged-Future On-Policy Self-Distillation（PF-OPSD）方法，该方法在训练时利用真实未来视频作为特权上下文评估推理轨迹，但部署时无需真实未来。实验结果显示，PF-OPSD在两个基准上分别比基线高出10.6%和10.9%，并提升了对噪声或冲突轨迹的鲁棒性。

智能体多模态开源/仓库推理

推荐理由：世界模型靠视觉预测，语言模型靠抽象推理，这篇把两者真正拧在一起了。用未来视频做自我蒸馏提升 10%，还给全开源，做 agent 决策的可以认真看看‘什么时候不信自己的眼睛’是怎么训出来的。

11:45

Saining Xie@sainingxie

研究团队推出VSTAT基准测试，用于评估多模态大语言模型（MLLMs）在视频中追踪动态状态的能力。测试任务看似简单，包括计数杯子、识别键入的文字、统计翻页次数等，人类可以轻松完成，但当前MLLMs表现欠佳。该测试旨在推动视觉状态跟踪这一前沿方向的发展，解决模型从不完整、有噪声的视觉观察中建立和更新内部世界状态的核心挑战。

Sihyun Yu: Can MLLMs actually track what's happening in a video? Introducing VSTAT 🎯, our new benchmark for visual state tracking....

多模态视频评测/基准

11:37

向阳乔木@vista8

斯坦福团队研究：未过滤数据训练大模型，效果可能优于清洗数据

斯坦福团队研究发现，使用未过滤Common Crawl数据训练模型时，在计算量充足下效果可能优于清洗后数据，结论呈现模型规模依赖性：小模型（15M）上过滤数据全面领先，但大模型（330M、1B）未过滤数据在充分训练后反而超越过滤版本，原因是大模型参数容量足够大，可在训练中自行隔离噪声与有效信息。

数据/训练论文/研究

11:05

Hacker News 热门（buzzing.cc 中文翻译）

精选75

斯坦福大学法学院研究：人工智能的表现优于法学教授

斯坦福大学法学院的一项研究表明，人工智能的表现优于法学教授。该发现引发了广泛关注，在Hacker News平台获得了104个Points。

推理论文/研究

推荐理由：斯坦福法学院自己下场测的，AI在法律考试上超过教授，虽然不是什么新题型，但官方自己出这种结果，对法律科技赛道是个真信号。

10:49

Berryxia.AI@berryxia

兄弟们，Google DeepMind 团队又来整活儿！

Google DeepMind发布了基于Gemini的多Agent系统Co-Scientist，旨在实现科研流程自动化。该系统能够生成、辩论和验证假设，帮助科学家从高强度脑力劳动中解放出来。过去一年，它已在肝纤维化新靶点、ALS新疗法等复杂问题上与科学家合作探索出新方向。其定位并非取代科学家，而是作为“专职研究伙伴”。目前，其假设生成功能已通过Gemini for Science向个人研究者开放。

Google DeepMind: We believe AI can be a dedicated research partner to help discover the next breakthrough. Enter Co-Scientist: our latest...

智能体DeepMindGoogle推理

关联讨论 1 条