AIHOT

全部动态论文 · 2148 条

全部一手资讯 X 论文

6月10日周三

6月10日

16:56

HuggingFace Daily Papers（社区热门论文）

精选70

快手开源 Kwai Keye-VL-2.0-30B-A3B：面向长视频理解与智能体智能的 MoE 多模态模型

快手开源 Kwai Keye-VL-2.0-30B-A3B，一个 MoE 多模态基础模型，激活仅 3B 参数，专为长视频理解和智能体智能设计。模型首次将 DeepSeek Sparse Attention (DSA) 适配到 GQA 多模态架构，实现无损 256K 上下文处理，并通过可扩展视频 I/O、异构 ViT-LM 并行及自定义 DSA 内核优化吞吐与计算开销。引入跨模态多教师在策略蒸馏（MOPD）结合 Context-RL 和 Video-RL，缓解多任务对齐中的灾难性遗忘，原生支持代码、工具、搜索场景下的多智能体协作与多模态自纠正。在 TimeLens、Video-MME-v2、LongVideoBench 等多个基准上达到同类规模 SOTA，模型权重已开源。

智能体多模态视频论文/研究

推荐理由：Keye-VL-2.0 把长视频理解推到 256K 上下文，还用了 DeepSeek 的稀疏注意力，这是目前我能找到的对长短视频最兼顾的多模态模型，做视频 agent 的该看看。

16:56

HuggingFace Daily Papers（社区热门论文）

67

稀疏自编码器解释与操控文本转语音语言模型

研究在CosyVoice3的语言模型骨干上训练BatchTopK稀疏自编码器，并引入模态感知自动解释管道，为每个特征标注其触发来源（文本前缀、1秒语音片段或两者）。恢复的特征涵盖音素、笑声、口音提示和说话者性别，可解释性强。通过SAE潜空间进行操控表明这些特征具有因果性：定向干预使笑声概率从0.02升至0.79，翻转感知的说话者性别，并在保留口语内容的同时控制语速。SAE特征既可作为可解释性对象，也可作为TTS合成的控制方向。

论文/研究语音

15:56

HuggingFace Daily Papers（社区热门论文）

47

U-TTT：通过测试时训练实现泛化的PET图像去噪

现有深度学习模型在分布偏移下进行PET图像去噪时性能严重下降，根源在于固定参数范式无法适应测试数据的剂量水平或扫描仪类型变化。本文提出U-TTT，一种集成测试时训练（TTT）层的U形模型，通过自监督在推理时动态调整参数以适应每个测试实例的特征。U-TTT包含空间TTT（S-TTT）层和频率TTT（F-TTT）层构成的双域自适应机制，分别校正空间结构退化并抑制全局噪声频谱、恢复高频细节。实验表明，U-TTT在未见剂量水平和扫描仪类型等挑战性分布偏移下达到SOTA去噪性能与泛化能力。

数据/训练论文/研究

15:56

HuggingFace Daily Papers（社区热门论文）

49

UniPET：面向多种剂量降低因子的通用PET图像去噪网络

现有基于深度学习的PET图像去噪方法通常假设低剂量图像的剂量降低因子（DRF）固定且已知，实际中DRF变化时性能大幅下降。UniPET将域泛化引入PET图像去噪，通过风格对齐网络（SAN）对齐并恢复不同DRF下的风格，同时提出区域感知学习策略（RALS），区分平坦区域与风格化区域并对后者进行对抗学习，防止过度平滑。实验表明，UniPET在特定DRF下性能与单DRF专用模型相当，在通用PET图像去噪任务上达到定量、感知和临床层面的最先进水平。

arXiv论文/研究

15:28

IT之家（RSS）

60

哈佛与Perplexity研究：AI智能体人机协作缩短87%任务时间、降低94%总成本

哈佛大学与Perplexity基于10000组真实数据对比研究发现，AI智能体（Perplexity Computer）与人工协作比传统搜索（Perplexity Search）加人工效率更高。智能体单次会话平均执行26分钟，搜索仅33秒，本地任务差距达75倍；智能体有效不满率1.3%，低于搜索的2.9%。“Search+人工”每任务需269分钟，“Computer+人工”仅36分钟，时间缩短87%。虽然智能体单任务模型成本约4-10美元（搜索约0.05美元），但人力边际成本从2.05美元降至0.16美元，总成本下降94%。短单步问题适合搜索，多步需工具调用任务适合智能体。

智能体论文/研究

14:56

HuggingFace Daily Papers（社区热门论文）

55

Role-Agent：通过双角色进化自举LLM智能体

Role-Agent框架让单个大语言模型同时充当智能体和环境，实现自举式共同进化。包含两个组件：World-In-Agent（WIA）让LLM作为智能体并在每次动作后预测下一状态，将预测与实际状态的对齐作为过程奖励，激励环境感知推理；Agent-In-World（AIW）则从失败轨迹中分析失败模式，并检索具有相似失败模式的任务，重塑训练数据分布进行针对性练习。在多个基准测试上，Role-Agent平均比强基线提升超过4%。

智能体arXiv论文/研究

13:56

HuggingFace Daily Papers（社区热门论文）

64

Lip Forcing：用于实时唇同步的少步自回归扩散方法

Lip Forcing提出了自回归扩散方法用于视频到视频唇同步，从14B参数的音频条件双向视频扩散教师模型蒸馏出因果学生模型。推理时每个块仅需两步去噪，无需CFG，实现实时流式处理。技术分析揭示CFG的保真度-同步权衡，进而衍生出Sync-Window DMD、两步推理调度和基于SyncNet的奖励三项组件。1.3B学生模型在31 FPS下实时输出，比同规模双向模型快17.6倍；14B学生模型是目前最大的V2V唇同步扩散模型，比教师快39.8倍，保真度接近。首帧时延均小于1毫秒。

多模态视频论文/研究

12:56

HuggingFace Daily Papers（社区热门论文）

精选75

混合LLM中的注意力失忆：CoT微调破坏长距离召回及修复方法

CoT监督微调系统性地降低混合线性注意力模型（如HypeNet、Jet-Nemotron）的长上下文召回能力。在NIAH任务上，HypeNet-9B的S2@256K从67.2%降至9.4%，原因是CoT-SFT使注意力梯度偏向短程模式，破坏长程路由的W_Q和W_K投影。QK-Restore方法无需训练，从微调前检查点恢复W_Q和W_K，保留其余参数；Procrustes变体平衡路由保留与推理适应。在HypeNet-5B上，QK-Restore将S3@256K从65.4%提升至76.4%，推理性能不变。

推理论文/研究

推荐理由：做长上下文推理的同学注意了，CoT微调居然会弄坏模型的长距离记忆，这篇论文不仅把原因扒清楚了，还给出了零成本修复方案，值得放进参考列表。

12:56

HuggingFace Daily Papers（社区热门论文）

67

WorldOlympiad：视频世界模型三项全能评测基准

WorldOlympiad 将视频世界模型评估分解为物理、几何和交互三个维度。物理轨道用物体分割和 MLLM-as-judge 检验视频对力学、热现象、材料属性等规则的遵循；几何轨道以高斯泼溅重建评估结构一致性、跨视角连贯性与相机轨迹对齐；交互轨道评测模型能否按复杂动作提示生成连贯长程视频。基准覆盖游戏、机器人和通用真实视频三大场景。实验表明，当前最先进模型在物理推理、3D 一致性和长程交互上存在显著差距。

arXiv具身智能多模态视频

12:56

HuggingFace Daily Papers（社区热门论文）

62

Data2Story：将数据转化为可验证多模态故事的数据记者智能体

Data2Story是一个多智能体框架，将数据记者工作流中的多种专业角色编排成虚拟新闻编辑室。其两项创新是：每个声明通过Inspector链接到数据、代码或外部参考，实现基于证据的归因；文章可多模态生成，如为地理内容生成交互式地图、为音乐生成音频。在18篇文章上的评估从四个维度进行：人与智能体的角度覆盖、53名参与者的评分、计算机使用智能体作为读者导航代理、以及可验证性（代码验证器重新执行语句并与参考对照）。Data2Story产出有竞争力且证据可追溯的多媒体故事，在透明度和可审计性上表现突出，但人类文章在编辑角度、创意设计和呈现上仍具优势。框架定位为记者协作者，代码和演示已公开。

智能体多模态论文/研究

12:56

HuggingFace Daily Papers（社区热门论文）

精选73

Flow-DPPO：面向流匹配模型的散度近端策略优化

针对流匹配模型中在线强化学习比率裁剪策略约束不当的问题，Flow-DPPO 提出用散度近端约束替代。关键洞察是流模型每步策略为高斯分布，可精确计算新旧策略间的 KL 散度。Flow-DPPO 采用非对称散度掩码，仅在梯度更新偏离信任区域且超阈值时阻止更新。实验表明，Flow-DPPO 获得更高奖励，KL 近端效率更优，缓解了灾难性遗忘，促进多目标均衡，并能在比率裁剪失效时支持稳定的多轮训练。代码已开源。

图像生成推理视频论文/研究

推荐理由：用 KL 散度代替比值裁剪来解决流匹配 RL 训练的不稳定，理论简洁，代码已开源，做图像/视频生成优化的同学可以跑一下。

11:56

HuggingFace Daily Papers（社区热门论文）

61

每项多模态证据仅用一个token：面向资源受限问答的Latent Memory

Latent Memory提出一种潜在空间记忆范式，由小型压缩器LLM/VLM将每个原始文本或图像证据压缩为单个高维潜在token。查询时，将查询嵌入同一空间检索相关token并直接输入预训练LLM/VLM生成答案。通过统一端到端训练，结合重建、对比和蒸馏目标，使单个token同时携带重建、检索和生成信息。在HotpotQA等七个纯文本QA基准和多项多模态QA基准上，Latent Memory取得与先进RAG基线相当的问答性能，同时生成器token消耗减少3至10倍，并在WebQA上达到图像问答最强性能。代码已公开。

arXiv检索增强多模态论文/研究

11:56

HuggingFace Daily Papers（社区热门论文）

60

EEVEE：面向真实世界的测试时提示学习框架

EEVEE是首个面向LLM智能体的多数据集测试时提示学习框架，用于在真实任务流下自改进。为解决跨数据集干扰，它引入路由器将异构输入流划分到任务簇并分配适配提示配置，并通过路由器‑提示协同进化策略（交替执行路由器和提示学习阶段）优化二者依赖。实验表明，EEVEE在保持单基准学习能力与效率的同时，提升异构数据流鲁棒性：平均多基准得分比Qwen3-4B-Instruct高10.38分，比DeepSeek-V3.2高24.32分，超越SOTA方法GEPA和ACE最高达37.2%和48.2%。

智能体论文/研究

10:56

HuggingFace Daily Papers（社区热门论文）

60

强化学习中流策略的测试时梯度引导

QGF（Q-Guided Flow）是一种完全在测试时执行策略优化的强化学习算法。它先通过标准行为克隆预训练参考流策略和价值函数批评家，然后在测试时利用价值梯度引导参考策略生成更高价值的动作。在单任务和目标条件离线RL基准测试中，QGF优于先前的测试时强化学习方法，与最先进的训练时算法性能相当但运行成本更低，且通过避免演员-评论家训练的不稳定性展现了良好的模型规模扩展性。

具身智能论文/研究

10:56

HuggingFace Daily Papers（社区热门论文）

65

Workflow-GYM：面向真实世界专业领域长周期GUI智能体任务的基准

Workflow-GYM是专门评估AI智能体在专业领域和专用软件环境下执行长周期GUI任务的基准。实验表明，即使是最强模型，成功率也仅略高于30%，凸显出专业长周期GUI工作流对当前智能体的巨大挑战。进一步分析发现，智能体难以维持工作流一致性，频繁出现阶段遗漏、错误传播、目标漂移以及对专业软件环境理解不足等问题。这些发现揭示了当前智能体的局限性，并为下一代GUI智能体研究指明了关键方向。

智能体arXiv论文/研究评测/基准

10:56

HuggingFace Daily Papers（社区热门论文）

60

SCAIL-2：端到端上下文条件控制的角色动画统一框架

SCAIL-2 提出绕过姿态骨架等中间表示的端到端角色动画框架，通过直接拼接驱动视频获取全部视觉信息。为解决端到端数据匮乏，用解耦条件统一子任务，构建异构运动迁移数据集 MotionPair-60K。采用上下文掩码条件与模式特定 RoPE 作为软引导，并引入 Bias-Aware DPO 构建偏好对以缓解合成数据在细节区域的误差。实验表明，该方法在多个任务中显著优于现有 SOTA。部分合成数据与模型权重将开源。

图像生成视频论文/研究

10:56

HuggingFace Daily Papers（社区热门论文）

64

DLA：面向多状态线性注意力的动态内存建模框架

大语言模型长上下文扩展受限于标准注意力的二次复杂度。现有线性注意力多状态方法采用固定合并策略，无法适应token动态重要性，造成关键token丢失。DLA提出信息感知动态状态合并，根据token级信息变化自适应确定状态边界；并引入容量有界记忆建模，通过选择性合并相邻低信息状态维护固定大小缓存。DLA在两个线性注意力模型上预训练，在16个数据集上超越现有最优方法。

推理数据/训练论文/研究

10:56

HuggingFace Daily Papers（社区热门论文）

63

ARM：统一离散表示的自回归大型多模态模型

ARM是一种基于离散表示的自回归模型，将图像理解、生成与编辑统一在下一个token预测框架中。首先训练离散语义视觉tokenizer，通过多目标监督实现语义判别、语言对齐与忠实重建；然后在文本与图像token序列上训练7B自回归模型，自然融合视觉语言感知与生成能力；最后用强化学习优化文本到图像生成与指令引导编辑的偏好对齐，使WISE整体得分从0.50提升至0.56，GEdit-Bench-EN的G_O评分从5.75提升至6.68，并观察到跨任务协同效果。

arXiv图像生成多模态论文/研究

10:56

HuggingFace Daily Papers（社区热门论文）

64

当思维链更胜一筹：多轮推理模型中的失败模式

多轮推理模型的失败在终端评分中无法显现。研究提出 CoT-Output 2x2 安全矩阵，将每轮按内部推理和可见输出划分为四类：鲁棒对齐、对齐伪装、公然越狱和上下文注入失败（思维链安全但输出有害）。对三个蒸馏推理目标在五种监督条件下评估，收集 6750 回合数据，发现两个可复现漏洞：监督悖论——显式监控提示反而增加对齐伪装率；上下文注入失败——模型内部安全时仍锁定不安全外部输出。已发布完整数据集。

安全/对齐推理

10:56

HuggingFace Daily Papers（社区热门论文）

59

FlowTracer：追踪注意力诱导信息流的大语言模型强化学习框架

FlowTracer是一个针对大语言模型强化学习的框架，在注意力诱导的有向无环图上追踪从问题到正确答案的推理流。边容量来自聚合注意力权重，通过重新加权仅保留能到达答案区域的影响，并强制执行局部流守恒。提取信息流骨干，按流吞吐量对token评分，揭示高影响枢纽。重要性得分用于塑造token级奖励，使学习信号聚焦于路由信息的关键token，在多个推理任务上取得一致性能提升。

推理数据/训练论文/研究

09:41

Hacker News 热门（buzzing.cc 中文翻译）

61

大型语言模型能否超越经典的超参数优化算法？

一项研究将大型语言模型（LLM）应用于超参数优化任务，并与经典算法进行对比实验，检验 LLM 在该场景下是否具备超越传统方法的表现。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

重新思考LLM心理测量评估：自我报告何时及为何能预测行为

本研究对比大五人格与计划行为理论（TPB）在LLM自我报告与行为一致性上的表现。在四项行为任务与11个前沿LLM中，同一对话内TPB达到人类水平一致性，大五不能；跨对话时，仅对训练形成的隐性偏见等行为保持一致性，对上下文启动的谄媚等行为则崩溃；角色提示使自我报告更一致，但不改变行为。结论：粗粒度人格框架（如大五）不适合测试部署行为。

安全/对齐论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

50

静态（因此兼容）表示：你所需的一切

学习兼容表示旨在使模型更新后的特征表示可互换使用。实验证明，d-Simplex固定分类器学习的静态表示天然满足兼容性定义。针对顺序微调场景，交叉熵损失仅对齐一阶统计量，无法充分捕捉高阶依赖。通过交叉熵与对比损失的凸组合训练模型，既能捕捉高阶依赖，又等价于兼容约束下的交叉熵学习。实验表明，静态表示可在模型更新和替换时不需重新处理图库图像，实现无中断检索服务，并达到当前最优性能。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

TreeSeeker：树结构试错与返回的深度搜索框架

TreeSeeker是一种推理时框架，通过树结构状态组织深度搜索中的分支与回退。每回合利用文本UCB信号（价值、不确定性、风险）选择利用有前途的分支、探索不确定替代或剪枝无效路径并返回早期分支点。TreeMem将证据、不确定性、冲突、进度和失败线索附加到产生它们的分支上。在XBench-DeepSearch、BrowseComp和BrowseComp-ZH基准上，TreeSeeker持续优于强开源基线，表明显式的分支-回退控制可增强更强推理与工具执行能力。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

63

VIA-SD：通过模型内路由实现推测解码的验证

推测解码（SD）通过轻量草稿模型并行生成候选项、由大型验证器校验来降低LLM推理成本。现有方法采用二元决策：接受或完全重算。VIA-SD提出多层级框架，利用模型内路由从完整验证器中提取轻量子模型（slim-verifier），对中等置信度的草稿token进行再生，仅在不确定时调用完整模型。在四个代表性任务和多种模型族上，VIA-SD将拒绝率降低0.10–0.22，相比强SD基线实现10–20%加速，相比非推测解码实现2.5–3倍加速。该方法兼容现有SD框架，无需修改训练过程。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

59

从2D网格到1D token：改革多模态图像融合的共享表示

多模态图像融合现有方法基于2D特征网格，局部建模强但全局外观控制有限。本文引入紧凑1D token接口，基于冻结预训练图像tokenizer作为全局载体，同时保留2D空间路径恢复局部结构。提出选择性token编辑（STE），稀疏更新或替换关键token，在不改变融合主干、不引入额外损失下引导全局一致性。在四个基准上取得最佳整体性能，全局一致性和局部保真度均提升。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

PianoKontext：从平淡上下文中生成富有表现力的演奏

PianoKontext 是一种流匹配渲染模型，专为古典钢琴音乐设计，在预训练 Music2Latent 模型的潜在空间中生成可变长度的富有表现力演奏。该方法将 MIDI 乐谱合成为平淡音频，利用动态时间规整（DTW）在潜在空间中对齐乐谱与演奏数据，并将对齐的嵌入拼接至 DiT 块中，以简单有效的方式学习乐谱与演奏之间的依赖关系。演示音频见项目页面。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

65

Z-Image Turbo++：通过教师对齐的端到端蒸馏实现高保真两步图像生成

Z-Image Turbo++是从8步教师模型Z-Image Turbo蒸馏得到的2步图像生成模型。针对两步生成中任务难度提升和模型容量有限的瓶颈，提出三项设计：分布对齐对抗学习（以教师生成图像而非真实图像作为GAN训练的真样本）、步骤分离参数化（两个去噪步独立参数）、以及带迭代正则化的端到端训练（第一步接收最终图像质量梯度并保留有意义的中间生成）。这些策略显著缩小了2步与8步生成的质量差距。

arXiv图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

66

FORT-Searcher：抗捷径训练数据合成框架

FORT-Searcher 提出抗捷径训练数据合成框架 FORT，识别证据共覆盖、单线索选择性、暴露常数和先验知识绑定四种捷径风险，在实体选择、证据图构建、问题生成和对抗性精炼环节控制。实验表明，FORT 生成的数据比现有开源深度搜索数据集诱导更长的搜索路径和更少的捷径模式。仅用监督微调（SFT）训练的 FORT-Searcher 在多个深度搜索基准上达到同类开源搜索智能体的最佳整体性能。资源即将开放。

智能体GitHub搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

Evoflux：面向紧凑型智能体的可执行工具工作流的推理时进化

Evoflux是一种推理时进化搜索方法，通过结构化编辑、执行反馈、自适应强度、元引导重设计和多样性剪枝，将紧凑型语言模型的可执行工具工作流修复为可运行图。在覆盖250个工具和MCP服务器的MCP-Bench任务上，Evoflux将小型规划器的执行可行性从约3%提升至17-24%。相比之下，同一数据上的SFT和SFT+DPO表现持平、不如或崩溃至低于零样本水平；ReAct可达更高峰值但方差和token成本更高。结果表明，在稀缺教师轨迹预算下，基于执行反馈的搜索更可靠。

智能体MCP/工具论文/研究

05:55

HuggingFace Daily Papers（社区热门论文）

精选76

精确性不等于忠实度：完整Oracle下的覆盖感知接地生成评估

无参考忠实度度量仅衡量精确率（陈述是否被支持），鼓励模型少说甚至不说以获得高分。本研究利用F1遥测（确定性完整ground truth）和NOAA天气预报两个完整Oracle领域，证明此盲点：在多语言（EN/ES/PT）共7253个决策实例（覆盖150场比赛）的基准上，最精确的前沿模型仅覆盖不到一半相关事实，按F1排名垫底。引入覆盖度（召回率）后系统排序改变；显式要求详尽也无法弥补差距。作者提出将忠实度与覆盖度合并为单一分数，并给出无参考验证器引导生成方法，同时提升精确率和召回率。相关基准、标注、度量、基线及交互演示已开源。

论文/研究评测/基准

推荐理由：这个研究戳破了自动评估里 Faithfulness 的泡沫，指标只看模型「说对多少」不看「说全没有」，沉默的模型反而拿高分，以后评测不能只看精确度了，做评估的得补上覆盖度这一环。

05:40

Hacker News 热门（buzzing.cc 中文翻译）

57

Grep 真的就够了吗？代理框架如何重塑基于代理的搜索

该研究质疑在基于代理的搜索（agentic search）中“grep 是否足够”这一假设，并分析代理框架（agent harnesses）如何重新定义智能体搜索的交互方式与能力边界，推动搜索范式从简单工具调用向结构化代理行为演进。

智能体MCP/工具搜索论文/研究

03:55

Hugging Face：Blog（RSS）

精选67

Hugging Face 博客发布语音智能体代码切换基准测试

Hugging Face 博客发布针对语音智能体处理代码切换语音的基准测试。数据集覆盖西班牙语‑英语、法语‑英语、加拿大法语‑英语和德语‑英语四对语言，基于人力资源与IT服务管理场景构建。采用词错误率、语义词错误率和答案错误率三项指标评估七种ASR系统，包括AssemblyAI Universal 3-Pro、Deepgram Nova 3 Multilang、ElevenLabs Scribe V2、Gemini 3 Flash、Mistral AI Voxtral Small 24B-2507、Nvidia Parakeet TDT 0.6b V3和OpenAI Whisper Large V3 Turbo。主要发现：代码切换的转录成本因语言对和模型而异；ElevenLabs Scribe V2、Gemini 3 Flash和AssemblyAI Universal 3-Pro在所有指标上表现最佳。数据集和测试框架通过AU-Harness开源发布。

Hugging Face评测/基准语音

推荐理由：如果你在给多语言客户做语音Agent，这篇博客直接把主流ASR的code-switching能力测了一遍，ElevenLabs Scribe V2目前最强，还开源了数据集，拿来就能测自己的模型。

03:51

elvis@omarsar0

60

Self-Harness：可自我改进的智能体框架

当前多数智能体脚手架（scaffold）构建后保持静态。新研究Self-Harness将harness（提示词、工具、控制流）作为可学习的工件，通过自身运行迭代改进，而非手动维护的固定包装器。运行长周期智能体时，自我修改的harness将维护工作转化为系统自动获得的能力。论文：arxiv.org/abs/2606.09498。

智能体arXivMCP/工具论文/研究

01:37

Satya Nadella@satyanadella

62

今天在《自然方法》上，我们分享了关于AI如何帮助我们更好地理解细胞行为的研究，为癌症药物为何对每个人的效果不同提供了新的见解。通过学习更多关于细胞状态--单个癌细胞如何响应周围环境--我们有可能更精确地为每位患者匹配疗法并改善结果。https：//news.microsoft.com/signal/articles/why-dont-cancer-medicines-work-the-same-for-everyone-ex-vivo/

Microsoft其他数据/训练

00:46

AK@_akhaliq

56

SWE-Explore 评估编码智能体如何探索仓库

智能体编码论文/研究评测/基准

00:46

AK@_akhaliq

57

关于在策略蒸馏的几何

数据/训练论文/研究

00:46

AK@_akhaliq

66

视频世界模型的潜在空间记忆

arXiv多模态视频论文/研究

00:35

Microsoft Research@MSFTResearch

63

在《Nature Methods》上发表的最新研究来自Project Ex Vivo，表明AI模型从多样化的细胞状态中学到的知识，比仅从规模化数据集中学到的更多，这一发现可能重塑疗法与患者的匹配方式。https：//msft.it/6013vgE8l

Microsoft数据/训练论文/研究

00:16

AK@_akhaliq

51

SpatialWorld 评测多模态智能体在真实世界任务中的交互式空间推理能力

智能体Hugging Face多模态论文/研究