AIHOT

全部动态一手 · 2387 条

全部一手资讯 X 论文

6月5日周五

6月4日周四

6月5日

13:42

公众号：昆仑万维（天工）

42

央视财经专访昆仑万维解锁AI商业化降本增效新范式

近日，央视财经频道报道昆仑万维AI智能体落地成果。天工超级智能体具备自主迭代能力，能理解图像内容，十几分钟完成室内设计方案。昆仑万维CEO方汉称，用SkyReels视频大模型制作短剧成本下降20倍。同期发布高性能Agent模型SkyClaw-v1.0及轻量化版SkyClaw-v1.0-lite，支持百万token上下文，优化复杂工具调用、多轮任务执行、代码生成与交互式应用构建。

智能体行业动态

13:27

公众号：京东JoyAI

精选72

京东开源JoyAI-Echo长音视频生成框架

6月3日，京东开源JoyAI-Echo框架，解决长视频生成中角色身份崩坏、音色突变和生成缓慢三大难题。该框架通过跨模态音视频记忆库保持5分钟内角色外观与音色一致，记忆驱动后训练结合DMD技术带来约7.5倍推理加速。新增Director Agent支持自然语言对话式局部修订，无需重跑整条视频。配套轻量化实时超分模块，支持736×1280→1152×1920及1472×2560两档分辨率。评测集显示，语音内容准确率0.8646，用户偏好多项领先。代码与权重已开源至GitHub。

GitHub多模态模型发布

推荐理由：长视频生成一直被角色崩塌和龟速生成卡死，JoyAI-Echo 开源给出了角色一致性方案和 7.5 倍加速，Director Agent 对话式编辑的思路很先进，做 AI 视频的朋友可以直接去 GitHub 开跑。

11:04

公众号：腾讯元宝

55

全网@元宝总结实录：汤道生、姚顺雨对谈AI下半场

汤道生与姚顺雨在2026AI产业应用大会上围绕AI下半场展开对谈，腾讯元宝AI录音笔提供全程完整实录。

大佬观点现象/趋势

10:24

公众号：龙猫LongCat（美团）

55

ACL'26美团技术团队6篇论文入选：聚焦大模型评测与推理优化

美团技术团队在ACL'26上分享6篇论文，涵盖代码评测、复杂流程推理、数学竞赛、过度思考分析、推理后训练优化及生成式推荐。CoreCodeBench从12个开源库生成1524个结构化任务，有效性达78.55%；SOP-Maze基于真实业务构建397个流程实例，测试显示前沿模型存在流程遵循、对话脆弱性和计算错误三类短板；AMO-Bench含50道高难度数学题，最强模型准确率仅52.4%；The Evolution of Thought提出推理完成点（RCP）检测器减少冗余生成；MASPO通过软高斯门控等优化推理后训练，提升Avg@32和Pass@32；FLR将隐式推理分解为多维偏好因子，平均提升3.2%。

开源/仓库推理论文/研究评测/基准

10:24

公众号：龙猫LongCat（美团）

45

美团LongCat大模型人才校招全球启动

美团LongCat大模型启动全球人才校招，面向全球招募人才，目标是构建从数字世界到物理世界的全球标杆AGI，欢迎加入。

数据/训练行业动态

09:28

Gary Marcus：The Road to AI We Can Trust（RSS）

24

Gary Marcus：无需恐慌Anthropic新博客

Anthropic发布最新博客后，推特圈热议不断。Gary Marcus在其博客中直接以“无需恐慌”为题发文，暗示不必过度反应。

Anthropic大佬观点

09:00

公众号：千问APP（阿里）

精选62

千问联合人民日报健康发布《2026 AI健康助手使用指南》

千问联合人民日报健康共同发布业内首份《2026 AI健康助手使用指南》，由北京协和医院、积水潭医院、广安门医院等20位主任医师参与审核。指南基于千问每天回应数千万次健康咨询的真实经验，将AI在健康生活中的核心价值归纳为五个角色：日常预防的健康管家、症状判断的安全守门人、就医过程的就诊小助手、读懂报告的健康档案员、康复与情绪的陪伴者。千问提醒，AI不能替代医生，出现紧急情况需直接就医。

教程/实践

推荐理由：千问和人民日报健康搞的这份指南，协和、积水潭等20位主任医师参与审核，把AI在健康咨询里能干什么梳理得很清楚，普通人有小毛病时知道怎么问、什么时候该直接去医院，实用。

09:00

公众号：腾讯元宝

志愿填报有点懵？问问元宝高考通！

06:28

OpenRouter：Announcements（RSS）

精选66

OpenRouter 翻遍 11 款 LLM 找最快的决策模型：Claude vs. Grok 领衔

OpenRouter 用总价 482 美元的推理花费，让 11 款大语言模型在 30 轮实时决策的“大逃杀”挑战中正面竞争。实验结果表明，传统的静态 benchmark 排名无法反映模型在需要即时反应的智能体任务（如自主控制机器人）中的真实表现，Claude 和 Grok 系列模型在决策速度与任务成功率上表现突出，而多项高分模型的实时调度能力未达预期。

智能体评测/基准

关联讨论 1 条

推荐理由：OpenRouter 让 11 个模型打了 30 局生存竞技，发现直播胜率和榜单差异很大，以后选模型不能只看跑分，得看它在压力下用谁的脑子。

06:04

Claude Code：GitHub Releases（RSS）

精选70

Claude Code v2.1.163 发布

新增 `requiredMinimumVersion` 和 `requiredMaximumVersion` 托管设置，版本超范围时拒绝启动并引导用户使用经批准版本。新增 `/plugin list` 命令及 `--enabled`/`--disabled` 筛选；`/btw` 添加 "c to copy" 快捷键，复制原始 markdown 答案到剪贴板。Hooks 方面，Stop 和 SubagentStop 可返回 `additionalContext` 给 Claude 反馈并保持对话。Skills 新增 `\$` 转义语法，支持在命令中数字前使用字面 `$`。stdio MCP 服务器在 `--resume` 时接收与 hooks/Bash 相同的 `CLAUDE_CODE_SESSION_ID`。修复了 `claude -p` 永久挂起、`$TMPDIR` 被覆盖、Windows 上 session-env 目录 EEXIST 错误、后台 agent 会话在更新后自动升级等多处问题。

Anthropic产品更新编码

关联讨论 2 条

推荐理由：Claude Code 这次的版本管理设置对团队标准化很关键，plugin list 命令也让插件管理顺手多了，但这种工具更新属于用的人自然懂，不是所有人都需要关注。

05:56

Ethan Mollick：One Useful Thing（RSS）

精选73

共存与协同智能的终结

Ethan Mollick 在 One Useful Thing 博客中，以“共存与协同智能的终结”为题，并附带介绍了如何向 AI 推销一本书。

智能体大佬观点

推荐理由：Ethan Mollick 宣告「协同智能」时代结束，这个判断如果成立，所有依赖人机协作的产品设计都得重新思考。他的观点总是超前的，这篇值得点开看看。

04:53

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选61

OpenAI 发布《智能时代的生物防御》行动计划，以 AI 驱动生物韧性

OpenAI 提出一项名为“Biodefense in the Intelligence Age”的行动计划，旨在利用 AI 增强生物防御与韧性。该计划聚焦于构建 AI 驱动的生物安全能力，以应对未来可能出现的生物威胁。

OpenAI安全/对齐行业动态

推荐理由：OpenAI 第一次系统性地提出用 AI 增强生物安全韧性的路线图，不是模型发布，但对政策制定者和生物安全圈是必读文件。

04:25

Google Research：Blog（网页）

精选79

Google Research 发布被动心率监测系统 PHRM

Google Research 开发了一种被动心率监测系统（PHRM），利用智能手机前置摄像头在日常使用中（人脸解锁后数秒内）捕捉面部视频，通过深度学习估算心率，平均绝对百分比误差（MAPE）低于10%（对比心电图金标准），满足各肤色人群的行业精度标准。系统将全天心率测量整合为每日静息心率（RHR），平均绝对误差（MAE）低于5 bpm（对比可穿戴设备）。研究同时发布了迄今最大规模的公开智能手机视频数据集及预训练模型PHRM-mini，合格研究人员可申请访问。

Google数据/训练端侧论文/研究

推荐理由：Google 这项发表在 Nature 上的研究，把手机前置摄像头变成了被动心率仪，而且专门解决了深肤色人群精度差的老问题，虽然离产品还远，但方向很对，穿戴设备的护城河可能又浅了一点。

03:43

Hugging Face：Blog（RSS）

精选78

Nemotron 3.5 Content Safety：面向全球企业AI的可定制多模态安全

Nemotron 3.5 Content Safety基于Gemma 3 4B IT，提供128K上下文窗口，支持用户提示、可选图像与助手响应的统一多模态安全评估。新增自定义策略执行，允许企业用自然语言定义专属安全规则；THINK模式可输出可审计的逐步推理痕迹。显式训练覆盖12种语言，并借助基座模型零样本泛化至约140种语言。输出提供低延迟二分类、带分类标签、THINK推理痕迹三种模式。安全分类遵循Aegis 2.0框架（13核心类别+10细分类别）。同步发布多模态、多语言安全数据集，可在8GB+ VRAM GPU上实时部署。

Hugging Face多模态安全/对齐开源/仓库

推荐理由：Nemotron 3.5 把内容安全从「单模态英文」拉到「多语言多模态可定制」，自定义策略和推理 trace 让企业能审计决策，做安全平台的值得细看。

01:57

Anthropic：The Institute（旗舰研究长文 · 网页）

精选82

AI加速自我构建：Anthropic研究院报告揭示趋势

Anthropic研究院报告指出，AI正加速AI开发：2021–2025年间工程师人均季度代码量提升8倍，截至2026年5月超80%合并代码由Claude生成。Claude Opus 3（2024年3月）可完成约4分钟软件任务，Claude Sonnet 3.7（2025年3月）提升至1.5小时，Claude Opus 4.6（2026年3月）可处理12小时任务。SWE-bench两年内从低个位数得分饱和；CORE-Bench约20%正确率在15个月后饱和。METR测试显示Claude Mythos Preview可连续工作至少16小时。但AI自主设定目标的能力仍存显著差距，完全自主递归自我改进尚未实现。

智能体Anthropic安全/对齐现象/趋势

关联讨论 9 条

推荐理由：Anthropic首次披露AI辅助开发的内部数据，8倍代码产出、AI自动审查bug，趋势直指完全自主AI的临界点，每个开发者和政策制定者都需要读。

01:03

Dwarkesh Patel：Podcast & Blog（RSS）

精选62

Alex Imas 和 Phil Trammell：AGI 后什么仍然稀缺？

经济学家 Alex Imas 和 Phil Trammell 指出，AGI 时代机器人数量可以快速复制增长，但人类独特技能（以芭蕾舞演员为例）的数量保持不变，揭示了即使技术大幅进步，某些稀缺资源仍不可替代。

大佬观点现象/趋势

推荐理由：Dwarkesh Patel 这次请的经济学家的访谈，把 AGI 后的稀缺性问题从哲学拉回现实。如果你在思考 AI 对就业和资产的影响，这篇比大多数技术博客更接近答案。

00:53

LMSYS：Blog（Chatbot Arena 团队）

精选77

Boson AI 与 LMSYS 发布基于 SGLang-Omni 的 Higgs Audio v3 TTS 端到端服务

Boson AI 与 LMSYS 联合推出基于 SGLang-Omni 推理框架的 Higgs Audio v3 TTS 端到端服务。该模型约 4B 参数，基于 Qwen3-4B 骨干，支持 100 种语言（内部评测覆盖 111 种），在 Seed-TTS、CV3、MiniMax-Multilingual 及 Higgs-Multilingual 零样本语音克隆任务中达到单字级 WER/CER。开发者可通过文本内控制标签实时调整情感（20+种）、风格、韵律（语速/音高/停顿）及音效。模型支持流式合成，文本未完整时即可开始生成语音并保持一致性。SGLang-Omni 专为多阶段生成模型设计，统一调度 AR 解码与轻量计算，实现低延迟推理。

开源/仓库教程/实践语音部署/工程

推荐理由：Higgs v3 把多语言和实时可控制整合进一个流式 TTS 模型，SGLang-Omni 为它搭好了多阶段推理的底座，做语音 Agent 的可以直接抄作业，这比多数论文落地快半拍。

00:05

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选77

Dreaming： ChatGPT 推出更强的记忆系统，更好记住用户偏好

ChatGPT 推出名为 Dreaming 的新记忆系统，能够更有效地记住用户偏好，并在跨对话场景中保持上下文的新鲜感和相关性，从而提升助手的个性化体验。

智能体OpenAI产品更新

关联讨论 7 条

推荐理由：ChatGPT终于把记忆升级了，它不再每轮对话都像失忆的金鱼，做长期助手的用户会明显感觉到不同。不止记住偏好，还能跨对话保持上下文，这比很多同类产品都进一步。

00:00

GitHub Blog

53

GitHub Universe 回归：齐聚智能体时代

GitHub Universe 2026 将于 10 月 28–29 日重返旧金山 Fort Mason Center，主题聚焦智能体（agentic）时代。

GitHub开源生态行业动态

00:00

LMSYS：Blog（Chatbot Arena 团队）

精选62

不再遗漏任何Token：解析Miles中的Token-In-Token-Out（TITO）

Miles框架提出Token-In-Token-Out（TITO）原则，解决智能体强化学习中训练-推理不匹配：确保rollout过程token序列与训练器评估序列逐位一致。TITO将多轮轨迹视为一个连续序列（每任务一个样本），节省一个数量级计算开销并维持on-policy性。三种破坏场景：反分词-再分词不匹配、聊天模板修剪推理内容、有损模板重新渲染。Miles通过推理会话服务器、三级只追加保证、可插拔TITO分词器和序列比较器实现。典型任务（如SWE-Bench）轨迹含30-50轮。

开源生态数据/训练论文/研究

推荐理由：LMSYS团队把agent RL里最隐秘的训练-推理不一致问题解释透了，TITO原则直接告诉你为什么之前训练不稳，做agent训练的都该看看这篇。

6月4日

23:42

Hugging Face：Blog（RSS）

精选66

Hugging Face 为编码智能体重塑 hf CLI 输出格式

Hugging Face 重新设计 hf CLI，使其同时服务人类用户和编码智能体（Claude Code、Codex 等）。CLI 通过环境变量自动检测智能体驱动，输出紧凑无截断的 TSV 格式，避免 ANSI 和交互提示，大幅降低 token 消耗。复杂多步任务中，不使用 CLI 的智能体 token 消耗最高达 hf CLI 的 6 倍。2026 年 4 月起，Hugging Face 追踪 Hub 智能体流量，Claude Code 约 4 万用户、近 4900 万次请求，Codex 紧随其后。

Hugging FaceMCP/工具产品更新编码

推荐理由：HF CLI 现在会自动检测 agent 并切换输出，复杂任务上 token 消耗比 curl/SDK 节省 2-6 倍。如果你在用 Claude Code 或 Codex 操作 Hugging Face Hub，这是必读的升级指南。

21:42

Hugging Face：Blog（RSS）

精选75

Nemotron 3.5 ASR：为你的语言、领域或口音进行微调

Nemotron 3.5 ASR 是一个 600M 参数的多语言流式语音识别模型，单个检查点覆盖 40 种语言-地区（含英、西、德、法、意、日、韩、中、阿拉伯等）。采用 Cache-Aware FastConformer 编码器与 RNNT 解码器，缓存内部状态避免重复计算，实现低延迟流式转录且不损失精度。模型原生输出带标点和大写的生产级文本，无需后处理。支持指定语言（target_lang=es-ES）或自动语言检测（target_lang=auto）。通过注意力上下文大小（att_context_size）可在推理时直接调节延迟-准确率权衡，范围从 80ms 到 1.12s，无需重新训练。模型以 NeMo 检查点形式发布，可用于微调以适配特定语言、领域或口音。

教程/实践语音

推荐理由：一个模型搞定40种语言的实时语音转文字，NVIDIA还给了完整微调代码和实测数据，做语音Agent和字幕的可以照着抄作业。

21:07

公众号：百度智能云（文心）

53

全灵（SEELE AI）联合百度智能云推出MoT大模型，一句话生成可玩世界

全灵（SEELE AI）推出自研MoT（Mixture-of-Transformers）多模态大模型，围绕游戏世界训练，模型内部同步学习“看懂世界”与“生成世界”。数据层构建3000万+独家空间语义数据对，标注空间关系、物体属性和交互规则。百度百舸AI计算平台提供训练调度、GPU管理、故障诊断及推理加速等底层支撑。全灵已上线“都市射击”“CS重制版”“城市冒险”等可玩Demo，玩家可在AI生成的城市中移动、跳跃、瞄准、换弹，与NPC互动；内测中的3A Open-World由4D World Model驱动，目标实现真正可玩的开放世界。

智能体多模态行业动态

21:07

公众号：百度智能云（文心）

35

百度伐谋助力北京工业大学攻克三大科研难题

北京工业大学苗扬团队借助百度伐谋（全球首个可商用自我演化决策智能体），在三个高可靠性科研场景实现突破：空间站色谱柱构型优化中，72小时演化出新构型，归一化误差降低8.17%，体积缩小40%，分离效率提升3倍；PEM电解槽故障检测准确率从92.26%提升至95.04%，综合评分升至0.9383，建模周期从数天压缩到小时级；旋转机械故障诊断准确率从98.9055%提升至99.9877%，预测误差降至原来1%，参数量下降34%。科研人员用自然语言描述目标和约束，伐谋自动演化逼近全局最优解。

智能体教程/实践

21:00

公众号：昆仑万维（天工）

精选64

SkyClaw-v1.0 深度实测：Agent专属模型，顶尖性能表现，极致价格优势

5月26日，昆仑万维发布SkyClaw-v1.0，定位面向复杂工具使用和真实世界任务执行的高性能Agent模型，输入仅0.5元/百万token、输出4元/百万。实测显示，其从零生成番茄钟和记账本应用时，能自主用Web Audio API合成音效、用SVG手绘图表，细节处理成熟。在现有代码库修改任务中，越难的任务表现越好：单点bug修复精准，能准确诊断iOS Safari滚动问题并给出克制式修复方案。但官方未报告SWE-bench成绩，表明其优势集中在从零生成与模式匹配场景，而非大型仓库精确修改。极致低价使其在批量Agent任务与快速原型生成上性价比突出。

智能体编码评测/基准

推荐理由：这篇实测把SkyClaw的「从零生成」和「老项目修改」摊开了揉碎了测，不看广告看疗效，让我看清Agent模型的分化到底意味着什么——便宜好用但有边界，想省钱做小工具的你值得细读。

20:52

LMSYS：Blog（Chatbot Arena 团队）

81

SGLang 和 Miles 即日支持 NVIDIA Nemotron 3 Ultra

SGLang 与 Miles 在发布首日即支持 NVIDIA Nemotron 3 Ultra。该模型为开放前沿推理模型，总参数 550B、激活参数 55B，采用混合 Transformer-Mamba 架构的 MoE，支持最长 1M token 上下文。针对长运行自主智能体优化，具备工具调用、编码、深度研究与编排能力，后训练使用多环境强化学习（NeMo RL）。SGLang 提供高性能推理，支持 NVFP4 和 BF16 精度，NVFP4 检查点可在 Blackwell GPU 运行；Miles 支持强化学习工作流。模型权重、数据与配方均开源。在智能体生产力、指令遵循与长上下文任务上准确率领先，成本节省高达 30%。

智能体开源生态推理模型发布

关联讨论 5 条

20:42

Hugging Face：Blog（RSS）

精选65

EVA-Bench Data 2.0 发布：覆盖三大领域、121 个工具、213 个场景

EVA-Bench Data 2.0 将评估范围从单一企业领域扩展至航空公司客户服务管理（CSM）、企业 IT 服务管理（ITSM）和医疗 HR 服务交付（HRSD）三个领域，共涵盖 121 个工具、213 个场景，场景数较原始版本增长约 4 倍。每个场景均经 OpenAI GPT-5.4、Google Gemini 3.1 Pro 和 Anthropic Claude Opus 4.6 验证可解性。数据集遵循语音优先、真实性、多样性、认证流程和可复现性五项设计原则，包含单意图、多意图（最多 4 个意图）和对抗性呼叫类型。所有三个数据集已开源，可通过 `load_dataset` 从 Hugging Face 直接下载。后续将推出多语言扩展。

开源/仓库论文/研究评测/基准

推荐理由：语音代理评测缺的就是这种真实场景的数据集，EVA-Bench 2.0 把航空、IT、医疗三个最棘手的领域打包了，生成流水线也开源，做评测的可以直接拿来用。

20:00

OpenRouter：Announcements（RSS）

54

OpenRouter 横评 11 款 LLM 机器人冲刺对决：Claude 与 Grok 谁更胜一筹？

OpenRouter 在 30 场机器人冲刺对决中测试了 11 款大语言模型，共耗 482 美元推理成本。结果指向一个发现：应该重新审视模型 benchmark 的解读方式。

智能体推理评测/基准

19:42

Hugging Face：Blog（RSS）

精选68

Nemotron 预训练的任务种子合成问答生成

在 Nemotron-3 Nano 模型的 100B token 续训练实验中，任务种子合成数据生成（Task-Seeded SDG）使 MMLU-Pro 提升 1.8 分，平均代码提升 1.9 分，常识理解提升 1.6 分，GPQA 提升 11.1 分，数学成绩保持稳定。该流程利用 lm-eval-harness 中约 70 个公开任务（约 700 子任务）的训练集作为种子，生成新示例并补充推理和上下文，经过格式校验、去重和答案验证后得到精选合成数据集，用于 Nemotron Ultra 和 Super 训练。

推理数据/训练论文/研究

推荐理由：NVIDIA 公开了 Nemotron 训练中造合成数据的详细方法论，用 70 个公开任务训练集做种子生成新题目，100B token 实验把 GPQA 拉高 11 个点，做预训练的人值得看看他们怎么造的数据。

18:25

公众号：面壁智能（MiniCPM）

42

智能座舱卷到头了？这份白皮书给出了答案

多模态现象/趋势端侧

16:47

OpenAI：官网动态（RSS · 排除企业/客户案例）

29

Endava 围绕 AI 智能体重塑软件交付

全球 IT 服务公司 Endava 利用 OpenAI 的 AI 智能体、ChatGPT Enterprise 和 Codex 加速软件交付与自动化工作流。ChatGPT Enterprise 帮助开发者提升代码质量、缩短上线时间，AI 智能体负责处理重复性任务，从而在企业内部构建 AI 原生文化。

OpenAI行业动态

14:18

公众号：千问APP（阿里）

49

肯德基Skill接入千问，点疯狂星期四直接到店取

全国1.3万多家肯德基门店以第三方Skill形式接入千问APP。用户对千问说出“帮我点附近肯德基的疯狂星期四，到店取”即可自动匹配门店与套餐，并显示距离和取餐时间。千问还与肯德基会员权益打通，下单时自动使用大神卡及匹配的优惠券。

MCP/工具产品更新

11:00

公众号：火山引擎

48

中国美术学院×火山引擎：高质量数据集赋能普通人专业作画

中国美术学院与火山引擎联合开发「中国画创作平台」，通过6个月数据治理，将约3000张国画梳理为7维度结构化标签数据集，一次性标注通过率约95%。采用模型后训练技术，将国画鉴赏逻辑、创作理论注入豆包大模型和Seedream图像创作模型，封装为低门槛智能体。用户通过基础生成、修改调整、氛围添加三步操作，几分钟即可完成国画创作。智能体支持文生图、图生图，可集成至小程序、交互大屏，应用于教学、文创开发等场景。

产品更新图像生成多模态

10:58

xAI：News（网页）

精选72

Grok 成为 Vapi 的默认语音引擎

xAI 宣布与 Vapi 合作，Grok 将作为 Vapi 平台上 12 种核心语音的默认引擎，覆盖超过 250 万个语音智能体。在 Vapi 独立盲测中，Grok Voice 位列第一；X 平台上的人机语音盲猜中，超 4500 名用户有一半无法区分 Grok 与真人。现在，Grok Speech-to-Text 和 Text-to-Speech 已集成至 Vapi Dashboard，团队还可通过 Grok Voice API 获取高级定制选项（含语音克隆），用于旁白、播客、广告等场景。

xAI行业动态语音

关联讨论 1 条

推荐理由：xAI 把 Grok 的语音能力直接接入了 Vapi，250 万+语音代理一夜升级，语音交互的“自然度”竞赛从实验室卷到了生产环境。

10:01

公众号：阶跃星辰（Step）

45

阶跃 Step 3.7 Flash 拿下 Artificial Analysis 多个第一

阶跃星辰的 Step 3.7 Flash 在 Artificial Analysis 最新榜单中多项关键维度领先。其输出速度达 409 tokens/s，位列主流模型第一；端到端响应时长仅 7.1 秒；智能效率与速度价格比均进入最吸引人的象限。模型在搜索、代码、多模态理解和 Agent 工作流中保持稳定表现，兼顾速度、智能与成本，适合大规模商业化部署。

智能体推理评测/基准

09:28

xAI：News（网页）

精选75

xAI 发布 Grok Imagine 1.5 预览版（图像转视频模型）

xAI 通过 API 发布了图像转视频模型 `grok-imagine-video-1.5-preview`（Grok Imagine 1.5 预览版）。该模型能将单张静态图片转为流畅的电影感视频，用户提供起始帧和描述运动的提示词后，模型可生成包含相机移动、氛围和物理效果的动画，并保持对源图像的忠实。支持生成 720p 片段，可使用自然语言指令控制镜头、节奏和音效，并支持逐帧拼接成长场景。模型目前通过 xAI API 提供预览使用。

xAI多模态模型发布视频

关联讨论 1 条

推荐理由：xAI的新视频模型从单张图像生成电影级短片，支持自然语言控制运镜和氛围，对视频创作者和开发者是个值得一试的工具。

07:26

OpenAI：官网动态（RSS · 排除企业/客户案例）

42

Wasmer 使用 Codex 构建边缘 Node.js 运行时

Wasmer 借助 Codex（基于 GPT-5.5）构建了一个用于边缘计算的 Node.js 运行时，将开发速度提升 10 到 20 倍，交付周期从数月缩短至数周。

OpenAI教程/实践编码

05:58

Claude Code：GitHub Releases（RSS）

精选59

Claude Code v2.1.162 发布

Claude Code v2.1.162 发布，主要包含 Bug 修复和体验优化。`claude agents --json` 新增 `waitingFor` 字段，`/effort` 命令确认级别持久化，远程控制固定底部显示，`/ide` 菜单中 Windsurf 更名为 Devin Desktop。修复了配置文件只读导致启动黑屏、Windows 权限规则不匹配、LSP 的 `workspaceSymbol` 无结果、API 400 错误、MCP 超时低于 1000ms 被截断等十余项问题。

智能体Anthropic产品更新编码

关联讨论 2 条

推荐理由：一系列扎实的修复，尤其是 Windows 权限匹配和启动挂死问题的解决，对于日常用 Claude Code 做开发的来说稳定性提升明显，可以升级。

04:26

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选71

GPT-Rosalind 新功能发布

GPT-Rosalind 在生命科学研究领域推出新功能，增强了生物推理、药物化学专业知识、基因组学分析以及实验工作流处理能力。

OpenAI推理模型发布

关联讨论 3 条

推荐理由：GPT-Rosalind 的这次更新把生物推理和药物化学能力做实了，对生命科学领域的人来说，可能比通用模型升级更关键。

04:15

Cursor Blog

精选60

Cursor Enterprise 推出 Organizations 组织管理功能

Cursor Enterprise 正式推出 Organizations 结构，允许企业在统一面板中管理多个团队。每个团队可独立设置预算、安全策略、模型访问和功能控制。新增 Groups 作为跨团队或团队内的轻量级用户集合，用于分段管理模型访问、花销上限和智能体权限，不同设置取最宽松权限生效。管理员可创建沙箱团队预先测试新功能，再向全公司推送；也可按部门划分模型访问和预算。组织级仪表盘汇总所有团队的 token 用量与花费，支持按团队、用户等维度筛选。身份提供商和 SCIM 目录在组织层面一次配置，成员自动同步。该功能现已全面开放给所有 Enterprise 客户。

智能体产品更新编码

推荐理由：这是 Cursor 企业版在治理能力上的关键补丁，把多团队预算、模型权限和沙盒测试管了起来，对想把 AI 编程推到千人规模的团队是实打实的基建更新。