AIHOT

全部动态一手 · 2387 条

全部一手资讯 X 论文

6月8日周一

6月7日周日

6月6日周六

6月5日周五

6月8日

19:12

公众号：火山引擎

火山方舟Coding Plan与Agent Plan升级，限时2.5折

火山方舟Coding Plan与Agent Plan升级，集成MiniMax M3、DeepSeek V4系列、GLM-5.1等多款三方模型。即日起至2026年8月7日，新购/升级/续费40元、200元档位可享首两月2.5折（9.9元/月、49.9元/月）。MiniMax M3为新一代旗舰，支持100万token上下文窗口及原生多模态理解。Agent Plan为业界首个Agent套餐包，整合字节自研Seed系列模型与Harness工具，免费提供联网搜索和Embedding记忆能力，可配合Claude Code、OpenClaw、TRAE等工具使用。

智能体DeepSeek产品更新多模态

18:00

公众号：通义实验室（千问）

精选68

Agent 辅助开发，一站式打通 Qwen3-VL Android 端侧推理

通义实验室教程演示了如何用 Agent（Qoder）辅助完成 Qwen3-VL-2B 模型在 Android 端侧的全流程部署。操作包括：检查 JDK 21、NDK 27、CMake 3.18.1 等环境；创建 arm64-v8a 的 Native C++ 工程（minSdk 29、compileSdk 35）；通过 ModelScope CLI 下载约 1.4GB 的 MNN/Qwen3-VL-2B-Instruct-MNN 模型；编译开启 LLM 视觉支持（MNN_BUILD_LLM、LLM_SUPPORT_VISION）的 libMNN.so；构建 APK 并推送模型至手机私有目录。最终 App 提供图文推理页面，输出 MNN 版本（v3.5.0）、ABI 及推理指标。所有繁琐步骤均可由 Agent 自动执行。

多模态推理教程/实践端侧

推荐理由：用Agent辅助走通Qwen3-VL安卓端侧推理全流程，从环境搭建到JNI桥接一步到位。如果你在做移动端AI应用，这可能是目前最详细的实战指南，可以直接抄作业。

17:32

公众号：生数科技（Vidu·视频）

精选65

生数科技与华策影视达成战略合作，共建AI视听创制中心

6月7日，生数科技与华策影视签署战略合作协议，共同推动AI与影视产业融合。双方将以华策影视科技产教示范区为载体、生数科技Vidu视频生成大模型为技术底座，设立“AI视听创制中心”，探索AI虚拟制作与实拍结合。同时在浙江华策影视学校设立“华策&生数AI影视创制专业”，课程覆盖传统编导剪与AI视频制作技术。内容生产层面推广“实拍+AI”融合方案并优先在华策项目中试点，创作者生态层面引导Vidu社区超级创作者到产教基地注册。

行业动态视频

推荐理由：AI 视频不再只是跑 demo，Vidu 和华策的合作把生成模型拉进了真实生产流程，做影视的人该开始关注落地速度了。

10:59

LMSYS：Blog（Chatbot Arena 团队）

LMSYS 2026 年博士奖学金首位获得者：Will Lin

LMSYS 宣布 2026 年博士奖学金首位得主 Will Lin。他是加州大学圣地亚哥 Hao AI 实验室六年级博士生，领导开源框架 FastVideo（GitHub 3.7k+ 星标），已被 NVIDIA Dynamo 集成，其模块化流水线影响 SGLang 等多模态生成设计。奖学金最高 5 万美元。他的研究覆盖生成式视频与世界模型全栈，包括稀疏注意力、量化、蒸馏、后训练、实时推理，共同主导首个交互延迟 1080p 文图到音视频生成流水线，近期包括自回归世界模型训练。他曾于 Anyscale 实习，现于 NVIDIA 实习推动产业合作。

开源生态行业动态

03:50

Hugging Face：Blog（RSS）

Amazing Digital Dentures（一个失败的项目）

受《神奇数字马戏团》启发，作者尝试用 Nemotron 30b 构建一个数字宠物，自动生成以 Three.js 实现的冒险游戏，起初作为过度工程化的待办列表，后转向纯冒险生成。长提示、技能卡及 RAG 方案均未产出可运行游戏（常出现空白屏幕）。项目最终转型为简单的 HTML 玩具制作器，能一次生成时钟、待办列表、贪吃蛇、打砖块，但俄罗斯方块等复杂项目仍会崩溃。作者正寻求新方向。

其他编码

6月7日

23:36

Gary Marcus：The Road to AI We Can Trust（RSS）

精选67

Slop、生产力，以及为何AI驱动的世界进展甚微

Gary Marcus在金融时报上看到John Burn-Murdoch的一张图表，认为它精准提炼了自己一直试图表达的观点。

大佬观点现象/趋势

推荐理由：Gary Marcus用一张图把AI的「生产力幻觉」撕了个干净，虽然他一向毒舌，但这次数据确实让我没法反驳，做AI产品和战略的可以看看这个反共识视角。

19:50

Hugging Face：Blog（RSS）

Hugging Face黑客马拉松：OpenAI Codex及Modal voucher激活问题与Codex Track参赛要求

用户在Hugging Face黑客马拉松中获得OpenAI Codex和Modal的voucher，Modal的voucher在第二次尝试后已确认激活，但Codex的voucher无处填写激活码。该赛事设有OpenAI Codex Track专项奖：前3名作品共获10,000美元现金及ChatGPT Pro订阅，由Codex本身作为裁判评分，依据Codex使用质量及整体Space质量。参赛要求：使用Codex作为编码智能体构建Space，代码推送至公开GitHub仓库（需含Codex-attributed commits），并在Space README中添加仓库链接。

OpenAI行业动态

18:50

Hugging Face：Blog（RSS）

精选70

Her · हेर - Claude Code 会话分析工具

Her（हेर）是专为 Claude Code 设计的会话分析工具。用户上传 `.jsonl` 文件后，Her 用自然语言重建每轮交互，标记部署、配置变更、秘密等高风险操作并定位到具体轮次。它展示 token 消耗、所用工具、子智能体、技能和 MCP 服务器，并结合 Anthropic 与社区最佳实践给出改进建议（仅在有明确可修复模式时）。内置“Ask Her”问答功能，支持单会话与跨会话项目分析。工具不调用第三方 AI API，使用 Nemotron-Mini-4B-Instruct 模型在 Hugging Face ZeroGPU 上运行，评估引擎完全确定，模型仅负责文本生成与建议。Her 内置 Homebrew、npm、PyPI 主流 CLI 工具数据库，自动识别会话中使用的工具，并对部署工具、数据库客户端等执行活动进行标记提醒。

智能体Hugging Face产品更新编码

推荐理由：每次 Claude Code 跑完都留下一堆 JSON，没人看。Her 用一个本地小模型帮你分析会话，钱花在哪、有没有危险操作一目了然，还不把数据传出去，是个务实的小工具。

08:09

Claude Code：GitHub Releases（RSS）

Claude Code v2.1.168 发布

Claude Code v2.1.168 版本发布，更新内容仅为错误修复和可靠性改进。因原文较短，无法达成 50-100 字。

Anthropic产品更新编码

03:50

Hugging Face：Blog（RSS）

精选66

五个实验室，五个心智：用小模型构建多模型金融剧情游戏

Thousand Token Wood v2使用四个不同实验室的小模型（gpt-oss-20b、MiniCPM3-4B、Nemotron-Mini-4B及微调Qwen 0.5B）驱动金融模拟游戏的智能体。核心发现是异构服务层摩擦在于vLLM 0.22.1需CUDA工具包，而非模型本身。通过容忍性JSON解析层，添加模型只需一条配置。信息隔离确保内幕标志不在提示词中，扫描测试验证无泄露。记忆用情绪摘要截断避免淹没。微调0.5B模型实现0%自成交、100%有效报价，真相防火墙零泄露。小模型是可靠格式生成器但不可靠推理器，可通过结构化、提示词和微调弥补。

智能体Hugging Face教程/实践

推荐理由：不是那种「我用 GPT 写了个游戏」的浅显分享，真在四个小模型上跑出了博弈感，里面 vLLM 踩坑和防火墙测试方法可以直接抄作业。

02:11

公众号：阶跃星辰（Step）

精选71

阶跃首席科学家张祥雨合著论文 ResNet 获 CVPR 2026 「时间检验奖」

CVPR 2026 将 Longuet-Higgins Prize「时间检验奖」授予 2015 年发表的《Deep Residual Learning for Image Recognition》（ResNet）。该论文由何恺明、张祥雨、任少卿、孙剑完成，提出的残差学习思想解决了深层神经网络训练难题，已成为现代深度学习基础结构。同获该奖的还有 YOLO v1。ResNet 全球引用量超 32 万次，是 21 世纪被引最多论文。阶跃算法团队正热招大模型技术人才。

arXiv行业动态

关联讨论 1 条

推荐理由：ResNet拿下CVPR时间检验奖，32万引用是真的硬通货。虽然论文是2015年的，但残差连接至今仍是每个大模型的地基，这个奖实至名归，也提醒我们基础研究才是长期主义的底气。

00:34

Gary Marcus：The Road to AI We Can Trust（RSS）

精选69

AI 的黑色星期五

Gary Marcus 在文章中分享了对 AI 领域刚刚发生事件的看法，表达了对当前 AI 发展方向的思考。

大佬观点安全/对齐

推荐理由：Gary Marcus趁AI圈遭遇“黑周五”立刻开炮，标题就透着幸灾乐祸的犀利，不管是否同意他的立场，这篇复盘都会让你重新审视那些被狂热掩盖的信任裂缝。

6月6日

23:48

Hugging Face：Blog（RSS）

精选65

Job Searcher

Hugging Face 发布 Job Searcher，一个基于 AI 的求职搜索工具。用户上传简历并设定偏好后，系统使用教师模型 DeepSeek V4 Pro 生成 LinkedIn 搜索查询，通过 JobSpy 抓取职位，再对学生模型 Qwen3-8B（8B 参数）进行 LoRA 微调，对每个职位从技能匹配、经验相关性、教育背景、行业领域契合度和资历对齐五个维度给出评分和推理。训练在 Modal 平台单张 A100 上完成。推理部署于 Hugging Face ZeroGPU Space，使用 llama.cpp 实现流式输出。项目开源。

智能体Hugging Face教程/实践数据/训练

推荐理由：这个 hackathon 项目把教师蒸馏和 LoRA 微调 8B 模型的流程全部开源在 HF 上，做模型定制和部署的开发者能直接抄作业，尤其是推理部署踩的坑（ZeroGPU 上下文重用）很实用。

20:18

公众号：千问APP（阿里）

千问，高考前一晚你会对我说什么？

千问（通义千问）在高考前夜发起互动话题，为考生送上祝福：“好好睡一觉，明天稳了。”并邀请读者在评论区分享对明天上考场的人的寄语。

其他

19:48

Hugging Face：Blog（RSS）

精选58

Persona Atlas：Hugging Face 上的开源人物思维映射工具

Persona Atlas 是一个运行在 Hugging Face Inference Providers 上的开源项目。它通过工具调用代理执行真实网络搜索，生成公众人物的资料、事实清单和风格假设，然后让该人物回答十个关于身份、伦理等开放式问题。每个回答被转化为嵌入向量，从而在向量空间中对不同人物进行距离比较，并基于十个特质锚点绘制热力图。前端采用 Gradio，提供研究、比较和检查代理完整追溯三个标签页，预设多个人物角色，无需 token 即可直接体验。

智能体Hugging Face开源/仓库

推荐理由：把苏格拉底和乔布斯放在一起比思维方式，这个实验更像智力玩具，但背后用小模型跑 agent 搜索做嵌入比较的流程，做角色扮演的人可以学研究方法。

19:34

OpenRouter：Announcements（RSS）

精选58

OpenRouter 30 场 AI 大逃杀：11 个 LLM 对决，Claude 与 Grok 谁更优？

OpenRouter 展开了 30 场 AI 大逃杀式对比，涉及 11 个大语言模型，共消耗 482 美元推理费用。实验得出一个发现，该发现应改变用户阅读模型基准测试的方式。

智能体评测/基准

关联讨论 1 条

推荐理由：OpenRouter花了482美元让11个模型对决，结论很反直觉，下次选模型别只看基准分数，跑分高的不一定在真实场景里靠谱。

17:52

公众号：MiniMax（稀宇科技）

海螺AI×上影节活动日历：开放日6.14-6.15

MiniMax旗下海螺AI作为第28届上影节独家AI影像战略合作伙伴，6.14-6.15举办开放日。活动包括：AI片场·海螺专属Booth（展示1+1组合作品及过程）、6.14多模态行业交流会、6.15专题圆桌（超级创作者呈现四种图景、《流浪地球》制片人与青年导演对谈）。具体时间地点详见图片。

图像生成多模态行业动态视频

10:07

Claude Code：GitHub Releases（RSS）

Claude Code v2.1.167 发布

Claude Code v2.1.167 版本包含错误修复和可靠性改进。

Anthropic产品更新

09:32

Gary Marcus：The Road to AI We Can Trust（RSS）

No， Anthropic did not call for a pause on AI development

Anthropic大佬观点安全/对齐

09:07

Claude Code：GitHub Releases（RSS）

精选64

Claude Code v2.1.166 发布

Claude Code v2.1.166 新增 fallbackModel 设置，最多配置三个后备模型在主模型过载或不可用时按序尝试；--fallback-model 现也适用于交互会话。deny rule 中工具名位置支持 glob 模式（"*"拒绝所有工具），未知工具名启动时警告。跨会话消息中继不再携带用户权限，接收方拒绝被中继的权限请求。MAX_THINKING_TOKENS=0、--thinking disabled 及逐模型 thinking 开关可禁用默认开启思考的模型（仅 Claude API，第三方不变）。API 返回非预期不可重试错误时，在后备模型上重试一次。修复了图像处理失败、远程会话卡死、JetBrains IDE 终端闪烁、Kitty 键盘协议下 Shift+非 ASCII 字符丢失、PowerShell 命令验证挂起、macOS 后台进程孤儿化等问题。

智能体Anthropic产品更新部署/工程

关联讨论 2 条

推荐理由：Claude Code 重度用户该升级了，fallbackModel 让你设三个备用模型防止高峰期罢工，跨会话安全加固也让自动模式更敢放任跑了。

08:00

公众号：可灵AI（快手·视频）

可灵AI两周年：成长答卷与特别活动

可灵AI迎来上线两周年，回顾过去一年的成长，推出周年特别活动，鼓励用户参与创作。

行业动态

关联讨论 1 条

06:47

Hugging Face：Blog（RSS）

精选74

用Qwen2.5-3B构建多智能体经济体：工程报告

开发者用Qwen2.5-3B构建了五人森林生物多智能体经济体，每个智能体独立运行，通过vLLM部署在Modal，以Gradio为交互窗口。3B模型在100%调用中输出有效JSON，但经济判断能力弱。通过设计稀缺性（食物品种限制、易腐坏、冬季燃料危机）和优化提示词（禁止买入自产物品、给出示例）提升决策质量。15轮模拟中，蜜价从10跌至3、柴价从4涨至7、财富基尼系数从0.14扩至0.38。项目展示了小模型可靠格式化与不可靠推理之间的工程填补。

智能体Hugging Face教程/实践部署/工程

推荐理由：我觉得这是近期最诚实的小模型工程复盘，把为什么不换大模型、怎么靠提示修正推理、怎样设计系统稀缺性讲透了，比看十篇论文有实操价值。

04:30

Google Research：Blog（网页）

精选64

谷歌推出基于 Gemini Enterprise Agent Platform 的 Agentic RAG 框架

Google Research 与 Google Cloud 合作推出跨语料库检索（Cross-Corpus Retrieval）框架，作为 Gemini Enterprise Agent Platform 的 Agentic RAG。该多智能体工作流将复杂企业查询分解为子任务，通过规划、重写和路由，迭代搜索多个数据源直至获得充分上下文，再生成可靠回答。与标准 RAG 相比，在事实性数据集上准确率最高提升 34%；在多个领域特定内部数据集上也实现了更好的接地与推理准确性。

Google检索增强产品更新

推荐理由：企业级 RAG 的新标杆，多 agent 架构加上‘足够上下文’检查，准确度提升 34%。做知识库问答的产品经理和架构师都应该认真看。

03:34

Claude：Blog（网页）

精选76

Claude Cowork 产品指南

Anthropic 发布 Claude Cowork，一款运行在 Claude 桌面应用中的知识工作智能体。它可读写本地文件、跨 Slack 和 Google Drive 等应用协作，执行多步骤任务并生成带引用的实际交付物。核心能力包括本地文件访问、子智能体、长时间运行和定时任务。Claude Cowork 区别于对话式 AI 工具，支持用户描述目标与期望结果后自动规划执行。指南还介绍了产品矩阵（对话聊天、Claude Code 编程、Claude Cowork 跨应用知识工作）、设置要求、权限模型、七种常见工作流（如研究简报、会议准备、定期报告）以及营销和产品管理等插件。

智能体AnthropicMCP/工具教程/实践

关联讨论 1 条

推荐理由：把 Claude 从问答工具升级成能读写本地文件、跨应用交付可交付物的知识工作代理，这份官方指南给出了明确上手路径和七个真实工作流，做产品、做调研的都能直接照抄。

03:33

Anthropic：Research（发表成果 · 网页）

精选65

Anthropic：让Claude成为化学家

Anthropic与顶尖化学家合作，提升Claude在化学领域的实用性。首个白皮书测试Claude在NMR谱图分析上的表现：在20个化合物上，对比Claude Opus 4.7、Opus 4.6、Sonnet 4.6与ChemDraw、MestReNova的正向预测（从结构预测谱图）和反向结构解析（从实验谱图推断结构）能力。所有化合物选自模型训练截止日期后发布的ChemRxiv预印本，以避免选择偏差。

Anthropic多模态论文/研究评测/基准

关联讨论 2 条

推荐理由：化学家可能几年后回头看会记起这篇，Claude Opus 4.7 在 NMR 预测上追平了 ChemDraw，还顺手做了反向结构解析——专业软件不干的事，它用更接近人类日常输入的方式做到了。

02:33

Claude：Blog（网页）

Anthropic销售人员用Claude Code重建团队工作流

加入Anthropic前从未写过代码的销售成员Jared Sires，利用Claude Code为销售团队开发自动化工具。他创建了内嵌于Gmail的CLAFTS（Claude Drafts），通过Claude API根据客户邮件草拟回复，每天节省2-3小时。该系统基于约4,300行代码（几乎全由Claude Code编写），从Google Drive和Anthropic公开文档提取上下文，并通过网络搜索获取最新产品信息。他还开发了CLAFTS Tones功能，通过模式匹配模仿不同人际关系下写作风格。这些工具已打包为Claude Cowork插件供整个销售团队使用。

智能体AnthropicMCP/工具教程/实践

关联讨论 1 条

01:17

Cursor Blog

精选74

在 Design Mode 中通过视觉提示直接指挥智能体

Cursor 更新 Design Mode，支持点击元素、在页面上绘制区域或语音描述来向 AI 智能体传达修改意图。智能体将元素身份（xpath、组件、属性、计算样式等）与页面截图一并纳入上下文，快速定位源代码并高效编辑。借助 Composer 2.5 模型的快速执行能力，可连续下达多个编辑指令，智能体完成后应用热更新即时显示效果。这一更新将视觉交互融入正常编辑循环，使 UI 迭代更直观高效。

智能体产品更新多模态编码

关联讨论 5 条

推荐理由：Cursor这次的Design Mode把「指哪改哪」做成了标准流程，不再靠一句prompt猜你的意图，而是直接给agent看元素、画圈圈，前端开发的反馈循环被压缩到秒级，赶紧试试。

01:12

Google Developers Blog（RSS）

精选75

Google Colab CLI 发布

Google 推出 Colab 命令行界面（CLI），允许开发者和 AI 智能体将本地终端连接到远程 Colab 运行时，实现无摩擦执行。该轻量级 CLI 支持请求高性能 GPU、远程运行本地 Python 脚本，并检索工件日志或模型（如微调后的 Gemma 3 适配器）。工具可直接集成到标准终端环境，可被 Antigravity、Claude Code 等 AI 智能体调用以管理复杂机器学习流水线。

GoogleMCP/工具产品更新部署/工程

关联讨论 1 条

推荐理由：对于习惯在 Colab 上薅免费 GPU 的开发者，这个 CLI 把本地开发、远程跑训练这套流程的摩擦降到了几乎为零，而且直接对接 AI agent，实验自动化往前迈了一大步。

00:38

Tomer Tunguz 博客（VC 分析）

精选68

AI的微型钢厂

作者通过技能蒸馏将78%的AI工作交由Mac本地模型处理，仅复杂任务发往云端。智能体自动分类任务：简单任务本地数秒完成，复杂任务路由至云端。过去一周本地处理峰值达88%。双车道设计使吞吐量提升约25%，平均任务时长从47秒降至19秒，队列等待时间从73秒降至4秒（降幅94%）。该模式类比Nucor小钢厂，每台能运行蒸馏模型的边缘设备都成为小型AI工厂，仅对那1/5困难任务支付云费用。未来几年，数以千万计的此类设备将在企业内部增殖，逐步取代现阶段云厂商账单上的大部分工作负载。

智能体大佬观点端侧

推荐理由：Tunguz 把自己 78% 的 AI 任务都挪到本地跑，吞吐量涨了 25%，延迟降了 60%。mini-mill 的类比把端侧 AI 的颠覆逻辑讲得比任何行业报告都清楚，做工作流自动化的值得细读。

6月5日

23:26

Suno：Blog（网页）

精选64

Suno Voices 使用指南：6 个技巧打造高质量人声录制

Suno Voices 面向 Web 付费用户开放。提升人声质量的 6 个技巧：在安静环境录音以减少背景噪音；先练习歌词再正式录制；不必追求完美，保留真实情感；录音时长尽量超过 1 分钟以提供更多学习素材；将人声匹配到合适的音乐流派（如民谣、流行、死亡金属、波萨诺瓦等）；敢于尝试不同风格以发现惊喜。这些技巧旨在帮助用户获得更个性化、表现力更强的声音效果。

教程/实践语音

推荐理由：Suno 官方出的 Voices 录制避坑指南，不是大新闻，但照着做能让你克隆的声音干净不少，尤其是安静环境和别怕走音那两条，做音乐的朋友可以直接收藏。

23:11

Google Blog：AI（RSS）

谷歌2026年5月AI最新动态

谷歌在2026年5月公布了一系列AI最新进展，涵盖模型更新、产品功能及可用性提升。具体细节未在摘要中展开。

Google行业动态

22:30

Cloudflare Blog

精选71

你的AI账单失控了。Cloudflare现在可以解决这个问题。

Cloudflare AI Gateway新增实时消费限制功能，防止跨多个AI提供商的token账单失控。通过与Cloudflare Access集成，企业可以使用基于身份的预算和策略管理AI使用成本。

产品更新部署/工程

推荐理由：Cloudflare AI Gateway 新加的实时花费限制，直接掐住 token 账单失控的命门，对重度依赖多模型的团队来说，这比任何新模型发布都更实在。

22:30

Gary Marcus：The Road to AI We Can Trust（RSS）

精选59

Sir Demis Hassabis vs Sir Demis Hassabis

DeepMind大佬观点现象/趋势

推荐理由：Gary Marcus 翻出 Hassabis 自己的话，两条 AI 时间线互相打脸，这对 DeepMind 的 AGI 叙事是个精准回击。

20:54

公众号：面壁智能（MiniCPM）

面壁智能推出端侧座舱产品SuperMate，基于MiniCPM-o4.5全双工大模型

6月4日，面壁智能在高通汽车技术与合作峰会上推出端侧智能座舱产品矩阵SuperMate。该产品基于MiniCPM-o4.5全双工全模态大模型，实现多源感知、融合决策与精准执行的全链路端侧处理。采用意图驱动与思维链自主编排，引入L1-L5记忆分层机制和动态信任窗口，支持打断与情绪调节。目前SuperMate已量产交付超30万台车辆，覆盖68个场景，无需依赖云端。面壁智能通过低比特量化与知识蒸馏降低算力需求，推动端侧AI规模化装车。

端侧行业动态

19:22

公众号：腾讯混元

精选62

腾讯混元提出Stem稀疏注意力算法，被ICML 2026收录

Stem算法通过Token位置衰减（TPD）和输出感知度量（OAM）两项创新，仅用25%算力即逼近稠密注意力精度。配套HPC算子针对Hopper架构优化，支持FP8量化与vLLM的Paged KV Cache，在混元Hy3 preview上实现首字延迟降低3.6倍。HPC-BSA相比MIT-BSA稳定保持约3倍加速，在8K至256K序列长度上表现一致。

开源生态推理论文/研究部署/工程

推荐理由：把稀疏注意力从一刀切升级成按信息流分配预算，算子在Hopper上把理论加速几乎无损转化，3.6倍首字延迟下降不是灌水——做长上下文应用的值得照着开源代码试。

19:17

公众号：火山引擎

火山引擎豆包Seedance 2.0进入广告核心生产流程

火山引擎豆包视频生成模型Seedance 2.0以音画同出、全能参考、物理规律遵循、长视频一致性及电影级审美，打通品牌广告高质感创作与效果广告规模化量产。品牌场景已应用于智己汽车、华为手机、芝华仕等；效果广告场景下，30秒素材制作成本30-45元/条，单日稳定产出上百条，AIGC优质素材平均ARPU提升80.2%。基于Seedance 2.0的KickArt 3.0 Agent可实现爆款素材参考生成与批量裂变，已在汽车、3C、电商、快消等行业落地。

产品更新视频

18:52

公众号：百度智能云（文心）

百度伐谋走进北工大实验室：从制氢安全到空间站监测，加速科研探索

百度伐谋进入北京工业大学苗扬团队实验室，辅助解决PEM电解槽制氢故障诊断、空间站空气监测和液体表面波可视化等难题。在制氢安全中，模型准确率从92.26%提升至95.04%，探索周期从“周级”缩短至“小时级”；在空间站色谱柱优化中，72小时内生成方案，体积缩小40%、分离效率提升3倍、误差降低8.17%；海外运维场景预计节省70%–80%维修等待时间。伐谋不替科研人员“写答案”，而是围绕目标、变量和评价标准进行大规模搜索试错。

推理搜索行业动态

18:52

公众号：百度智能云（文心）

FluxA与百度智能云战略合作，为Agent经济搭建基础设施

百度智能云与FluxA建立战略合作，共同为Agent经济搭建基础设施。百度智能云提供可交易商品体系、自雇佣交易机制、能力工具箱及出海分销通道；FluxA作为支付底座，提供低费率高频微交易、Financial Harness安全授权、全球收款与Token Paywall。目前超9万个Agent使用FluxA钱包，超1万个AI Agent资源完成商业化。今年一季度中国两地区OPC新增超6000户，日均Token消耗140万亿。DAA被视为AI时代衡量生态价值的核心指标。

智能体MCP/工具行业动态

17:54

公众号：通义实验室（千问）

精选70

PawBench：给通用智能体一把可度量的尺

通义实验室推出全新评测基准PawBench v1.0，面向个人助理与通用智能体场景，将底座模型与运行框架Harness纳入同一体系进行交叉评测。评测矩阵包含9个模型与3个Harness（Hermes、OpenClaw、QwenPaw），覆盖150道真实任务共4050个测试单元。结果显示，QwenPaw（76.4分）、OpenClaw（75.4分）、Hermes（70.4分）之间存在显著分差，Harness环境对表现的影响甚至大于模型本身。PawBench还通过切片分析揭示了Harness在产物校验、Skill主动发现和Web搜索默认可用性等方面的关键差距。项目已开源。

智能体MCP/工具评测/基准

推荐理由：PawBench 把 Harness 从‘看不见的手’变成可诊断的变量，好 Harness 能让弱模型以下克上，这份评测对 Agent 框架开发者是一份必读的校验清单。

14:07

Claude Code：GitHub Releases（RSS）

Claude Code v2.1.165 发布

Claude Code v2.1.165 版本已推送，本次更新主要包含错误修复（bug fixes）和可靠性改进（reliability improvements），旨在提升系统稳定性。

Anthropic产品更新编码