AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态一手 · 2385 条
全部一手资讯X论文
6月9日周二
6月8日周一
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月9日
22:04
Google DeepMind:Blog(RSS)
精选58
Google DeepMind 欧洲机器人加速器启动,15家初创公司入选

Google DeepMind 加速器从欧洲选出15家机器人初创公司,提供为期3个月的密集指导和AI技术整合支持,帮助公司将AI融入核心产品。

具身智能行业动态
关联讨论 1 条X:Google DeepMind (@GoogleDeepMind)
推荐理由:DeepMind 的机器人加速器选了 15 家欧洲公司,方向从脑手术到废品回收,是观察物理 AI 落地趋势的窗口,但公告本身没什么干货。
21:39
Cloudflare Blog
51
对抗前沿网络模型:Cloudflare 作为"客户零"的架构实践

Cloudflare 在 Project Glasswing 一文中提出,漏洞周围的架构比补丁速度更重要。本文详细阐述了这一架构的设计、它防御的威胁类型,以及 Cloudflare 如何以自家产品作为“客户零”(customer zero)来实际运行这套防御体系。

安全/对齐部署/工程
21:14
Apple:Newsroom(RSS)
25
Apple 宣布今秋为服务用户带来创新功能与智能体验

Apple 宣布,今年秋季将随 2027 软件版本为服务用户带来强大的新功能。这些功能同时被描述为创新特性与智能体验。

产品更新行业动态
21:04
Google DeepMind:Blog(RSS)
精选67
Gemini Guided Learning 随机对照试验:在塞拉利昂等地提升参与度并加速学习

一项在塞拉利昂等地开展的随机对照试验显示,Gemini 的 Guided Learning 功能能够提升学生参与度并加速学习。

DeepMindGoogle论文/研究

推荐理由:DeepMind在塞拉利昂做了一个严格RCT,初步证明AI引导学习能提升参与度和学习速度,对教育科技方向的信号意义很强,做AI教育产品的应该仔细读一下。
21:00
公众号:火山引擎
精选69
全新汽车品牌AIVA发布,火山引擎助力打造AI汽车新体验

由赛力斯、宁德时代等多方产业资本组建的AI出行品牌AIVA正式发布。火山引擎提供豆包大模型、智能座舱等技术服务。概念车AIVA Origin Concept亮相,首款量产车AIVA ME7将于2026年内亮相,全系覆盖20万元以上市场。AIVA提出“AI定义汽车”路径,让汽车成为具身AI生命体。火山引擎副总裁表示,人与汽车的关系将实现交互、智能、感受三方面根本转变。未来双方将围绕AI交互、智能体验、情感陪伴深度共创。

具身智能端侧行业动态

推荐理由:AIVA把「先有AI再有车」当作造车逻辑,火山引擎直接下场定义汽车AI体验,这是豆包大模型从软件跑到物理世界的第一次大规模试水,做具身智能和车载产品的人该仔细看看。
21:00
公众号:百度智能云(文心)
12
百度智能云推广大使618限时加码:至高34%返佣,达标送iPhone 17 Pro Max

即日起至6月30日,百度智能云推广大使计划限时加码。推广指定云产品可享至高34%佣金返利,累计推广金额满¥618可领取达标豪礼(京东购物卡、大疆Pocket 3、iPhone 17 Pro Max等)。加入后获取专属推广链接,新用户通过链接注册后自动建立30天推荐关联,有效订单按月结算。推荐产品包括云服务器经济型e1(2核2G)、通用文字识别(标准版·1万次)、客悦智能客服轻量版(1万次)。成功邀请1个企业新客户相当于4个个人新客户价值。

行业动态
21:00
公众号:百度智能云(文心)
精选63
百度搭子DuMate获中国信通院企业级Claw能力评估最高4+级

2026年6月,百度智能云旗下百度搭子DuMate V3.4.0通过中国信通院「可信AI-企业级Claw能力评估」,获最高评级4+级,为国内首批。评估依据《智能助理智能体(Claw)技术和应用要求 第2部分 企业级Claw能力》(AIIA/T 0295-2026),覆盖智能体、工程化部署、服务、业务融合、运行管理五大能力域。百度搭子支持多智能体分工协作、容器化批量部署、多租户隔离与三级差异化授权、企业知识库接入、全链路日志审计等能力,企业级智能助手服务能力获国家级权威认可。

智能体行业动态

推荐理由:百度搭子通过信通院企业级Claw最高评级,算是给企业智能体的安全可控盖了个章,对正在选型的人有点参考,但内容本身是典型PR稿,了解下标准细节就好。
21:00
公众号:百度智能云(文心)
26
千寻智能与百度智能云合作:98.8%有效训练时长加速具身模型进化

千寻智能与百度智能云合作,依托百度智能云AI Infra底座,将集群有效训练时长提升至98.8%,训练和推理效率分别提高30%和60%。其自研Spirit系列通用具身基座模型,Spirit v1.6在RoboArena评测中登顶,超越英伟达Cosmos3与Physical Intelligence Pi0.5,成为首个登顶的中国具身模型。公司成立于2024年1月,近期完成15亿元A+轮融资,近三个月累计融资近50亿元,预计今年积累100万小时真实交互数据,推动智能制造、服务行业等场景商业化落地。

具身智能行业动态
20:00
公众号:火山引擎
精选70
火山引擎TRAE Work企业版正式上线,面向全员提供AI办公平台

火山引擎将TRAE Solo品牌升级为TRAE Work企业版,发布面向企业的AI办公平台。平台提供Work和Code两种模式:Work模式面向产品、运营、市场等非技术岗位,支持上传.pptx、.xlsx、图片等多种格式混合输入直接输出PPT或文档,支持语音讨论自动整理结构化纪要,支持按天或按周自动运行的数据整理和报告生成;Code模式面向开发者和业务同学,可用自然语言描述需求直接生成页面或小应用。桌面端、网页端和移动端多端同步。企业后台可统一配置模型、用量限额、上传内部文档,沙箱机制隔离执行,支持命令黑名单、MCP白名单、内容安全策略,关键操作可审计。同时发起TRAE Enterprise Fellow招募计划。

智能体产品更新

推荐理由:火山引擎把 TRAE 从开发者工具升级成全员工 AI 协作平台,语音讨论和自动化任务直击非技术岗痛点,企业推 AI 落地又多了一个务实选择。
19:55
Hugging Face:Blog(RSS)
精选76
一个Agent如何通过链式调用两个HuggingFace Space构建3D巴黎画廊

一个编码Agent调用HuggingFace上的两个Space,从零构建了展示巴黎地标3D高斯散点图的交互式画廊。Agent先用ideogram-ai/ideogram4生成每个纪念碑的黑色背景图像,再通过VAST-AI/TripoSplat从单张图像重建3D高斯散点(.ply),自动完成坐标系校正、取景、压缩为.ksplat(体积缩小约3倍),并构建基于Three.js的滚动切换、拖拽旋转查看器,最终部署为静态Space。整个过程无需客户端库,每个Space通过`agents.md`暴露可调用API。

智能体Hugging FaceMCP/工具多模态

推荐理由:Hugging Face 把 agents.md 做成每个 Space 的标准说明书,agent 能直接读懂并链式调用图像和 3D 模型,这篇用 3D 巴黎画廊 demo 告诉你这事儿已经跑通了,做 AI 工具链的可以立刻照着试。
19:30
公众号:可灵AI(快手·视频)
55
可灵AI×候鸟300发起AI主义新浪潮AIGC影像大赛

可灵AI与候鸟300联合发起AIGC影像大赛。线下大赛6月16-26日在阿那亚海边举办,评审包括李少红、陈明昊、焦雄屏等影视与AI专家及美院教授,设10万奖金+超200万灵感值,结果6月27日晚揭晓。线上大赛6月22日前投稿可角逐“最受关注大奖”,获奖者受邀参加6月27日颁奖。参赛要求:视频≥50%由可灵AI生成,官网投稿填表并带话题分享。

图像生成行业动态视频
17:55
Hugging Face:Blog(RSS)
精选68
NeuroBait:微调AI助手,为ADHD大脑点燃多巴胺火花

NeuroBait是基于Google gemma-3-12b-it微调的AI对话助手,旨在帮助ADHD患者克服“知道该做什么但无法开始”的执行功能障碍。采用16-bit LoRA(r=16, alpha=16)在Unsloth上训练3个epoch,学习率2e-4,最大序列长度2048,使用单张H100 80GB GPU。数据集为基于真实ADHD场景手工合成的少量数据。部署于Hugging Face Space(ZeroGPU),使用Gradio和标准transformers+peft,运行时以4-bit NF4加载基础模型并应用LoRA适配器。NeuroBait不生成待办清单,而是根据用户上下文给出3-6句温暖流畅的回复,引导用户找到一件微小可立即执行的动作,从而激发多巴胺、降低启动阻力。

Hugging Face教程/实践数据/训练

推荐理由:对ADHD群体来说,这是一次真正从需求出发的AI尝试。它不做计划列表,而是用一个温暖的动感火花打破僵局,让AI从理论走向陪伴。如果你或身边人容易'卡住',可以试试这个Space。
17:40
公众号:通义实验室(千问)
精选67
仅凭一份文档,Qwen3.7-Max 从 0 交付双端应用

在无设计稿和后端代码的条件下,Qwen3.7-Max 仅凭一份约 15 万字的产品调研文档,于隔离环境中全自动完成移动端与 Web 端两套真实应用从 0 到 1 交付,单端耗时约 4 小时,中途无人工接管。模型不具备图像理解能力,通过像素坐标反推布局约束实现界面还原。实验采用“分阶段注入约束→逐层验收→带错纠正”的闭环控制系统:任务拆分为规划、架构、编码等阶段,验收覆盖静态检查、编译自检(0 error)、路由完整性(Web 端 34 条路由全部可达)、功能扫描及真机冷启动冒烟。失败时错误文本自动注入下一轮重试,使模型数小时内收敛。移动端产出可安装 APK,Web 端 typecheck 与构建均通过。

智能体教程/实践部署/工程
关联讨论 1 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)
推荐理由:通义实验室没有炫技分数,而是把 Agent 逼到了长程交付的极限,约束闭环这套方法论比模型本身更值钱,所有做 Agent 开发的都该读一遍。
11:40
公众号:小米 MiMo
精选80
小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s

小米 MiMo 与 TileRT 联合发布 MiMo-V2.5-Pro-UltraSpeed 模式,使 1T 参数旗舰模型输出速度首次突破 1000 tokens/s。模型侧采用 FP4 混合量化(仅量化 MoE Expert)与 DFlash 块级 masked 并行推测解码(coding 场景平均接受长度 6.30 tokens);系统侧 TileRT 引入常驻内核引擎与异构流水线协作。API 限时开放(2026 年 6 月 9 日至 23 日),定价为 MiMo-V2.5-Pro 的 3 倍,速度提升约 10 倍。FP4 权重与 DFlash 模型 checkpoint 已开源至 HuggingFace。

开源生态推理模型发布部署/工程
关联讨论 3 条Hacker News 热门(buzzing.cc 中文翻译)X:小米 MiMo (@XiaomiMiMo)IT之家(RSS)
推荐理由:万亿模型首次在通用GPU上突破1000 tokens/s,不是专用硬件的胜利而是模型与系统Codesign的胜利,做实时AI应用的都应该盯紧这一套方案。
11:40
公众号:月之暗面(Kimi)
47
Kimi 将公开预测 104 场世界杯赛事:德国队或爆冷夺冠

Kimi 通过「Agent 集群」同时调度 300 个子 Agent,从战术、球员、伤病等维度并行分析 104 场世界杯赛事,并公开预测与复盘。模型综合采用 Elo/FIFA 强度模型、Poisson 与 Dixon-Coles 进球分布模型、xG/xT 指标体系、Monte Carlo 模拟等。分析发现德国队夺冠概率被市场低估:基准约 11.0%,校准后约 11.3%,而部分市场隐含概率仅约 7.4%,存在约 +3.6 个百分点的正向偏离。同时推出总奖池 1 万亿 Token 的竞猜活动,并发布 Kimi Work——面向知识工作者的通用型本地 Agent,集成了建站、PPT 等专业 Skills 及 Kimi WebBridge。

智能体推理行业动态
06:24
Claude:Blog(网页)
精选63
Claude 支持 Apple Foundation Models 框架,推出新 Swift 包

Anthropic 通过一个新 Swift 包,让 Apple 开发者能在 Foundation Models 框架中直接调用 Claude。开发者用 Apple 框架以原生 Swift 方式,仅需三行代码即可通过引导生成返回类型化 Swift 值。当请求涉及多步推理、代码生成、联网搜索或数据分析时,Claude 可接手处理,并将流式响应传回同一视图。该支持可在 iOS 27、iPadOS 27、macOS 27、visionOS 27 和 watchOS 27 上使用,开发者需添加包并配置 Anthropic API 密钥。

Anthropic产品更新搜索编码
关联讨论 1 条X:Claude Devs (@ClaudeDevs)
推荐理由:Apple开发者福音,现在能用Swift原生调用Claude了。端侧模型处理简单任务,复杂推理交给Claude,这才是苹果AI的正确打开方式。
06:16
Claude Code:GitHub Releases(RSS)
精选61
Claude Code v2.1.169 发布

Claude Code v2.1.169 新增 `--safe-mode` 标志及环境变量,用于禁用所有自定义配置以排查问题;新增 `/cd` 命令,可在不破坏提示词缓存的情况下切换工作目录;新增 `disableBundledSkills` 设置隐藏内置技能。修复了企业 MCP 策略在重连、IDE 配置及首次会话中不被强制的问题,以及 macOS 用户每轮约 30–50ms 的 UI 卡顿、Windows 下 `claude -p` 和 Git 凭证弹窗等多项 bug。改进了任务创建的可靠性,恢复 Vertex/Foundry 默认 5 分钟空闲超时,并降低 CPU 占用。

智能体AnthropicMCP/工具产品更新
关联讨论 2 条Claude Code:GitHub Releases(RSS)X:Claude Devs (@ClaudeDevs)
推荐理由:全是修 bug 的版本里藏了两个实用命令,/cd 换目录不丢缓存和 safe-mode 跳过所有自定义直接排查,重度用户的小痛点被摸到了。
05:16
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选89
OpenAI 向 SEC 机密提交 S-1 草案,上市时间未定

OpenAI 近日向 SEC 机密提交了 S-1 草案(即首次公开募股注册声明),目前尚未决定上市时间。

OpenAI行业动态
关联讨论 10 条X:歸藏 (@op7418)IT之家(RSS)X:Testing Catalog (@testingcatalog)Bloomberg:Technology(RSS)X:Rohan Paul (@rohanpaul_ai)Hacker News 热门(buzzing.cc 中文翻译)X:Kim (@kimmonismus)TechCrunch:AI(RSS)The Verge:AI(RSS)The Decoder:AI News(RSS)
推荐理由:OpenAI 秘密提交 S-1 意味着 IPO 正式进入流程,即便没有公开时间表,这也是 AI 史上最大的上市动作之一,影响远超融资新闻。
05:15
Apple Machine Learning Research(RSS)
精选79
苹果发布第三代 Apple Foundation Models(AFM)

苹果推出第三代 Apple Foundation Models(AFM)基础模型家族,与 Google 合作定制,包含五个模型,覆盖从设备端到基于 Private Cloud Compute 的服务器端模型。这些模型旨在驱动 Apple Intelligence 功能,包括全新 Siri 和智能工具,以用户为中心深度融合操作系统,隐私为核心设计原则。

Google多模态模型发布端侧
关联讨论 1 条Hacker News 热门(buzzing.cc 中文翻译)
推荐理由:Apple与Google罕见联手推出的第三代基础模型,直接为下一代Siri和系统级AI功能铺路,标志着消费级AI的深度整合,产品经理和iOS开发者必须关注。
05:14
Apple:Newsroom(RSS)
64
Apple 推出新智能能力、Xcode 生产力功能及平台改进以辅助应用开发

Apple 今天推出了新的智能能力、Xcode 中扩展的生产力功能以及平台改进,旨在协助应用开发。

产品更新
04:48
OpenRouter:Announcements(RSS)
精选64
EU AI Act 合规:面向 AI 智能体的人工监督

使用智能体 SDK 的人机协作(HITL)工具,可满足 EU AI Act、Colorado AI Act 和 NIST AI RMF 对 AI 智能体的合规要求。

智能体产品更新政策/监管

推荐理由:OpenRouter 在 Agent SDK 里内置了 HITL 审核,直击 EU AI Act 合规核心,受监管行业的产品经理和开发者可以看看接入成本,算是解决了一个真实的痛点。
04:46
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选56
OpenAI 公布让 AGI 造福所有人的计划

OpenAI 发布计划,阐述让 AGI 造福所有人的愿景。该计划聚焦于 AI 的可及性、安全性和共享繁荣,确保技术进步惠及每个人。

OpenAI大佬观点安全/对齐
关联讨论 1 条X:Sam Altman (@sama)
推荐理由:这份计划是 OpenAI 对“AGI 公益”的例行布道,提供了解其高层思维的窗口,但建议别指望找到产品路线图。
03:38
Gary Marcus:The Road to AI We Can Trust(RSS)
34
Gary Marcus:整个AI行业被疯狂的数学所支撑

Gary Marcus 在博文中引用“幻想之地”的比喻,指出整个 AI 行业建立在不合理的数学基础之上。

大佬观点现象/趋势
03:14
Apple:Newsroom(RSS)
精选65
受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线

由于欧盟《数字市场法案》(DMA),Apple 无法在 iOS 27 和 iPadOS 27 发布时于欧盟地区推出 Siri AI。该功能在欧盟的上线时间将晚于其他地区,具体时间未公布。

政策/监管语音
关联讨论 1 条IT之家(RSS)
推荐理由:虽然只是欧盟地区延迟,但Siri AI因DMA无法落地是个全行业信号——监管已经开始直接拦截AI功能,做全球产品的必须认真看政策风险了。
03:14
Apple:Newsroom(RSS)
80
Apple 推出 Siri AI:由 Apple Intelligence 驱动的更强大、更个性化的个人助理

Apple 发布了 Siri AI,一款由 Apple Intelligence 驱动的个人助理,具备个人上下文、世界知识和屏幕感知能力,能提供更强大、更个性化的交互体验。

智能体产品更新
关联讨论 7 条公众号:数字生命卡兹克X:Testing Catalog (@testingcatalog)TechCrunch:AI(RSS)Bloomberg:Technology(RSS)The Verge:订阅版科技(RSS)IT之家(RSS)The Verge:AI(RSS)
03:14
Apple:Newsroom(RSS)
精选72
Apple Intelligence 将强大 AI 能力融入日常体验

Apple 发布下一代 Apple Intelligence,将 AI 能力集成到 iPhone、iPad 和 Mac 中,带来更个性化和有帮助的日常体验。

产品更新多模态

推荐理由:苹果这次把AI能力直接嵌进iPhone、iPad和Mac的核心体验,不是噱头而是日常能用上的东西,想知道你的设备接下来会变成什么样,这篇必看。
03:14
Apple:Newsroom(RSS)
精选56
Apple发布新一代Apple Intelligence和Siri AI

今天Apple预览了即将推出的软件版本,将带来新一代Apple Intelligence和Siri AI。

产品更新端侧语音
关联讨论 7 条公众号:数字生命卡兹克X:Testing Catalog (@testingcatalog)TechCrunch:AI(RSS)Bloomberg:Technology(RSS)The Verge:订阅版科技(RSS)IT之家(RSS)The Verge:AI(RSS)
推荐理由:苹果AI的下一次迭代预览,虽然还只是预告,但Siri AI这个提法可能意味着更彻底的助手进化,iOS开发者该盯紧后续细节。
02:50
Claude:Blog(网页)
精选72
Claude 为 Connector 开发者推出性能监控仪表盘

Claude 为目录中已发布的 Connector 新增性能监控仪表盘(公开测试版)。所有者可追踪活跃用户、工具调用次数、目录排名、健康评分、错误率、延迟,并按工具细分错误归因;还能按 Claude、Claude Code、Cowork 等产品分解使用情况。访问需 Team 或 Enterprise 账号(Admin/Owner 权限或自定义角色)。基于 MCP 构建的 Connector 可直接在 Claude 应用内提交至目录,该目录已有超 300 个第三方 Connector,每日被数百万人使用。

AnthropicMCP/工具产品更新
关联讨论 1 条X:Claude Devs (@ClaudeDevs)
推荐理由:Claude给connector开发者加了仪表板,能跟踪用量和错误,还能直接提交到目录,做MCP集成的省了监控的麻烦,即开即用。
02:15
Dwarkesh Patel:Podcast & Blog(RSS)
精选69
样本效率黑洞:AI能力背后隐藏的数据需求深渊

将AI比作一个闪耀着能力的星系,其核心存在一个肉眼不可见的巨大黑洞——数据。这个比喻揭示了AI模型惊人能力背后对海量数据的依赖,样本效率的瓶颈如同引力中心,将各色能力凝聚在一起。

大佬观点数据/训练

推荐理由:「我们见到的 AI 如星河璀璨,但中心却是个看不见的、有着不可思议质量的样本效率黑洞」——这个比喻把 scaling law 背后被忽视的真相撕开给你看,做模型训练的人该读一读。
02:14
OpenAI:官网动态(RSS · 排除企业/客户案例)
54
OpenAI 推出 Economic Research Exchange 经济研究交流平台

OpenAI 启动 Economic Research Exchange,研究 AI 对就业、生产力和经济的影响。该项目现已开放研究项目申请。

OpenAI行业动态
01:46
Anthropic:Research(发表成果 · 网页)
精选77
为生物学AI智能体铺路

一项实验让Claude、Biomni、Edison Analysis、GPT等科研智能体从病毒学数据库NCBI Virus中检索序列数据,即使最强模型也无法稳定达到可靠数据集构建所需的准确率。加入确定性检索层gget virus后,准确率接近100%。研究指出,当前生物学数据基础设施存在碎片化、格式特殊、接口不统一等问题,导致AI智能体难以像在软件领域那样高效工作。确定性检索工具是实现可靠智能体工作流的关键,生物学数据库需为智能体作为规模化用户而设计。

智能体Anthropic论文/研究

推荐理由:再强的模型在 NCBI Virus 上检索病毒序列都会翻车,Anthropic 加了个确定性检索层后准确率飙到近 100%。做 AI for science 的人该看看这个基础设施层的解法。
00:41
Tomer Tunguz 博客(VC 分析)
精选56
AI 替代浪潮:三大力量重塑成本结构

三大力量重塑 AI 成本:前沿闭源模型持续涨价,开源模型在多数场景已足够好,买家开始替代。Coinbase 将提示词路由至更便宜模型,成本持平但 token 用量指数增长。Lindy 全切至 DeepSeek v4,节省数百万美元且多项核心性能提升。Harvey 在 Legal Agent Benchmark 上通过 SFT 使 Kimi 2.6 all-pass 率达 15%,超越 Opus 的 14%,同一 100 任务成本 $84 vs $954(约 11 倍价差)。Cursor 后训练 Kimi K2.5 得到 Composer 2.5,称其“性能优异且效率高达同类模型 10 倍”。闭源越来越贵,开源平价且性能接近,选择决定企业单位经济学的斜率。

AnthropicDeepSeek开源生态推理

推荐理由:Tunguz 用 Coinbase、Lindy 等真实案例,把「用开源/便宜模型替代昂贵前沿模型」的趋势讲透了,做 AI 应用的人该重新算一下单位经济账。
00:00
MiniMax:Blog(网页)
精选76
MaxProof框架:MiniMax M3在IMO 2025和USAMO 2026超越人类金牌线

MiniMax M3采用MaxProof框架,在IMO 2025和USAMO 2026两项数学奥赛基准上超越人类金牌线。框架分三阶段训练:Proof RL使用生成式验证器提供奖励,进行长程强化学习提升证明生成能力;Verifier Alignment将验证对齐为错误定位任务;Refinement Augmentation利用训练中产生的错误证明与验证分析对,通过拒绝采样微调修复能力。三者合并为M3通用模型。系统通过低假阳性率过滤噪声,保证RL稳定性。

推理论文/研究
关联讨论 1 条HuggingFace Daily Papers(社区热门论文)
推荐理由:M3在数学奥赛上搞定人类金牌,靠的是用生成验证器做RL和进化搜索,这套组合对复杂推理任务的普适性可能比提高一个benchmark分数更有价值。
6月8日
22:02
公众号:月之暗面(Kimi)
精选76
Kimi Code 焕新升级(附视频教程)

Kimi Code 开源 Coding Agent 迎来大版本升级:一行命令安装,毫秒级启动;新增视频理解能力,支持提取视频风格生成 LUT 文件、长视频切片、根据录屏生成代码;集成同花顺、天眼查等权威数据源,可查询股票价格、财报、学术论文;支持 ACP 协议,可在 JetBrains、Zed 中使用;丰富 hook 生态方便集成其他工具。底层视觉推理由 Kimi K2.6 模型提供。

智能体产品更新开源生态编码

推荐理由:Kimi Code 这次更新把安装和视频处理的门槛压到了最低,一行命令加拖拽视频就能用,开源 Agent 的体验终于开始反超商业版本。
21:50
Hugging Face:Blog(RSS)
精选62
开源社区支持 OpenEnv 用于智能体强化学习

今日,Hugging Face 宣布 OpenEnv 项目进一步开放,由 Meta-PyTorch、Reflection、Unsloth 等组成的委员会协调,并获得 PyTorch Foundation、vLLM、SkyRL(UCB)等机构支持。OpenEnv 是创建终端、浏览器等智能体执行环境的工具,定位为训练器与环境间的互操作层,标准化环境的发布、部署和消费,但不定义奖励或训练循环。它基于客户端/服务器架构提供 Gymnasium 风格 API(`reset()`、`step()`、`state()`),支持 HTTP、WebSocket、Docker 打包,并将 MCP 作为一等公民,使环境在模拟和生产模式下行为一致。未来将聚焦任务集对接数据集、外部奖励、Harness 集成及自动验证,以推动开源智能体 RL 基础建设。

智能体Hugging FaceMCP/工具Meta

推荐理由:开源社区在 agent RL 环境上终于开始合流,Meta、Nvidia、Hugging Face 等联合推动 OpenEnv 成为接口标准,不做奖励框架,只做插线板。搞开源 agent 训练的人,这是少有的统一基础设施的机会。
21:50
Hugging Face:Blog(RSS)
精选57
五个模型经济体中消失的崩溃:控制与涌现

用五个不同实验室的AI模型(OpenAI、NVIDIA、OpenBMB及一个自微调的5亿参数模型)各自驱动一个智能体构建经济市场,试图复现此前单一模型下出现的银行挤兑式价格崩溃。结果同一场景下模型不仅不抛售反而囤积,导致价格不跌反涨。通过纯谣言、库存泛滥、加大做空三种方式均无法重现崩溃。最终在结算环节直接覆盖价格,使崩溃成为设计事实。实验表明,AI智能体的涌现行为是偶然的而非稳健的,有效系统需在涌现纹理与确定性控制之间找到精确接缝。

智能体大佬观点

推荐理由:做 agent 的人必读,自己动手构建一个多模型经济体后才发现,涌现行为脆弱,控制要卡在结算层而非输入层,廉价模拟器会给你虚假信心。这篇复盘比成功案例更值钱。
20:00
OpenRouter:Announcements(RSS)
精选63
OpenRouter Agent SDK 推出 HITL 工具:满足 EU AI Act、Colorado ADMT 与 NIST AI RMF 合规要求

OpenRouter 的 Agent SDK 新增人类参与循环(HITL)工具,用于 AI 智能体的合规监督。该工具可帮助 AI 智能体满足欧盟 AI 法案、科罗拉多州自动化决策技术法(SB26-189)以及 NIST AI 风险框架(NIST AI RMF)的监管要求。

智能体安全/对齐教程/实践
关联讨论 1 条OpenRouter:Announcements(RSS)
推荐理由:欧盟AI法案的人类监督要求终于有现成方案了,OpenRouter这个教程把合规从法条翻译成具体代码,做Agent出海的产品经理可以拿来就用。
19:50
Hugging Face:Blog(RSS)
精选74
Pakistan Notice Helper:一款面向本地安全问题的轻量 AI 工具

Pakistan Notice Helper 是一款安全工具,帮助巴基斯坦用户在点击链接、拨打电话、分享 OTP 或支付前识别可疑消息。它接受文本或截图输入,返回风险等级、简短解释、可见警示标志和安全下一步建议。工具支持英文和乌尔都语,乌尔都模式采用从右向左布局并全界面翻译。最终部署选用 Qwen3.5 4B Q8 模型(通过 llama.cpp + CUDA),在 10 个测试用例中通过了所有高风险诈骗和截图场景。此前曾测试 Qwen3.6 27B(质量高但成本高)和 MiniCPM-V 4.6 Q8(速度慢且不稳定),最终选择了精度、速度和成本平衡的 4B 模型。项目受限于 hackathon 的 32B 模型上限规则。

Hugging Face多模态教程/实践

推荐理由:一个只有4B的小模型,把巴基斯坦本地诈骗文案分析得明明白白,比那些参数大但看不懂乌尔都语的通用模型实用得多。做给特定地区特定问题的小工具,这才是AI落地的真节奏。
19:12
公众号:火山引擎
28
火山方舟Coding Plan与Agent Plan升级,限时2.5折

火山方舟Coding Plan与Agent Plan升级,集成MiniMax M3、DeepSeek V4系列、GLM-5.1等多款三方模型。即日起至2026年8月7日,新购/升级/续费40元、200元档位可享首两月2.5折(9.9元/月、49.9元/月)。MiniMax M3为新一代旗舰,支持100万token上下文窗口及原生多模态理解。Agent Plan为业界首个Agent套餐包,整合字节自研Seed系列模型与Harness工具,免费提供联网搜索和Embedding记忆能力,可配合Claude Code、OpenClaw、TRAE等工具使用。

智能体DeepSeek产品更新多模态
18:00
公众号:通义实验室(千问)
精选68
Agent 辅助开发,一站式打通 Qwen3-VL Android 端侧推理

通义实验室教程演示了如何用 Agent(Qoder)辅助完成 Qwen3-VL-2B 模型在 Android 端侧的全流程部署。操作包括:检查 JDK 21、NDK 27、CMake 3.18.1 等环境;创建 arm64-v8a 的 Native C++ 工程(minSdk 29、compileSdk 35);通过 ModelScope CLI 下载约 1.4GB 的 MNN/Qwen3-VL-2B-Instruct-MNN 模型;编译开启 LLM 视觉支持(MNN_BUILD_LLM、LLM_SUPPORT_VISION)的 libMNN.so;构建 APK 并推送模型至手机私有目录。最终 App 提供图文推理页面,输出 MNN 版本(v3.5.0)、ABI 及推理指标。所有繁琐步骤均可由 Agent 自动执行。

多模态推理教程/实践端侧

推荐理由:用Agent辅助走通Qwen3-VL安卓端侧推理全流程,从环境搭建到JNI桥接一步到位。如果你在做移动端AI应用,这可能是目前最详细的实战指南,可以直接抄作业。
‹ 上一页
12345…50
下一页 ›