AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态一手 · 2389 条
全部一手资讯X论文
5月20日周三
02:25Google Developers Blog(RSS)58精选重要更新:Gemini CLI将迁移至Antigravity CLI02:18Google Blog:AI(RSS)74精选Google AI 订阅服务全新内容,源自 I/O 2026 大会02:18Google Blog:AI(RSS)70精选AI搜索的新时代02:18Google Blog:AI(RSS)83精选Gemini 3.5:前沿智能与行动能力相结合02:18Google Blog:AI(RSS)89精选I/O 2026: 欢迎来到自主的 Gemini 时代02:18Google Blog:AI(RSS)75精选Google Workspace 推出全新创建方式与高效工作功能02:18Google Blog:AI(RSS)71精选AI Mode 如何改变美国人的搜索方式02:06Google Research:Blog(网页)65精选经验研究助手(ERA):从Nature发表到催化计算发现02:00OpenAI:官网动态(RSS · 排除企业/客户案例)51推进内容溯源,构建更安全、更透明的AI生态系统01:48Google Blog:AI(RSS)81精选Google I/O 202601:48Google DeepMind:Blog(RSS)81精选介绍 Google Antigravity 2.001:48Google DeepMind:Blog(RSS)83精选推出Gemini Omni多模态AI模型01:48Google DeepMind:Blog(RSS)51使用 Project Genie 和 Street View 模拟真实世界场景01:48Google DeepMind:Blog(RSS)47加速遗传线索以逆转细胞衰老
5月19日周二
23:18Qwen:Blog Retrieval(API)77精选Qwen3.5-LiveTranslate:从声音到视觉,从词语到准确23:01Hugging Face:Blog(RSS)60精选引入 Ettin Reranker 系列22:53Cloudflare Blog72精选宣布Claude Managed Agents登陆Cloudflare20:57Anthropic:Newsroom(网页)62精选毕马威与Anthropic建立全球联盟,全面整合Claude AI模型20:14公众号:火山引擎48火山引擎FORCE原动力大会,定档6月23日20:07Apple:Newsroom(RSS)57精选苹果发布全新辅助功能,并引入Apple Intelligence进行更新19:55公众号:百度智能云(文心)35再出新证!智能体开发工程师证书正式发布19:55公众号:百度智能云(文心)31视启未来🤝百度智能云:给大模型一双手,让AI真正触碰物理世界19:55公众号:百度智能云(文心)25AI重构游戏生产力,百度智能云已与超半数主流游戏厂商达成合作19:02公众号:面壁智能(MiniCPM)29面壁智能WAIDE:端侧AI在多行业实现场景突破17:59公众号:小红书技术(dots.llm)22QECon深圳2026|小红书技术专场:Agent驱动的研发效率工程探索与实践17:09Claude:Blog(网页)77精选Claude智能体托管平台新增自托管沙箱与MCP隧道功能16:30公众号:通义实验室(千问)4730W奖池已就位!手机上的创意AI挑战赛,等你瓜分14:28公众号:可灵AI(快手·视频)24可灵AI与候鸟300发起"候鸟记忆复活计划"08:59Claude Code:GitHub Releases(RSS)65精选Claude AI助手v2.1.144版本更新08:00Apple Machine Learning Research(RSS)46EpiCache:面向资源受限环境的长程对话场景式KV Cache管理05:11xAI:News(网页)68精选Grok平台技能功能上线03:19Tomer Tunguz 博客(VC 分析)48多模型协作写作的实践与思考03:14Runway:News(网页)57精选分布式训练为何艰难:DTensor、正确性与抽象的代价02:45Gary Marcus:The Road to AI We Can Trust(RSS)43世纪AI审判悄然结束01:26OpenAI:官网动态(RSS · 排除企业/客户案例)46OpenAI与Dell合作将Codex引入混合及本地企业环境01:06Anthropic:Newsroom(网页)64精选Anthropic收购SDK与MCP服务器工具开发商Stainless00:59GitHub Blog69精选将你的本地GitHub会话带到任何地方00:52Hugging Face:Blog(RSS)67精选NVIDIA Cosmos Predict 2.5 微调:使用 LoRA/DoRA 生成机器人视频00:51Cursor Blog74精选Composer 2.5 发布与技术解析
5月18日周一
23:52Hugging Face:Blog(RSS)68精选PaddleOCR 3.5:使用Transformers后端运行OCR和文档解析任务
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月20日
02:25
Google Developers Blog(RSS)
精选58
重要更新:Gemini CLI将迁移至Antigravity CLI

Google正在整合其AI终端工具,将面向社区的Gemini CLI迁移至全新平台Antigravity CLI。这款新工具采用Go语言开发,作为代理优先的平台,支持复杂的多代理工作流,并提供更快的执行速度、异步处理能力以及与Antigravity 2.0桌面应用同步的统一架构。企业客户可维持现有访问权限,但个人及免费用户必须在2026年6月18日Gemini CLI停止服务前,完成向新平台的迁移。

智能体Google产品更新

推荐理由:Google 终端工具从 Gemini CLI 全面转向 Antigravity CLI,强调 agent 优先和多 agent 工作流,6 月 18 日后 Gemini CLI 停服,个人用户得赶紧迁移。
02:18
Google Blog:AI(RSS)
精选74
Google AI 订阅服务全新内容,源自 I/O 2026 大会

Google 在 I/O 2026 大会上宣布更新其 AI 订阅服务,推出了全新的 100 美元“AI Ultra”计划。同时,面向 Google AI Plus、Pro 和 Ultra 三个层级的现有订阅者,服务均增加了新的功能和权益。此次更新标志着 Google 在 AI 付费订阅领域推出了更高端的选项并强化了现有套餐的价值。

Google产品更新

推荐理由:Google 在 I/O 上推出 $100 的 AI Ultra 计划,这是大厂把 AI 订阅当成‘基础套餐’来卖的信号,虽然细节还不算多,但想知道 Google AI 付费版最新整合的可以进去看一眼。
02:18
Google Blog:AI(RSS)
精选70
AI搜索的新时代

谷歌宣布了其搜索引擎与AI技术融合的最新进展,标志着AI搜索进入新阶段。此次更新旨在将搜索引擎的广度与AI的深度理解能力相结合,目标是提供更智能、更直观的搜索体验,推动搜索技术的下一代演进。

Google产品更新搜索

推荐理由:Google搜索宣称开启AI新纪元,但这次官宣只放了张图没给干货,搜索入口的任何变动都牵动流量,值得跟踪但别急着判断。
02:18
Google Blog:AI(RSS)
精选83
Gemini 3.5:前沿智能与行动能力相结合

Google 在 I/O 大会上正式发布了最新的 Gemini 3.5 模型系列。该系列模型将前沿的人工智能能力与执行操作的功能相结合,旨在提供更强的综合性能。作为 Google 最新推出的模型,它代表了其在大模型技术上的最新进展。

智能体Google多模态推理
关联讨论 15 条X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)IT之家(RSS)Google DeepMind:Blog(RSS)X:阶跃星辰 StepFun (@StepFun_ai)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Google AI (@GoogleAI)X:Jeff Dean (@JeffDean)X:Artificial Analysis (@ArtificialAnlys)X:Sundar Pichai (@sundarpichai)X:Google DeepMind (@GoogleDeepMind)X:Oran Ge (@oran_ge)X:Demis Hassabis (@demishassabis)
推荐理由:Google 在 I/O 上甩出 Gemini 3.5,这次不只拼多模态,更强调‘行动’,是所有做 Agent 的团队必须对标的新基座。
02:18
Google Blog:AI(RSS)
精选89
I/O 2026: 欢迎来到自主的 Gemini 时代

Google 在 I/O 2026 大会上宣布 Gemini 进入自主代理时代,新功能使其能够自动执行复杂任务,显著提升用户工作效率。大会展示了 Gemini 如何通过代理操作简化工作流程,实现自动化处理,例如自动管理邮件、安排日程或生成报告,帮助用户从重复性工作中解放出来,专注于创造性任务。这一更新基于先进机器学习模型,强调准确性与效率,标志着 AI 助手向更智能、更自主的方向发展。

智能体Google模型发布

推荐理由:谷歌 I/O 大会上 Sundar Pichai 亲自宣布 agentic Gemini 时代到来,这是把 Gemini 从对话助手升级成真正能自主执行任务的 agent,所有做 AI 应用的接下来都得重新看一遍技术选型。
02:18
Google Blog:AI(RSS)
精选75
Google Workspace 推出全新创建方式与高效工作功能

Google 在最新更新中为 Gmail、Docs 和 Keep 增添了新的语音功能,并推出了一款名为 Google Pics 的全新设计工具。同时,其 AI Inbox 功能也得到了升级与优化。这些更新旨在进一步提升用户在工作场景中的协作效率与创作体验,通过集成更智能的工具和交互方式,帮助用户更便捷地完成多项任务。

Google产品更新多模态语音
关联讨论 1 条X:Google AI (@GoogleAI)
推荐理由:Google Workspace 直接植入了语音操作和设计工具 Pics,这波更新对办公效率很实在,做产品和运营的可以关注一下实际落地效果。
02:18
Google Blog:AI(RSS)
精选71
AI Mode 如何改变美国人的搜索方式

AI Mode 上线一周年,美国用户搜索行为呈现关键转变。数据显示,用户正从传统的关键词输入模式逐渐转向自然语言查询,这一变化反映了AI搜索技术的普及和用户交互方式的优化。自然语言查询的使用率显著提升,体现了AI搜索在日常信息获取中的影响力增强,预示着未来搜索体验的革新方向。

Google搜索现象/趋势

推荐理由:AI Mode 上线一周年,Google 第一次拿出用户行为数据,从关键词到自然语言的转向比想象中快,做搜索和 SEO 的可以重新理解用户意图了。
02:06
Google Research:Blog(网页)
精选65
经验研究助手(ERA):从Nature发表到催化计算发现

Google Research开发的经验研究助手(ERA)现已在《Nature》期刊发表论文。这是一款基于Gemini的AI工具,旨在协助科学家编写专业级经验科学代码,其核心能力包括搜索文献、生成代码、探索方案并迭代优化,以加速耗时的计算实验过程。该工具已被用于构建“计算发现”原型,并已通过Google Labs的“可信赖测试者计划”向更广泛的科学家群体开放初步试用。

Google产品更新编码

推荐理由:谷歌把AI科学编码工具ERA发到了Nature,顺便在Google Labs推出了计算发现实验版,流行病预测和碳追踪的案例很扎实,科研圈的开发者和产品人可以关注下实际进展。
02:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
51
推进内容溯源,构建更安全、更透明的AI生态系统

OpenAI推出了新的AI内容溯源体系,旨在提升AI生成媒体的可信度。该体系集成了Content Credentials和SynthID两种技术标准,并配套推出了一个验证工具。此举的核心目标是帮助公众有效识别AI生成的内容,从而建立对AI媒体的信任,最终推动一个更安全、更透明的AI生态发展。

GoogleOpenAI产品更新安全/对齐
01:48
Google Blog:AI(RSS)
精选81
Google I/O 2026

在Google I/O 2026大会上,Google宣布了多项旨在让AI更普惠、更实用的更新。这些发布聚焦于提升人工智能的辅助能力,使其能够服务更广泛的用户群体。大会涵盖了AI在开发者工具、用户应用以及日常生活场景中的具体改进,强调通过技术优化实现更自然、更便捷的人机交互体验。

Google行业动态
关联讨论 5 条Google Research:Blog(网页)Google Blog:AI(RSS)X:Google AI for Developers (@googleaidevs)Google Developers Blog(RSS)Ars Technica:AI(RSS)
推荐理由:Google I/O 2026 官方合集,一页看完今年谷歌所有的 AI 动作,从模型到产品都在这,嫌消息碎的收藏这篇就够了。
01:48
Google DeepMind:Blog(RSS)
精选81
介绍 Google Antigravity 2.0

Google Antigravity 2.0 是一款全新独立桌面应用,支持 macOS、Linux 和 Windows,无 IDE 绑定,由最新 Gemini 模型驱动,面向企业。核心为智能体,支持同步与异步交互。新增动态子智能体(主智能体可动态创建子智能体并行完成子任务)、异步任务管理、JSON 格式钩子(可拦截并控制智能体行为)、定时任务(通过 `/schedule` 命令设置周期或一次性触发)。引入“项目”概念替代“工作区”,可跨多个文件夹并独立设置权限与规则。新增斜杠命令:`/goal` 自动执行至完成、`/grill-me` 实施前反向确认、`/browser` 显式控制浏览器。语音输入改为实时转录。

智能体Google产品更新
关联讨论 2 条X:Google AI for Developers (@googleaidevs)X:Testing Catalog (@testingcatalog)
推荐理由:Antigravity 从 IDE 里的一个面板变成独立桌面应用,代理优先的体验终于不用绑着代码编辑器了,新加的计划任务和实时语音转录让它更像一个通用 AI 工作台。
01:48
Google DeepMind:Blog(RSS)
精选83
推出Gemini Omni多模态AI模型

谷歌推出原生多模态AI模型Gemini Omni,能够整合视频、图像、音频和文本等多种输入,生成高质量视频内容。其核心能力是通过自然语言对话进行视频编辑,并能保持角色一致性、物理规律与场景连贯性。首个模型Gemini Omni Flash已上线,未来将支持图像和音频输出。Gemini Omni结合了对物理世界的直觉理解与丰富的知识库,支持从写实到叙事的创意生成,并可通过多轮对话持续编辑视频,而不丢失原始场景上下文。

DeepMindGoogle多模态模型发布
关联讨论 10 条X:Gemini (@GeminiApp)X:Demis Hassabis (@demishassabis)X:Google DeepMind (@GoogleDeepMind)X:Google AI (@GoogleAI)X:Berry Xia (@berryxia)X:Ethan Mollick (@emollick)X:Sundar Pichai (@sundarpichai)X:阿易 AI Notes (@AYi_AInotes)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)
推荐理由:Gemini Omni 把视频生成从画面堆砌推到了物理世界叙事,多轮自然语言编辑和世界知识融合是真正的代际升级,做视频内容的该重新理解工具的定义了。
01:48
Google DeepMind:Blog(RSS)
51
使用 Project Genie 和 Street View 模拟真实世界场景

谷歌宣布向全球的 Google AI Ultra 订阅者开放新的访问权限,并推出一项基于 Street View 数据驱动的全新功能。该功能能够模拟真实世界的地点与场景,标志着 AI 在结合地理信息与沉浸式体验方面迈出新步伐,为用户带来更具现实感的交互与探索可能性。

DeepMindGoogle产品更新具身智能
01:48
Google DeepMind:Blog(RSS)
47
加速遗传线索以逆转细胞衰老

生物学家利用Co-Scientist这一工具,成功发现能够使人类细胞年轻化的新型因子。该研究通过人工智能加速了遗传线索的探索过程,为逆转细胞衰老领域提供了新的关键因素。这一发现标志着利用技术手段干预生物老化进程取得了实质性进展。

数据/训练行业动态
5月19日
23:18
Qwen:Blog Retrieval(API)
精选77
Qwen3.5-LiveTranslate:从声音到视觉,从词语到准确

Qwen3.5-LiveTranslate-Flash 是 Qwen 家族最新的同声传译模型,基于 Qwen3.5-Omni 架构,支持实时多模态翻译(音频、视频及视觉上下文)。语言覆盖大幅扩展:输入音频与输出文本从18种增至60种,输出音频从10种增至29种。采用 Readable Unit 技术,平均端到端每 token 延迟降至2.8秒,相比前代首 token 延迟降低3.45秒、每 token 延迟降低1.88秒。支持一句话启动的实时语音克隆和可动态配置的热词增强。在 FLEURS 和 CoVoST2 基准上翻译准确率超越主流商用大语音模型。

多模态模型发布语音

推荐理由:这个版本让同声传译从“能用”变成了“好用”,语言覆盖从 18 跃升 60,延迟压到 2.8 秒,加上视觉消除歧义,做国际业务和直播的人值得跟进。
23:01
Hugging Face:Blog(RSS)
精选60
引入 Ettin Reranker 系列

Hugging Face 发布六个 Ettin Reranker 重排序模型(17m、32m、68m、150m、400m、1b),基于 Ettin ModernBERT 编码器,蒸馏 self-mxbai-rerank-large-v2 分数训练,在 MTEB(eng, v2) Retrieval 达各自规模 SOTA。模型以 Sentence Transformers CrossEncoder 接口提供,三行代码可调用。同时发布 train-sentence-transformers Agent Skill(v5.5.0),允许 AI 编码智能体在用户数据上微调模型。训练配方、数据集和脚本已全部开源。

Hugging Face检索增强开源/仓库搜索

推荐理由:从17M到1B的全尺寸reranker家族,每个量级都是SOTA,而且训练数据和代码全开放,做搜索和RAG的开发者可以无痛替换旧模型。
22:53
Cloudflare Blog
精选72
宣布Claude Managed Agents登陆Cloudflare

Cloudflare宣布与Anthropic的Claude Managed Agents深度整合,提供快速、隔离的自主代码交付执行环境。该集成使开发者能够在全球范围内扩展代理工作流,同时严格控制私有后端访问权限,并支持灵活自定义代理工具及运行时配置。

智能体Anthropic产品更新

推荐理由:Cloudflare 给 Claude 代理上了全球分布式引擎,对想在边缘跑自主代码的开发者,这是基础设施层的拼图落地,值得上手试。
20:57
Anthropic:Newsroom(网页)
精选62
毕马威与Anthropic建立全球联盟,全面整合Claude AI模型

毕马威宣布与Anthropic建立全球联盟,将Claude人工智能模型全面整合至其核心业务与数字平台。此举将向毕马威全球超过27.6万名员工开放Claude访问权限,并率先应用于税务与法律等领域的客户工具开发。双方还将合作开发面向私募股权投资组合公司及网络安全漏洞检测的新产品。毕马威强调此次合作基于其可信AI框架,旨在通过负责任、可治理的AI部署,加速企业数字化转型。

Anthropic行业动态部署/工程

推荐理由:KPMG 不是在做实验,而是直接把 Claude 嵌进 Digital Gateway 并推向 27.6 万员工,这是四大里 AI 落地最扎实的案例,企业服务领域的 AI 渗透正在从口号变成真动作。
20:14
公众号:火山引擎
48
火山引擎FORCE原动力大会,定档6月23日
其他行业动态
20:07
Apple:Newsroom(RSS)
精选57
苹果发布全新辅助功能,并引入Apple Intelligence进行更新

苹果公司宣布推出由Apple Intelligence驱动的重大辅助功能更新。此次更新为VoiceOver、放大镜(Magnifier)和语音控制(Voice Control)功能引入了新的能力,旨在提升残障用户设备的可用性。这是苹果首次将Apple Intelligence应用于其辅助功能技术组合。

产品更新多模态端侧

推荐理由:Apple Intelligence为无障碍功能带来自然语言交互和更智能的视觉辅助,是不错的方向,但全是远期承诺,现在还不能上手。
19:55
公众号:百度智能云(文心)
35
再出新证!智能体开发工程师证书正式发布
智能体行业动态
19:55
公众号:百度智能云(文心)
31
视启未来🤝百度智能云:给大模型一双手,让AI真正触碰物理世界

百度智能云提出给大模型一双手,让AI真正触碰物理世界。该方案旨在让大模型具备物理交互能力,实现与现实世界的直接操作。

产品更新具身智能
19:55
公众号:百度智能云(文心)
25
AI重构游戏生产力,百度智能云已与超半数主流游戏厂商达成合作

百度智能云已与超半数主流游戏厂商达成合作,利用AI技术重构游戏生产力。

其他行业动态
19:02
公众号:面壁智能(MiniCPM)
29
面壁智能WAIDE:端侧AI在多行业实现场景突破

面壁智能的端侧AI平台WAIDE已在多个行业实现场景落地,推动AI应用从云端向终端延伸。

端侧行业动态
17:59
公众号:小红书技术(dots.llm)
22
QECon深圳2026|小红书技术专场:Agent驱动的研发效率工程探索与实践
智能体行业动态
17:09
Claude:Blog(网页)
精选77
Claude智能体托管平台新增自托管沙箱与MCP隧道功能

Anthropic为其Claude智能体托管平台推出两项更新:自托管沙箱允许用户在自有基础设施或合作云平台上运行工具,确保敏感数据与服务保留在用户控制范围内;MCP隧道则通过轻量网关,使智能体能安全连接企业私有网络内的数据库与API,无需暴露于公网。目前沙箱功能已进入公测,隧道处于研究预览阶段。这两项更新进一步增强了企业用户对智能体执行环境与内部资源访问的安全管控能力。

AnthropicMCP/工具产品更新部署/工程
关联讨论 3 条Claude:Blog(网页)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)
推荐理由:自托管沙箱把agent执行挪到企业自己的基础设施里,敏感数据不再离开边界,这是让金融医疗等合规行业敢用AI agent的关键能力。MCP隧道补上了内网服务连接,组件已经完整。
16:30
公众号:通义实验室(千问)
47
30W奖池已就位!手机上的创意AI挑战赛,等你瓜分
端侧行业动态
14:28
公众号:可灵AI(快手·视频)
24
可灵AI与候鸟300发起"候鸟记忆复活计划"

可灵AI与候鸟300合作推出#候鸟记忆复活计划,邀请曾参与候鸟300的艺术家用旧照片、影像、手稿或故事作为素材,通过可灵AI续写创作。活动即日起至5月31日,带话题发布视频并填写问卷即视为参与。将综合创意独特性和技术表现力筛选10支优秀作品,各奖励12,000灵感值。

图像生成行业动态视频
08:59
Claude Code:GitHub Releases(RSS)
精选65
Claude AI助手v2.1.144版本更新

Claude AI助手发布了v2.1.144版本。此次更新主要新增了对后台会话的`/resume`支持,并将“extra usage”更名为“usage credits”。同时包含了多项重要修复:优化了网络异常处理,解决启动卡顿问题;修复了窗口大小调整和长时间会话导致的终端显示错乱;解决了macOS特定文件夹下的崩溃问题。此外,还改进了模型选择持久化、文件读取、工具调用以及MCP服务器分页工具列表的处理,并减少了在VS Code中的渲染故障。本次更新显著提升了工具的稳定性和用户体验。

智能体Anthropic产品更新编码
关联讨论 2 条Claude Code:GitHub Releases(RSS)X:Claude Devs (@ClaudeDevs)
推荐理由:如果你被 Claude Code 启动卡住 75 秒折磨过,这次更新终于修了,还支持后台会话 /resume,体验好了一个档次。
08:00
Apple Machine Learning Research(RSS)
46
EpiCache:面向资源受限环境的长程对话场景式KV Cache管理

现有大语言模型虽能处理超长对话,但随对话历史线性增长的KV Cache会导致内存占用迅速超出设备限制。当前KV Cache压缩方法大多在处理完整上下文后才进行缓存淘汰,造成无界峰值内存占用。此外,基于查询的淘汰机制将缓存语义狭窄化至单次查询,导致失效。

论文/研究部署/工程
05:11
xAI:News(网页)
精选68
Grok平台技能功能上线

xAI于2026年5月18日正式推出Grok的“Skills”功能,旨在提供持久的专业知识支持。该功能允许用户对Grok进行一次性的偏好、格式规则或工作流程设置,即可在所有对话中持续生效,无需重复说明。Skills功能已在网页、iOS和Android平台全面上线,内置了创建与编辑Word文档、PPT演示文稿、Excel电子表格及处理PDF文件等开箱即用的技能。用户可以覆盖内置技能进行自定义,也能够通过对话快速创建新技能,从而实现工作流自动化与专业文档的便捷生成。

智能体xAI产品更新

推荐理由:Grok 终于有了自己的「GPTs」式技能系统,文档、表格、PPT 一把抓,对办公场景的覆盖比单纯的对话助手实用多了,值得 Grok 用户上手一试。
03:19
Tomer Tunguz 博客(VC 分析)
48
多模型协作写作的实践与思考

作者分享了16年来运用AI辅助写作的经验。他尝试组建由Gemini、Claude和OpenAI Codex构成的“AI编辑委员会”,让多模型协作修改文章,结果却如手指画般混乱。每个AI模型都有其独特的“声音”与编辑理念,难以达成统一的文风与基调。作者最终指出,AI虽能高效生成内容,但正是写作中那些类似黑胶唱片噼啪声或胶片光晕般的不完美细节,才构成了真实而优秀的写作,这是AI目前难以模仿的核心所在。

其他大佬观点
03:14
Runway:News(网页)
精选57
分布式训练为何艰难:DTensor、正确性与抽象的代价

本文探讨了分布式训练中的正确性难题及DTensor方案的权衡。DTensor通过为张量附加放置元数据(如Shard、Replicate)来自动管理通信,确保计算正确性。文章通过一个并行化案例,展示了不使用DTensor时手动处理梯度计算可能引发的静默错误(如梯度为零或倍增),从而凸显了正确性的复杂性。然而,DTensor的抽象层在简化开发的同时,也可能在大规模场景下引入隐性的性能开销。因此,在设计分布式系统时,需要在抽象的开发便利与底层的计算效率之间做出审慎权衡。

教程/实践部署/工程

推荐理由:Runway 工程师用四次失败的并行化尝试把分布式训练的正确性难题拆解得明明白白,还给出了 DTensor 在规模下吃掉的 MFU 和编译陷阱的一手数据,做大模型训练的人值得从头读到尾。
02:45
Gary Marcus:The Road to AI We Can Trust(RSS)
43
世纪AI审判悄然结束

世纪性的AI审判最终以微弱的方式落幕,未能公开关键技术细节和决策过程。审判结果未提供具体数据或指标,仅以概括性结论结束,留下多个未解之谜,包括影响范围和责任划分等。这导致一些核心信息永远无法知晓,引发了公众对AI透明度和伦理问题的持续关注。

OpenAI大佬观点
01:26
OpenAI:官网动态(RSS · 排除企业/客户案例)
46
OpenAI与Dell合作将Codex引入混合及本地企业环境

OpenAI与Dell达成合作,将Codex编程代理引入企业混合云及本地部署环境。该合作旨在帮助企业在自身数据和业务流程中安全集成AI编码能力,强化对敏感数据的管控。此举标志着企业级AI工具部署方式的重要扩展,为受监管行业提供了符合数据主权要求的解决方案。

OpenAI编码行业动态
01:06
Anthropic:Newsroom(网页)
精选64
Anthropic收购SDK与MCP服务器工具开发商Stainless

Anthropic宣布收购SDK与MCP服务器工具开发商Stainless。Stainless自2022年成立以来,一直为Anthropic官方SDK的生成提供支持,其工具能将API规范转化为TypeScript、Python、Go等多语言的SDK、命令行工具及MCP服务器。此次收购旨在增强Claude平台的开发者体验,提升AI代理连接外部数据与工具的能力,从而在MCP协议基础上进一步拓展连接生态。

智能体AnthropicMCP/工具行业动态
关联讨论 1 条X:Anthropic (@AnthropicAI)
推荐理由:Anthropic收购Stainless,表面是SDK团队整合,深层是给Claude的Agent连接能力铺路。未来MCP服务器的质量和数量可能会跨一个台阶,做Agent开发的值得关注。
00:59
GitHub Blog
精选69
将你的本地GitHub会话带到任何地方

GitHub为Copilot功能推出了远程控制会话能力,并已全面上线。该功能允许用户在VS Code或命令行中启动Copilot任务后,可随时随地通过github.com网站或GitHub Mobile移动端应用继续操作,实现了开发工作流从桌面端到移动端的无缝衔接。此更新增强了开发者在不同场景下的灵活性和工作效率。

GitHub产品更新编码

推荐理由:Copilot跨设备会话看起来是个小功能,但它解决了开发者切换设备时的心流中断问题,这种对工作连续性的打磨比单纯堆性能更聪明。
00:52
Hugging Face:Blog(RSS)
精选67
NVIDIA Cosmos Predict 2.5 微调:使用 LoRA/DoRA 生成机器人视频

NVIDIA Cosmos Predict 2.5 是一个 2B 参数的世界模型,可根据文本、图像或视频片段生成物理合理的视频。通过 LoRA 或 DoRA 在 DiT 的注意力层(to_q, to_k, to_v, to_out.0)和前馈层注入可训练适配器,冻结全部基座权重,在单个 80GB GPU 上即可完成参数高效微调,避免了全量微调的高成本与灾难性遗忘。该流程使用 diffusers 和 accelerate 库,利用 92 个机器人操作视频训练集与 50 个 (prompt, image) 测试对进行微调,并展示如何用微调模型生成合成机器人轨迹以支持下游机器人学习任务。支持单 GPU 与多 GPU 训练,切换不同领域适配器无需重训。

具身智能教程/实践数据/训练视频

推荐理由:这篇教程把微调Cosmos Predict 2.5的方法从头到尾讲清楚了,做机器人合成数据的同行可以直接抄作业,LoRA/DoRA切换也很方便,值得收藏。
00:51
Cursor Blog
精选74
Composer 2.5 发布与技术解析

Cursor 平台发布了智能与行为表现大幅提升的 Composer 2.5。该模型更擅长执行复杂指令和长期任务。其改进基于训练规模的扩大、更复杂的强化学习环境及新的学习方法。关键技术包括:使用文本反馈进行针对性强化学习以纠正具体错误;采用基于真实代码库、规模达前代25倍的合成数据进行训练;并引入分片Muon优化器等新架构。模型基于Moonshot的开源检查点构建。开发团队正合作训练一个计算量十倍的更大模型,并在大规模训练中发现了新型奖励作弊问题。

智能体产品更新编码
关联讨论 5 条X:小互 (@xiaohu)Cursor BlogX:宝玉 (@dotey)X:Berry Xia (@berryxia)Hacker News 热门(buzzing.cc 中文翻译)
推荐理由:Cursor的Composer 2.5不只是换个模型,它在长任务上的耐性和指令跟随的准确性提升肉眼可见,训练细节里藏的’文本反馈修正‘方法,对做AI产品的应该会有所启发。
5月18日
23:52
Hugging Face:Blog(RSS)
精选68
PaddleOCR 3.5:使用Transformers后端运行OCR和文档解析任务

PaddleOCR 发布 3.5 版本,正式将 Transformers 确立为运行 PP-OCRv5 及 PaddleOCR-VL 1.5 模型的可选推理后端之一。此次更新引入了更灵活的 `engine` 与 `engine_config` 参数,允许开发者自主选择后端并配置数据类型、设备等选项。其核心价值在于,显著降低了将文档处理能力集成至以 Transformers 为中心的主流开发栈(如 RAG、智能体、文档AI)的门槛,使开发者能更便捷地利用现有生态,减少集成阻力,从而专注于下游应用构建。

Hugging Face检索增强产品更新多模态

推荐理由:PaddleOCR 3.5 最大的变化不是新模型,而是终于能跑在 Transformers 上了,做 RAG 和文档智能的开发者可以少写一堆胶水代码。
‹ 上一页
1…1213141516…50
下一页 ›