AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态一手 · 2385 条
全部一手资讯X论文
6月11日周四
6月10日周三
6月9日周二
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月11日
05:23
Claude Code:GitHub Releases(RSS)
精选69
Claude Code v2.1.172 发布

子智能体现可创建自己的子智能体,最多嵌套5层。Amazon Bedrock 在未设置 AWS_REGION 时从 ~/.aws/config 读取区域。插件市场新增搜索栏。修复了使用1M上下文且无使用额度的会话永久卡住的问题,现会自动压缩回标准上下文限制。修复了多个图片导致重复报错等问题。改进了长对话性能,减少冗余消息归一化和不必要的UI重绘,降低空闲CPU占用。Claude in Chrome 工具加载改为单次批量调用。/code-review 在未登录时保留 ultra 选项并提示需要 claude.ai 账户。

智能体Anthropic产品更新
关联讨论 2 条Claude Code:GitHub Releases(RSS)X:Claude Devs (@ClaudeDevs)
推荐理由:子代理现在可以递归生成子代理(最多 5 层),这个特性让复杂的多 agent 编排成为可能,但总体还是以 bug 修复为主,Bedrock 的区域读取也更顺手了,Claude Code 用户直接升级即可。
04:29
OpenRouter:Announcements(RSS)
精选67
Gemini 2.5 Flash API - 定价、快速入门与提供商比较

Gemini 2.5 Flash API 支持配置思考预算(thinking budgets),用户可跨提供商进行比较,并在5分钟内完成首次API调用。

Google推理教程/实践

推荐理由:想给 Gemini 2.5 Flash 省钱调 thinking budget?这篇把各提供商的定价和配置一次说清,五分钟就能跑通第一个调用,做 API 集成的可以直接抄。
04:23
Cursor Blog
精选74
Cursor Bugbot 更新:速度提升超 3 倍、成本降低 22%、发现更多 Bug

Cursor 的代码审查工具 Bugbot 迎来重大更新:运行速度提升超 3 倍,成本降低 22%,每轮审查多发现 10% 的 bug,90% 的运行在三分钟内完成。新增 `/review` 命令,可在推送代码前运行 Bugbot 和安全审查,并与 GitHub/GitLab 同步——若已通过 `/review` 审查过同一 diff,打开 PR 时 Bugbot 会自动跳过并备注。支持配置仅审查 PR 中新增内容。性能提升源于驱动 Bugbot 的 Composer 2.5 模型训练改进。Bugbot 遵循模型阻止列表,若组织禁用 Composer 2.5 则自动回退。该功能已在 Cursor 3.7+ 和 cursor.com/agents 上线,CLI 支持即将推出。

智能体产品更新编码

推荐理由:Cursor 的 Bugbot 三倍速跑 review 还便宜了 22%,这次更新让「commit 前先审一遍」变得几乎无痛,对日常开发流是个实在提升。
04:03
OpenAI:官网动态(RSS · 排除企业/客户案例)
36
OpenAI报告:PRC关联影响力行动瞄准美国AI辩论

OpenAI发布最新报告,详细披露了PRC关联的影响力行动利用AI工具干扰美国科技辩论、数据中心选址叙事、关税政策讨论,并散布关于ChatGPT的虚假指控。

OpenAI安全/对齐
03:42
Tomer Tunguz 博客(VC 分析)
72
Anthropic Fable 模型的"玻璃天花板":最强性能与强护栏并存

Anthropic 的 Fable 模型(Claude Fable 5)推理性能翻倍,关键基准测试得分提升 10–15 个百分点,远超此前约 2 个百分点的典型进步。Stripe 借助该模型将 5000 万行 Ruby 代码库的迁移压缩至一天,数万行代码重构仅用 45 分钟。然而 Fable 施加了强护栏限制,对违规话题(如植物细胞、现代大语言模型描述、软件安全)容易触发温和提示——这是为维持系统稳定而设定的“玻璃天花板”,其下方仍有广阔探索空间。

Anthropic大佬观点安全/对齐模型发布
关联讨论 25 条公众号:卡尔的AI沃茨TechCrunch:AI(RSS)X:OpenRouter (@OpenRouter)X:Perplexity (@perplexity_ai)Simon Willison 博客The Verge:AI(RSS)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)X:Claude (@claudeai)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)X:宝玉 (@dotey)X:Rohan Paul (@rohanpaul_ai)X:Boris Cherny (@bcherny)X:Andrej Karpathy (@karpathy)X:歸藏 (@op7418)The Decoder:AI News(RSS)X:Artificial Analysis (@ArtificialAnlys)X:Berry Xia (@berryxia)IT之家(RSS)公众号:数字生命卡兹克X:卡兹克 (@Khazix0918)X:小互 (@xiaohu)
02:46
Google Research:Blog(网页)
精选63
Google Research提出审计机器遗忘新框架

Google Research 在 AISTATS 2026 发表正则化 f-散度核检验,用于高效审计 LLM 等模型的机器遗忘。该方法通过统计两样本检验判断模型是否真正“忘记”特定训练数据,避免完全重训的巨大成本。相比最大均值差异等现有工具,新框架理论上可在任意样本量下自然控制假阳性,且假阴性风险随可用样本增加可靠收敛至零,解决了大规模模型审计中计算成本过高的问题。

Google安全/对齐论文/研究

推荐理由:机器遗忘是AI合规的硬需求,但验证‘真忘了’一直是统计难题。谷歌这篇AISTATS论文提出了一套更灵敏的差异测试框架,做隐私审计的值得细看。
02:40
xAI:News(网页)
精选69
eToro AI 智能体 Tori 集成 SpaceXAI 文本模型实现实时市场情绪分析

6 月 10 日,eToro 宣布其 AI 智能体 Tori 集成来自 SpaceXAI 的文本模型,能够从 X 平台实时读取市场情绪变化、追踪信号并分析信息。Tori 现已在 eToro 的投资流程中嵌入该能力,支持用户以自然语言查询和解读市场情绪。eToro 拥有超过 4000 万注册用户,覆盖 75 个国家。该功能基于 SpaceXAI API 构建,其他开发团队也可通过 API 控制台在数分钟内搭建类似应用,如研究助手或情绪看板。

xAI行业动态部署/工程

推荐理由:xAI 的实时 X 数据能力正式嵌入 eToro 投资助手 Tori,4000 万散户第一次能用上基于社交情绪的智能分析,虽然只是一个 API 集成案例,但把‘市场脉搏’塞进 AI 助手的方向对了。
02:10
Claude:Blog(网页)
精选75
智能体表面的演进:使用 Claude Managed Agents 构建

Anthropic 推出 Claude Managed Agents,一套可组合 API 套件,用于构建和部署生产级智能体。该产品从早期简单 API 演进至 Claude Agent SDK,再到将智能体调度层与代码执行沙箱解耦的 Managed Agents。通过只追加日志的会话机制,Managed Agents 解决了托管伸缩、会话持久化、文件系统管理、执行隔离、凭证安全与可观测性等生产部署挑战。团队借助该方案可在数天内完成从原型到生产环境的转化,无需自建基础设施。

智能体AnthropicMCP/工具产品更新
关联讨论 1 条X:Claude (@claudeai)
推荐理由:Claude Managed Agents 把代理部署的复杂基础设施打包成了 API,让团队从原型到上线只需几天而不是几个月,尤其凭证隔离和延迟优化对生产环境很关键,想部署可靠代理的团队可以认真看看。
01:44
Gary Marcus:The Road to AI We Can Trust(RSS)
精选64
突发:Google 因模型幻觉被判负有法律责任

一项法律裁决判定 Google 对其 AI 模型产生的幻觉内容负有法律责任。该判决可能产生巨大影响,尤其若其他国家跟进做出类似裁定。

Google安全/对齐政策/监管
关联讨论 3 条The Decoder:AI News(RSS)Gary Marcus:The Road to AI We Can Trust(RSS)Hacker News 热门(buzzing.cc 中文翻译)
推荐理由:这个判决目前还只有一面之词,缺少判决书原文,但如果属实,对 AI 产品的法律责任界定可能是里程碑级别的事件,所有做应用的人都要盯后续。
00:44
Gary Marcus:The Road to AI We Can Trust(RSS)
精选59
回顾与 Steve Eisman 的访谈,以及可能的关键新闻

原文回顾了与 Steve Eisman 的最新访谈,并指出一些可能具有关键意义的新闻,未提供具体细节。

大佬观点安全/对齐

推荐理由:Gary Marcus又来给AI泼冷水了,这次他把采访和突发新闻串起来,预测‘终结如何开始’,虽然结论未必对,但反方视角总是市场最缺的清醒剂。
00:40
Google DeepMind:Blog(RSS)
精选84
DiffusionGemma:文本生成速度提升4倍的开源扩散模型

Google DeepMind 发布开源实验模型 DiffusionGemma,采用文本扩散技术,突破自回归逐 token 生成方式,每次前向并行生成 256 个 token。该 26B MoE 模型推理时仅激活 3.8B 参数,量化后适配 18GB 显存消费级 GPU。在 H100 上达 1000+ tokens/s,RTX 5090 上 700+ tokens/s,速度提升 4 倍。具备双向注意力和自我修正能力,面向内联编辑、代码填充等本地交互工作流,以 Apache 2.0 许可证开放。

Hugging Face开源/仓库推理模型发布
关联讨论 7 条X:Sundar Pichai (@sundarpichai)X:Google AI for Developers (@googleaidevs)X:Google DeepMind (@GoogleDeepMind)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)MarkTechPost(RSS)X:Demis Hassabis (@demishassabis)
推荐理由:DiffusionGemma 用扩散方式把推理速度拉到 4 倍,这是把本地部署的瓶颈从内存带宽转向了计算,对于实时编辑、代码补全这类场景,这个思路比单纯提升模型质量更有价值。
00:39
Google Developers Blog(RSS)
78
DiffusionGemma 开发者指南

DiffusionGemma 是 Google 基于 Gemma 4 架构的实验性文本生成模型,采用扩散式并行生成替代逐 token 自回归,实现更快推理、双向上下文感知和实时自我修正,并可在消费级 GPU 上部署。模型通过迭代去噪并行生成并细化 256-token 块,在处理数独等复杂约束任务上优于传统语言模型,且微调效果显著。它已集成 vLLM 等推理框架,为开发者提供一种高性能、高效长上下文扩展且易于定制部署的非自回归新方法。

Google推理模型发布部署/工程
关联讨论 7 条X:Sundar Pichai (@sundarpichai)X:Google AI for Developers (@googleaidevs)X:Google DeepMind (@GoogleDeepMind)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)MarkTechPost(RSS)X:Demis Hassabis (@demishassabis)
00:23
GitHub Blog
精选68
通过语言服务器为 GitHub Copilot CLI 提供真正的代码智能

GitHub Copilot CLI 现在可以通过安装和配置 LSP(Language Server Protocol)服务器来替代原始的暴力 grep 或反编译方式,从而获得真正的代码智能。

GitHub教程/实践编码

推荐理由:虽然只是 Copilot CLI 的一个功能指南,但用 LSP 替代 grep 带来的代码理解提升是实打实的,搞 CLI 开发的可以直接抄作业。
6月10日
19:30
公众号:腾讯元宝
通知全体高考生:请务必好好玩
17:50
公众号:百度智能云(文心)
精选63
百度百舸联合复旦提出LU-KV框架,被ICML 2026录用

百度百舸团队与复旦大学合作提出Long-horizon Utility KV(LU-KV)框架,将头级KV Cache预算分配建模为面向长程边际效用的全局组合优化问题。LU-KV通过离线画像估计注意力头边际贡献曲线,结合凸包松弛与基于边际效用的贪心求解器,在较低开销下得到接近最优的预算配置,可适配SnapKV、KeyDiff等多类压缩方法。在LongBench和RULER基准上,80%压缩比下性能损失小,降低显存占用和推理延迟。相关论文被ICML 2026录用。

推理论文/研究

推荐理由:ICML接收的KV Cache压缩新方法,把缓存预算分配从看当前分数改成全局优化,能显著降低显存占用,做长上下文推理的值得细读。
17:50
公众号:百度智能云(文心)
26
利尔达与百度智能云合作,将AI能力集成至模组

物联网模组厂商利尔达(蜂窝模组出货量全球第四)与百度智能云合作,将后者的多模态实时互动、超拟人语音模型、长期记忆、情绪识别、Function Call设备控制、MCP生态扩展等AI能力通过轻量级SDK深度集成至模组中。联合方案实现端到端响应时长低于2秒,休眠功耗低至3µA,支持多语言出海,并将硬件研发周期从年压缩至周级别。百度智能云已服务逾千家AI硬件企业,覆盖国民级终端、全场景智能及AI原生硬件。

端侧行业动态语音
17:10
OpenAI:官网动态(RSS · 排除企业/客户案例)
21
从数据到决策:LSEG如何规模化可信AI

LSEG利用OpenAI在其全球业务中规模化部署可信AI,加速业务洞察获取,缩短发布周期,并赋能4000名员工。

OpenAI行业动态
16:10
公众号:面壁智能(MiniCPM)
6.13 派对邀请丨端侧模型+精酿啤酒,这可能是上海最"对味"的AGI派对
16:10
公众号:面壁智能(MiniCPM)
倒计时2天|面壁智能亮相智源大会,共话中国大模型新未来
15:10
公众号:千问APP(阿里)
69
千问上线国内首个全周期高考志愿填报Agent,免费服务全国考生

千问今日上线国内首个全周期高考志愿填报Agent,基于千问高考志愿大模型和夸克8年高考数据,免费为全国考生提供服务。该Agent具备“志愿日历”“志愿报告”“志愿问答”三项核心能力:志愿日历根据选科、估分等信息量身定制分步骤规划;志愿报告今年升级,可捕捉细节需求、实时调整并具备自我检查机制;志愿问答融合位次法定位等专家经验。同时开展“暖芒公益”计划,针对老旧机型与弱网环境进行优化。

智能体产品更新数据/训练
14:50
公众号:千问APP(阿里)
21
千问高考志愿Agent上线,帮助考生估分选志愿

高考结束后,考生可通过千问完成志愿填报第一步:打开千问,点击首页底部【千问高考】,创建个人档案,然后跟随千问的指引选择志愿。

教程/实践
14:10
公众号:千问APP(阿里)
精选66
2026年高考,跟着千问,选好志愿!

千问发布国内首个全周期高考志愿填报Agent,由数百位资深高报师参与训练。该智能体提供AI志愿报告,为考生量身定制深度全面的填报方案;AI志愿日历帮助制定专属填报计划;高考专业知识库整合夸克高考8年积累,并引入志愿专家顾问,数据权威可信赖,全程陪伴考生完成志愿填报。

产品更新其他

推荐理由:高考志愿填报不算新场景,但千问整合了夸克8年数据和数百位高报师,对考生家长算是比较靠谱的实用助手,可以试试。
12:40
公众号:火山引擎
精选68
火山方舟版权商业化平台上线,周星驰比高集团三大电影IP首批入驻

火山引擎今日上线火山方舟版权商业化平台,推出行业首个覆盖“授权—保护—审核—分发—变现”全链路的版权合作机制。平台搭载视频生成模型Seedance 2.0及版权治理体系,已获周星驰旗下比高集团《喜剧之王》《食神》《长江七号》三部影片在AI视频创作场景下的版权使用权,并基于Seedance 2.0打造经典桥段AI创作模板。模板已在火山方舟体验中心、火山引擎Kickart上线,同步开放给LibTV、筷子科技丽帧引擎等工具合作伙伴。平台面向UGC和商业广告场景提供分润制、项目制等变现路径,未来还将提供版权管理后台,实现授权可见、使用可查、收入透明。

产品更新视频

推荐理由:这是AI视频领域第一次有平台把版权授权、审核、变现全链路跑通,而且首批入驻的是周星驰的《喜剧之王》《食神》这种真金IP,做AI视频的人终于不用在侵权边缘试探了。
07:27
Nathan Lambert:Interconnects(RSS)
56
Claude Fable 5 与新的 AI 安全寓言

前沿 AI 系统的权力政治又向前迈进了一步。Claude Fable 5 及新 AI 安全寓言标志着这一进展。

大佬观点安全/对齐
关联讨论 25 条公众号:卡尔的AI沃茨TechCrunch:AI(RSS)X:OpenRouter (@OpenRouter)X:Perplexity (@perplexity_ai)Simon Willison 博客The Verge:AI(RSS)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)X:Claude (@claudeai)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)X:宝玉 (@dotey)X:Rohan Paul (@rohanpaul_ai)X:Boris Cherny (@bcherny)X:Andrej Karpathy (@karpathy)X:歸藏 (@op7418)The Decoder:AI News(RSS)X:Artificial Analysis (@ArtificialAnlys)X:Berry Xia (@berryxia)IT之家(RSS)公众号:数字生命卡兹克X:卡兹克 (@Khazix0918)X:小互 (@xiaohu)
06:22
OpenAI:官网动态(RSS · 排除企业/客户案例)
44
Codex 为 Notion 解锁的能力

Notion 利用 Codex 一次性生成产品规格、构建面向网页的 AI 语音输入功能,并提升小团队的工程效率。

OpenAI教程/实践编码语音
05:55
Hugging Face:Blog(RSS)
精选74
将 GitHub CI 迁移到 Hugging Face Jobs

本文介绍了如何将 GitHub Actions 的 CI 作业迁移到 Hugging Face Jobs 上运行,以解决 GitHub Actions 速度慢、缺乏 GPU 支持等问题。通过使用 huggingface/jobs-actions 桥接,将 GitHub Actions 的 job 转为临时自托管运行器:GitHub App 监听 `workflow_job.queued` webhook,dispatcher Space 验证后启动对应硬件(CPU 或 t4-small、h200 等 GPU)的 HF Job,由 ephemeral runner 执行 CI 并上报结果。作者基于 Trackio 项目实际落地,CPU 作业时间减少约 30%,并新增了 GPU 测试套件。文章分步说明了复制 dispatcher Space、创建并安装 GitHub App、配置 webhook 和 HF_TOKEN 的具体步骤。

Hugging Face教程/实践部署/工程

推荐理由:HF 直接把 CI 桥接器开源了出来,教你把 GitHub Actions 迁到 HF Jobs 上跑 GPU 测试,ML 项目终于可以低成本配上显卡 CI,步骤清晰到能直接抄作业。
05:06
Claude:Blog(网页)
精选75
Claude Managed Agents 新增定时运行和环境变量存储功能

Claude Managed Agents 今日在 Claude Platform 公开测试两项新功能:代理可按 cron 计划自动执行周期性任务(如夜间数据同步、周度合规扫描、每日摘要),无需用户自建调度器,支持暂停、恢复、归档或按需触发;vaults 新增环境变量支持,允许代理通过 CLI 进行认证请求,真实密钥仅附加在网络边界,代理无法读取。已集成的 CLI 包括 Browserbase、KERNEL、Notion、Ramp 和 Sentry。Rakuten、Actively AI、Ando、Milana 等团队正在使用这些功能实现自动化数据报表、跨账户搜索、招聘提醒等场景。

智能体AnthropicMCP/工具产品更新
关联讨论 1 条X:Claude (@claudeai)
推荐理由:Claude Managed Agents 现在能定时跑任务和用 vault 安全连接 CLI 了,这基本解决了企业 agent 落地的两个最大痛点——自动化和凭证管理。做 agent 的团队应该仔细读。
04:55
Hugging Face:Blog(RSS)
精选73
Cohere发布North Mini Code:面向开发者的开源编码模型

Cohere发布North Mini Code,一款30B参数MoE模型(3B活跃参数),Apache 2.0开源。在Artificial Analysis Coding Index上得分33.4,超越Qwen3.5、Gemma 4等同类模型。后训练采用两阶段SFT和RLVR,在SWE-Bench Verified上pass@10达80.2%,Terminal-Bench v2上达55.1%。支持64K/128K上下文长度,专为智能体编码任务优化。

智能体开源生态模型发布编码
关联讨论 1 条X:opencode (@opencode)
推荐理由:Cohere的新编码模型North Mini Code以30B参数MoE架构,在SWE-bench pass@1达到61%,Apache 2.0开源,是小模型在agent coding领域真正可用的信号。
04:23
OpenRouter:Announcements(RSS)
精选75
OpenRouter 推出 Advisor 工具:让低成本模型可随时调用强模型增强生成

OpenRouter 发布 advisor 服务器工具,允许一个快速、便宜的模型在生成过程中咨询一个更强大的模型。具体而言,可用 GPT-4o Mini 处理日常例行工作,在关键时刻调用 Claude Fable 解决真正重要的问题,从而实现成本和质量的动态平衡。

智能体MCP/工具产品更新
关联讨论 2 条X:OpenRouter (@OpenRouter)OpenRouter:Announcements(RSS)
推荐理由:OpenRouter 把模型级联从看论文的构想变成了跑在 server 上的产品,对每天纠结用哪个模型的开发者来说,是个省心省钱的实在更新。
04:21
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选55
Nextdoor 工程师借助 Codex 与 GPT-5.5 无限制构建

Nextdoor 工程师利用 Codex 搭配 GPT-5.5 调查难以复现的问题、实现跨平台构建,并集中精力于产品成果。

OpenAI教程/实践编码

推荐理由:Nextdoor 用 Codex + GPT-5.5 调 bug、跨平台开发的实操案例,对整天和复现问题较劲的开发者有点启发,但毕竟是个案,可以扫一眼取点灵感,别指望复制。
03:55
Hugging Face:Blog(RSS)
精选67
Hugging Face 博客发布语音智能体代码切换基准测试

Hugging Face 博客发布针对语音智能体处理代码切换语音的基准测试。数据集覆盖西班牙语‑英语、法语‑英语、加拿大法语‑英语和德语‑英语四对语言,基于人力资源与IT服务管理场景构建。采用词错误率、语义词错误率和答案错误率三项指标评估七种ASR系统,包括AssemblyAI Universal 3-Pro、Deepgram Nova 3 Multilang、ElevenLabs Scribe V2、Gemini 3 Flash、Mistral AI Voxtral Small 24B-2507、Nvidia Parakeet TDT 0.6b V3和OpenAI Whisper Large V3 Turbo。主要发现:代码切换的转录成本因语言对和模型而异;ElevenLabs Scribe V2、Gemini 3 Flash和AssemblyAI Universal 3-Pro在所有指标上表现最佳。数据集和测试框架通过AU-Harness开源发布。

Hugging Face评测/基准语音

推荐理由:如果你在给多语言客户做语音Agent,这篇博客直接把主流ASR的code-switching能力测了一遍,ElevenLabs Scribe V2目前最强,还开源了数据集,拿来就能测自己的模型。
02:40
Gary Marcus:The Road to AI We Can Trust(RSS)
39
The revenge of Claude Mythos
Anthropic大佬观点
02:18
Claude Code:GitHub Releases(RSS)
88
Claude Code v2.1.170 发布:引入 Claude Fable 5 模型

Claude Code v2.1.170 更新引入新模型 Claude Fable 5(Mythos-class),Anthropic 称其能力超过以往所有已开放使用的模型,并已确保安全。该版本同时修复了从 VS Code 集成终端或继承了 Claude Code 环境变量的 shell 启动时 session 无法保存 transcript 且无法用 `--resume` 恢复的问题。

Anthropic模型发布
关联讨论 25 条公众号:卡尔的AI沃茨TechCrunch:AI(RSS)X:OpenRouter (@OpenRouter)X:Perplexity (@perplexity_ai)Simon Willison 博客The Verge:AI(RSS)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)X:Claude (@claudeai)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)X:宝玉 (@dotey)X:Rohan Paul (@rohanpaul_ai)X:Boris Cherny (@bcherny)X:Andrej Karpathy (@karpathy)X:歸藏 (@op7418)The Decoder:AI News(RSS)X:Artificial Analysis (@ArtificialAnlys)X:Berry Xia (@berryxia)IT之家(RSS)公众号:数字生命卡兹克X:卡兹克 (@Khazix0918)X:小互 (@xiaohu)
02:09
Ethan Mollick:One Useful Thing(RSS)
精选66
Claude Fable 发布:Anthropic 带来的另一种推理体验

Anthropic 发布 Claude Fable,这是一款提供截然不同推理体验的 AI 模型。它擅长规划与生成复杂代码库,在需要精确构建代码结构或理解程序员深层需求的场景中,其表现相比 Claude Sonnet 有了大幅提升。用户描述与它协作更像与一位直觉敏锐的资深工程师合作,其对代码意图的捕捉和方案生成能力令人惊叹,但并非通用型 AI。

大佬观点现象/趋势

推荐理由:Ethan Mollick 把和 AI 协作的真实手感写透了,这篇不讲 benchmark 只讲直觉,但直觉比参数更能告诉你下一个跳跃是什么。
01:04
xAI:News(网页)
精选65
Gopuff与SpaceXAI推出Go AI购物助手

Gopuff与SpaceXAI合作推出Go智能购物助手,内置于Gopuff应用,由Grok文本、音频和图像模型驱动。Go结合Grok的推理、语音和图像生成能力与Gopuff的13年需求智能,利用X和网络实时信号。它可在用户打开应用前根据历史偏好和天气等信号构建个性化购物车,并包含基于Grok Imagine的超逼真视觉购物信息流。Go目前在美国iOS和Android端可用,随后在英国推出。

智能体xAI产品更新多模态

推荐理由:Gopuff加SpaceXAI的组合给即时零售塞了个挺实在的AI购物助手,预判需求比我自己翻分类流畅,本地生活类工具团队该把它当个落地样本。
01:04
Anthropic:Newsroom(网页)
精选90
Claude Fable 5 和 Claude Mythos 5

Anthropic 今日推出 Claude Fable 5(通用安全版)和 Claude Mythos 5(受限安全版)。Fable 5 在软件工程、知识工作、视觉、科研等几乎所有测试基准上达到 SOTA,Stripe 称其将数月工程压缩至数天,FrontierCode 评分居前沿模型之首,可仅凭截图重建网页应用源码。Mythos 5 在药物设计中实现约 10 倍加速,其分子生物学假说盲测获科学家偏好的概率约 80%。两模型售价均为 $10/百万输入 tokens、$50/百万输出 tokens,较 Claude Mythos Preview 降价过半。Fable 5 在部分敏感主题上回退至 Claude Opus 4.8,安全触发率低于 5% 的会话。Mythos 5 通过 Project Glasswing 向网络安全防御者开放。

Anthropic多模态安全/对齐模型发布
关联讨论 25 条公众号:卡尔的AI沃茨TechCrunch:AI(RSS)X:OpenRouter (@OpenRouter)X:Perplexity (@perplexity_ai)Simon Willison 博客The Verge:AI(RSS)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)X:Claude (@claudeai)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)X:宝玉 (@dotey)X:Rohan Paul (@rohanpaul_ai)X:Boris Cherny (@bcherny)X:Andrej Karpathy (@karpathy)X:歸藏 (@op7418)The Decoder:AI News(RSS)X:Artificial Analysis (@ArtificialAnlys)X:Berry Xia (@berryxia)IT之家(RSS)公众号:数字生命卡兹克X:卡兹克 (@Khazix0918)X:小互 (@xiaohu)
推荐理由:Anthropic把最危险的模型安全地放出来了,Fable 5在编码、科研上不是小数点级别的提升,价格还砍半,95%的请求直接跑满血版,必读。
00:18
GitHub Blog
精选68
GitHub Copilot CLI 推出自定义 AI 智能体,将一次性终端提示转化为可重复工作流

GitHub Copilot CLI 新增自定义 AI 智能体功能,使 CLI 能够理解开发者的技术栈和团队工作流,将一次性终端提示转变为可重复、可审查的流程。

智能体GitHub教程/实践编码

推荐理由:GitHub Copilot CLI 的自定义代理把一次性提示变成可重复工作流,相当于给命令行配了个 AI 副驾驶,做自动化的朋友值得一试。
00:00
OpenRouter:Announcements(RSS)
精选72
Gemini 2.5 Flash API:定价、快速入门与提供商对比

Gemini 2.5 Flash API 的定价与快速入门指南,指导用户配置 thinking budgets、比较不同提供商,并在 5 分钟内完成首次 API 调用。

Google教程/实践部署/工程

推荐理由:OpenRouter 这篇把 Gemini 2.5 Flash 的 quickstart 和供应商价格表打包了,5 分钟跑通,价格对比部分尤其实在,想省钱的可以对着选。
6月9日
23:34
Google DeepMind:Blog(RSS)
Fluid, natural voice translation with Gemini 3.5 Live Translate
22:34
Google DeepMind:Blog(RSS)
精选81
Google DeepMind 发布 Gemma 4 12B:统一的无编码器多模态模型

Gemma 4 12B 是 Google DeepMind 最新推出的中等规模多模态模型,采用无编码器统一架构,原生支持音频输入。其基准测试性能接近 26B MoE 模型,但内存占用不到一半,仅需 16GB 显存或统一内存即可在消费级笔记本上本地运行。模型内置多 token 预测(MTP)drafter 以降低延迟,基于 Apache 2.0 开源许可发布,已累计超过 1.5 亿次下载。

多模态开源生态模型发布端侧
关联讨论 2 条X:Demis Hassabis (@demishassabis)X:Sundar Pichai (@sundarpichai)
推荐理由:把多模态模型的视觉和音频编码器全砍了,仅靠12B就在笔记本上跑出接近26B的效果,而且Apache 2.0开源,做端侧Agent的现在有了一个高性价比的本地推理选项。
‹ 上一页
1234…50
下一页 ›