AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态一手 · 2393 条
全部一手资讯X论文
5月29日周五
5月28日周四
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月29日
00:33
Tomer Tunguz 博客(VC 分析)
精选61
AI智能体时代下的安全变革

Lemonade的CISO Jonathan Jaffe探讨了AI智能体时代的安全新挑战。他指出,AI对攻击者和防御者同样强大,但可被利用的漏洞窗口正在缩小,因为AI能更快地生成、审查和修补代码。为此,安全团队正向工程团队转型,例如Lemonade的安全部门均由工程师组成,并构建了包含智能体的内部AI平台。同时,每个智能体(单个终端上可能运行200到10000个)都需要被赋予身份,并在操作点由策略进行更复杂的管控,这超越了当前身份与访问管理系统的能力。

智能体MCP/工具大佬观点

推荐理由:Jaffe 给出的结论很提气,AI 对防御方的加成被市场严重低估了,尤其每个 Agent 必须拥有身份和策略控制这个预判,值得所有在做 Agent 架构的人看一遍。
00:28
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选65
OpenAI 的前沿治理框架

OpenAI 发布了“前沿治理框架”,阐述其 AI 安全、安全与风险管理实践如何与欧盟和加州新出台的法规要求对齐。该框架旨在规范其前沿模型的开发与部署流程。

OpenAI安全/对齐政策/监管
关联讨论 1 条OpenAI:官网动态(RSS · 排除企业/客户案例)
推荐理由:OpenAI 首次把内部安全实践打包成一个对外框架,是为了应对欧盟和加州监管。与其说是技术突破,不如说是合规信号,所有做前沿模型的公司都得开始交这份作业了。
00:06
Google Blog:AI(RSS)
61
Google I/O 2026 一文速览:12 大重要时刻

Google I/O 2026 发布会上披露了 12 个重要时刻,其中包括 Gemini Omni 和 Gemini 3.5 Flash 等产品的相关消息。

Google产品更新多模态推理
关联讨论 5 条Google Blog:AI(RSS)Google Research:Blog(网页)Google Developers Blog(RSS)X:Google AI for Developers (@googleaidevs)Ars Technica:AI(RSS)
00:00
LMSYS:Blog(Chatbot Arena 团队)
精选61
LMSYS与Intel合作通过异构CPU+GPU EPD架构提升视觉语言模型服务性能

LMSYS团队(Intel与SGLang)通过Dynamo和SGLang框架,为视觉语言模型(VLM)启用了异构编码-预填充-解耦(EPD)架构。该方案将视觉编码任务从GPU卸载至CPU(如Intel Xeon 6747P),与GPU协同工作。在Qwen3-VL-8B-Instruct模型的测试中,采用4 CPU + 1 GPU作为编码器、4 GPU作为预填充解码器(能力比R=12)的配置,在ISL/OSL 128/256、1080p 8张图像的负载下,实现了P99 TTFT和请求吞吐量约1.2倍至1.3倍的提升,并将P99 TPOT降低了约1.3倍至30倍。

多模态推理教程/实践部署/工程

推荐理由:做VLM服务部署的可以认真看一下,用CPU头节点做异构EPD分离,几乎零成本换来了TTFT和TPOT的显著提升,有完整脚本和benchmark,能直接上手试。
5月28日
23:41
Google Developers Blog(RSS)
精选64
社区如何利用Tunix和TPU训练Gemma学会"思考"

Google在Kaggle举办的Tunix黑客马拉松,挑战开发者利用TPU和有限算力,将小型基础模型转变为通用推理引擎。获胜团队通过多阶段后训练流程实现了这一目标,该流程结合了监督微调(SFT)与GRPO、SimPO等先进对齐技术。比赛结果表明,社区能够借助开源资源成功训练出高能力的结构化推理模型。

Google开源生态教程/实践数据/训练

推荐理由:Google 官方比赛总结,证明用 Kaggle TPU 和开源工具就能把 Gemma 训练出不错推理能力,对想自己微调模型的小团队是个实用参考。
22:07
公众号:腾讯混元
58
Hy-Memory 发布:为 Openclaw 打造的记忆插件

腾讯混元推出 Hy-Memory,一款为 Openclaw 长期协作型 Agent 设计的记忆插件。它采用 6 层记忆框架、System1/System2 双系统及演化链技术,解决 Agent 长期使用中的记忆漂移与碎片化问题。在 LongMemEval 上得分 85.2,在偏好、时序推理、知识更新维度领先;PersonaMem 评测超越所有竞品。相比其他方案,记忆数量降低 70%+,单条信息密度高 45%+,token 消耗降低 35%,写入速度为 Graphiti 的 8 倍,支持本地嵌入式存储,安装仅需一行命令,提供 Lite/Pro/Ultra 三档。

智能体产品更新开源/仓库
22:04
公众号:小米 MiMo
58
Xiaomi MiMo Orbit 首批 Agent 生态共建合作伙伴公布
智能体开源生态行业动态
22:00
OpenRouter:Announcements(RSS)
54
OpenRouter 完成 1.13 亿美元 B 轮融资

OpenRouter 完成 1.13 亿美元 B 轮融资,由 CapitalG 领投,多家机构跟投,现有投资者 Andreessen Horowitz 和 Menlo Ventures 继续参与。

行业动态部署/工程
22:00
OpenRouter:Announcements(RSS)
精选63
OpenRouter 完成 1.13 亿美元 B 轮融资

OpenRouter 宣布获得 1.13 亿美元 B 轮融资,由 CapitalG 领投,NVentures、ServiceNow Ventures 等多家机构参投,现有投资者 Andreessen Horowitz 和 Menlo Ventures 继续跟投。

行业动态部署/工程

推荐理由:OpenRouter融了1.13亿美元,领投方CapitalG,跟投名单里几乎全是云计算巨头,这不是一家公司的钱,是基础设施层的一次战略布局,开发者选模型的路由成本可能因此改写。
21:12
Anthropic:Newsroom(网页)
精选63
Anthropic 开设米兰办公室,深化意大利企业合作与 AI 安全对话

Anthropic 在米兰开设其欧洲第六家办公室,旨在与意大利企业及开发者社区合作,负责任地构建和扩展 Claude,并参与关于 AI 的对话。本地团队已与多家金融、生命科学、能源及汽车行业的公司展开合作。案例包括与 JAKALA 合作将 Claude 部署至超 3,000 席位,释放约 70% 高级团队时间;Satispay 借此将 18 个月路线图压缩至 7 个月;Bending Spoons 的大部分代码变更已与 Claude Code 共同完成。Anthropic 承诺支持意大利企业、研究及文化,通过安全的 AI 转型促进发展。

Anthropic行业动态

推荐理由:Anthropic 把欧洲办公室开到第六个,这次还拉上了教皇背书,但更实在的是 Satispay 用 Claude 把 18 个月路线图砍到 7 个月的落地案例,对企业怎么做 AI 落地有参考价值。
21:11
Cloudflare Blog
49
我们如何构建Cloudflare的数据平台及其上的AI智能体

Cloudflare构建了名为Town Lake的统一分析平台,并基于此开发了内部AI智能体Skipper。

智能体教程/实践部署/工程
20:47
Mistral AI:News(网页)
精选77
发布 Search Toolkit

Mistral AI 发布了 Search Toolkit 的公共预览版。这是一个用于构建 AI 应用生产级搜索管道的可组合框架。该框架旨在解决团队在搭建搜索基础设施时,因数据摄取、检索和评估工具分散而耗费过多工程时间的问题。Search Toolkit 将这三者整合到单一框架与共享接口中,使团队能更专注于提升搜索质量。该工具开源,可部署在云端、本地或边缘环境,并支持企业搜索、RAG 等多种检索场景。

MCP/工具检索增强产品更新搜索

推荐理由:做 RAG 的团队都该看一眼,它把 ingestion、retrieval、evaluation 揉进一个开源框架,省下的大把集成时间够你调几次检索策略了。
20:21
公众号:京东JoyAI
51
听见京东 618:大模型时代下的声音供应链

京东自研JoyAI语音大模型LiveTTS具备多语种、情绪解耦、语速解耦、捏声音色及一句话音色克隆(3—10秒语音)五大能力,已接入JoyClaw技能商店。覆盖10余种语言和8种方言,支持同一音色多方言与情绪表达。应用于JoyInside智能终端、JoyAI App万能博士、数字人JoyStreamer(累计服务超7万商家)及AI播客。618期间支撑千万级并发实时交互,为智能客服、数字人直播等场景提供低延迟语音输出。

产品更新多模态语音
19:58
公众号:龙猫LongCat(美团)
36
美团无人机低空航网正式投入运营,M-Drone 4L索降版发布

5月21日,2026世界无人机大会上,美团宣布“城市低空物流航网”正式常态化运营,并发布第四代无人机长程索降版M-Drone 4L Winch、智能接驳机场M-Port 3和无人机云枢M-DaaS 3。M-Drone 4L可在-20℃至50℃、大雨、中雪及6级大风下稳定飞行,覆盖国内97%以上城市场景;M-Port 3占地仅1.4平方米,可极简部署;M-DaaS 3能在100毫秒内对异常状况判断,配合三级安全保障体系,已安全完成超90万单配送。同时启动授权服务商招募,首批签约10家,覆盖浙江、湖南、广西等省份,场景从餐饮外卖拓展至医疗、工业等领域。

产品更新具身智能端侧
19:58
公众号:龙猫LongCat(美团)
44
美团&顶会论文分享 | 5大专场,32篇论文解读

2026年,美团数十篇论文被ACL、SIGIR、ICML、KDD等顶会收录,精选32篇分为5大专场进行直播解读。内容涵盖大模型推理、智能体记忆与自进化、代码智能、多模态交互、超高清视频生成、本地生活搜索等方向,既有底层能力突破也有生活服务落地探索。活动自6月11日起陆续直播,可报名参与。

多模态推理行业动态
19:31
公众号:百度智能云(文心)
54
百度搭子DuMate发布:你的上班搭子,真干活

百度搭子DuMate是一款PC端办公AI智能体,能看见用户屏幕、操作软件、处理文件。零门槛安装,不需配置环境;本地优先处理,数据不出设备,复杂任务自动调度上云。支持Word/Excel/PPT输出,内置百度搜索、深度研究等Skills生态。用户下载后可通过邀请码分享好友,双方各得2000积分。

智能体MCP/工具产品更新端侧
18:47
Mistral AI:News(网页)
精选55
塑造产业的物理AI研究

Mistral AI通过收购Emmi AI,强化其在推动AI研究前沿与工业工程解决方案方面的投入。其目标是为航空航天、汽车、半导体和能源等塑造物理世界的核心产业构建基础性物理AI模型,以加速工程开发。此项研究基于一系列已发表的突破性成果,包括:用于模拟超音速湍流的3D机翼CFD数据集、计算流体动力学基础模型的前瞻综述、应用于汽车与航空的AB-UPT模型,以及用于聚变等离子体湍流模拟的GyroSwin模型。此前已开源的UPT(通用物理Transformer)和NeuralDEM等成果也为此研究奠定了基础。

开源/仓库论文/研究
关联讨论 1 条Mistral AI:News(网页)
推荐理由:Mistral 把物理 AI 定为下个重点,从流体仿真到核聚变等离子体都有论文支撑。搞工业仿真的团队值得跟进,但这次没有新模型发布,更多是路线宣示而非新突破。
18:47
Mistral AI:News(网页)
61
Mistral AI推出物理AI模型,加速工业工程

Mistral AI通过整合Emmi AI团队,推出了专注于工业工程的物理AI基础模型。该模型旨在突破传统计算流体动力学(CFD)和有限元分析(FEM)模拟的瓶颈,后者设计周期长、成本高昂且探索的设计空间有限。物理AI能够从几何结构、边界条件或测量数据中直接学习,并在单个GPU上以秒级速度预测完整的物理场。Mistral将其构建为与现有模型及工具链并列的企业级解决方案新基石,以支持ASML、Airbus、Safran及Siemens Energy等合作伙伴在国防、能源转型、可持续航空等领域的硬件加速研发。

产品更新部署/工程
关联讨论 1 条Mistral AI:News(网页)
18:47
Mistral AI:News(网页)
81
Vibe gets to work.

Mistral AI 推出 Vibe,一款统一工作与编码的 AI 智能体。其工作模式可处理长期多步骤任务,连接 Google Workspace、Outlook、Slack 等应用,进行研究、分析与调度。代码模式支持从 Web 应用到终端的全流程编码。Vibe 运行为推理、智能体任务和编码优化的旗舰 Mistral 模型,并发布了新的 VS Code 扩展。

智能体产品更新编码
关联讨论 2 条Mistral AI:News(网页)X:Mistral AI (@MistralAI)
18:47
Mistral AI:News(网页)
75
AI Now Summit 2026

Mistral AI 在 AI Now Summit 2026 上宣布多项进展。其工业 AI 解决方案“Mistral for Industrial Engineering”整合了物理模型与工程知识,正与空客、宝马集团和 ASML 合作,加速工程设计与优化。AI 智能体产品 Vibe 进行了升级,增强了推理和智能体任务能力。此外,公司计划在 2026 年第三季度启用位于 Les Ulis、功率达 10 MW 的新数据中心,专注推理操作以增强算力安全。

智能体行业动态
关联讨论 2 条Mistral AI:News(网页)X:Mistral AI (@MistralAI)
17:47
公众号:通义实验室(千问)
54
通义实验室发布Qwen-Image-Bench:56项细粒度创作评测基准

通义实验室推出文生图评测基准Qwen-Image-Bench,由专业艺术家团队开发,将创作能力解构为5大核心支柱、17大场景及56项可量化维度。配套开源自动化评估模型Q-Judger,与资深人类艺术家评估相关性达Spearsman 0.92。评测使用1000条中英文分层Prompt,每条覆盖至少4项考点。结果显示,当前T2I模型在文字准确性、信息可视化、跨语言生成等子领域差距明显,世界知识与逻辑推理能力是跻身第一梯队的分水岭。完整数据集与Q-Judger已开源。

arXivHugging Face图像生成多模态
16:44
公众号:可灵AI(快手·视频)
54
可灵AI携20部4K作品亮相AI on the Lot

第四届AI on the Lot峰会于5月27日至29日在亚马逊影业基地举办。可灵AI在29日社区日展映20部4K作品,全部由欧洲创作者组织Prompt Club的20位成员创作,探索AI电影边界。同台亮相的还有赛博朋克AI电影《The Patchwright》北美首映、艾美奖编剧Bernie Su的实时互动影片、90分钟AI长片《Hell Grind》及可灵AI参与制作的《The Fracture》。展映于5月29日下午1点在The Culver Theater举行。

图像生成行业动态视频
12:41
OpenRouter:Announcements(RSS)
精选72
OpenRouter 获得1.13亿美元B轮融资

AI模型聚合平台OpenRouter宣布完成1.13亿美元B轮融资。本轮融资由CapitalG领投,NVentures、ServiceNow Ventures等多家机构参投,现有投资者Andreessen Horowitz与Menlo Ventures也参与了本轮融资。

行业动态部署/工程
关联讨论 2 条X:OpenRouter (@OpenRouter)X:硅基流动 SiliconFlow (@SiliconFlowAI)
推荐理由:OpenRouter 融了 1.13 亿美元,说明模型路由从「小工具」变成正经防线了,开发者选模型不再单一绑定,这个方向钱和战略意义都上来了。
11:50
公众号:生数科技(Vidu·视频)
33
生数科技入选量子位"2026年度值得关注的AIGC企业"

近日,生数科技入选量子位“2026年度值得关注的AIGC企业”榜单。作为全球率先实现数字世界与物理世界统一的通用世界模型公司,其深耕多模态大模型与世界模型技术。此次入选代表行业对其前沿技术、创新能力与产业落地的认可。生数科技将继续推动AI从“生成内容”迈向“理解世界、预测世界、作用于世界”。

行业动态视频
11:35
公众号:面壁智能(MiniCPM)
精选61
PilotDeck 开源:以 WorkSpace 为核心的智能体操作系统

清华大学 THUNLP 实验室、面壁智能、OpenBMB 与 AI9stars 联合研发并开源的智能体操作系统 PilotDeck,以 WorkSpace(工作舱)替代传统对话框,每个工作舱拥有独立文件系统、记忆和技能,实现项目隔离。三大核心能力:记忆白盒化,全链路可见可控,支持一键修改和回滚;智能路由,自动识别任务难度动态分配模型,开启后成本节省近 70%,复杂任务仅用 1/6 成本即可反超顶级模型方案;Always-on 常驻任务,AI 主动发现并持续推进工作。支持端云协同,可调用端侧模型作为子 Agent,自动部署 VoxCPM 等模型完成多语言播客等任务。

智能体产品更新端侧部署/工程

推荐理由:PilotDeck把Agent从对话框解放进「工作舱」,记忆可见、成本锐减、能无人值守运行。已开源,值得所有被多任务折磨的开发者试试。
09:36
Claude Code:GitHub Releases(RSS)
精选67
Claude Code v2.1.153 版本更新

Claude Code 发布 v2.1.153 版本。主要新增 `skipLfs` 选项以跳过 Git LFS 下载;优化了 `claude agents` 的自动补全建议和 PR 列显示格式。本次更新修复了大量问题,包括:MCP 服务器的连接与重连、子代理的配置策略与严格模式行为、后台会话的管理与权限提示(如恢复、输入响应、临时文件处理),以及跨 macOS/Windows/VSCode 平台的稳定性。此外,还修复了 Windows 更新回滚、内存占用、会话恢复等多个具体问题。`/model` 命令现在会将选择设为新会话的默认模型。

AnthropicMCP/工具产品更新部署/工程
关联讨论 2 条Claude Code:GitHub Releases(RSS)X:Claude Devs (@ClaudeDevs)
推荐理由:Claude Code 的一次日常小修小补,但修复了 OAuth 凭证泄露和内存泄漏这种真影响使用的 bug,且 /model 现在可以记住默认模型了,升级一下不亏。
07:07
Anthropic:Research(发表成果 · 网页)
精选69
社会科学中的编码智能体

一项针对1260名定量社会科学家的调查显示,虽然81%的受访者用过AI聊天机器人,但仅有20%将Claude Code、Codex等编码智能体常规应用于工作。采用率存在显著差异:以男性名字命名的研究者使用率是女性研究者的两倍;顶尖大学研究者可能性高出40%。用户产出更多工作论文和基金申请,但这可能反映早期采用者自身差异。研究者对AI助力撰写可发表论文更乐观,但对重塑整个社会科学领域持保留态度。这是一项初步调查,更深入研究仍在进行中。

智能体Anthropic数据/训练论文/研究

推荐理由:Anthropic 这份调查把编码代理在社科领域的真实渗透率摸清了,只有 20% 的研究者真在用,而且男女、校际差距比 AI 聊天工具大得多,做学术工具的可以认真看看。
06:13
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选60
思科与OpenAI携手Codex重新定义企业工程

思科正与OpenAI合作,利用Codex重新定义企业工程实践。此次合作旨在帮助思科扩展AI原生开发能力、加速其AI Defense安全工作,并实现缺陷修复流程的自动化。

OpenAI编码行业动态

推荐理由:这则合作公告虚得很,看不出Codex到底怎么帮Cisco重构工程,也没什么数据,属于看完标题就够了的那种。
06:07
Claude:Blog(网页)
精选77
使用大语言模型保障源代码安全

本文分享了使用 Claude Opus 构建威胁模型、发现代码漏洞并进行验证、分类和修复的最佳实践。其核心流程是一个六步循环:威胁建模、沙箱隔离、漏洞发现、验证、分类和修复。作者指出,漏洞发现现在易于并行化,瓶颈已转移到后续的验证与处理阶段。以他们对开源软件的扫描为例,截至2026年5月22日已披露1,596个漏洞,其中97个已修补。指南建议结合代码库文档和专家访谈来构建准确的威胁模型,以降低误报,提升发现的可利用性。

智能体Anthropic安全/对齐教程/实践

推荐理由:Anthropic把这套用Claude扫代码漏洞的方法全公开了,1596个已披露漏洞,验证成了最大瓶颈,安全工程师的饭碗可能要重新定义。
04:19
Meta Engineering Blog(RSS)
精选69
SilverTorch:索引即模型--推荐系统的新检索范式

Meta 推出SilverTorch推荐系统架构,统一了用户生成内容的所有检索组件。该架构吞吐量比现有技术高23.7倍,计算成本效率比CPU方案高20.9倍,同时提升了准确性。

Meta搜索论文/研究

推荐理由:SilverTorch 把索引本身变成模型,在推荐检索上拿到 23 倍吞吐提升,这个思路对搜索和推荐工程师都有启发,虽然离普通人有点远。
04:12
OpenAI:官网动态(RSS · 排除企业/客户案例)
51
Warp利用GPT-5.5模型协调编程智能体的实践

Warp使用GPT-5.5和OpenAI模型,以协调编程智能体,旨在统一本地、云端及开源开发工作流。

智能体OpenAI开源生态行业动态
03:33
Tomer Tunguz 博客(VC 分析)
精选61
软件之后是AI时代

软件时代正过渡至“智能体框架”时代。AI作为强大但需驯化的“野马”,其智能驯化包含七个核心组成部分:上下文与记忆、工具与行动、编排与循环、状态与持久性、沙箱与计算、可观测性与治理、成本与工作流优化。这些组件共同构成了一个生产级的智能体系统。这一转变将重塑软件竞争格局,模型通用化的未来中,最佳的智能体驾驭者将获胜。

智能体MCP/工具现象/趋势

推荐理由:Tomer 把 agent 时代的竞争拆成七个组件,不是空谈,而是给了创业公司一个具体的 check-list,做 agent 产品的值得对照一下。
02:57
Midjourney:Updates(RSS)
精选59
Web 更新

对话模式在文本和语音输入方面进行了改进。语音会话开始时,可访问用户的图像提示、风格参考、侧边栏设置和最近任务。图像提示功能现可从托盘和侧边栏直接使用。在语音提交过程中,托盘中的图像将保持不变,直至用户手动移除。

产品更新语音

推荐理由:Midjourney给语音模式补了一课——现在它能记住你正在用的图片参考和风格设置,语音创作不用反复翻找,用完即走的轻量用户可能无感。
02:06
Claude:Blog(网页)
精选67
AI智能体的零信任安全框架

Anthropic 发布了针对企业部署自主 AI 智能体的安全框架,指出前沿大语言模型正将漏洞利用周期从数月压缩至数小时。部署智能体面临双重风险:基础设施易受 AI 加速攻击,且智能体自身具备自主决策与执行能力。文章提出一个三层零信任架构(基础、高级、优化级)及八阶段实施流程,并概述了提示注入、工具投毒、记忆投毒等特有威胁。

智能体Anthropic安全/对齐教程/实践

推荐理由:当漏洞利用从数月压缩到数小时,安全架构必须同步进化。这篇框架把零信任落地到Agent场景,八阶段路线图和三级成熟度模型比泛泛的安全声明具体得多,企业安全团队值得细读。
01:41
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选63
2026年选举信息与保障

在2026年全球选举临近之际,通过帮助公众获取选举信息、支持网络防御者以及提升人工智能透明度这三方面的努力,来为选举提供保障。

OpenAI安全/对齐政策/监管

推荐理由:OpenAI 在 2026 全球选举前集中公布防范措施,是头部 AI 公司在信息透明度方面的例行作业,政策观察者可以跟踪一下进展,普通用户不用太在意。
01:39
Google Developers Blog(RSS)
精选66
Google Pay 最新更新

Google Pay 正向"智能体商务"演进,推出了通用商务协议和新的 MCP 服务器,允许 AI 智能体管理集成与分析趋势。Android 平台更新引入了动态回调以支持快速结账,并通过 WebView 将支付功能扩展至社交媒体应用。此外,平台还推出了跨设备生物认证和新的交易信号,旨在帮助商家减少流程摩擦。

智能体GoogleMCP/工具产品更新

推荐理由:Google Pay 往 agentic commerce 迈了一大步,新的通用协议和 MCP server 让 AI agent 能直接管支付和分析,做 agent 或支付的开发者都得看看。
01:34
Google Research:Blog(网页)
精选70
通过零信任聚合实现的隐私分析

Google Research 推出了一种新的隐私分析解决方案。该方案结合了一种新的密码学安全聚合协议与可信执行环境(TEE)的透明性,旨在实现前沿的隐私与安全保证。其核心是基于零信任原则,通过密码学与硬件保护的结合,确保系统仅能获取群体的匿名化聚合洞察。

Google安全/对齐端侧论文/研究

推荐理由:Google 的隐私聚合新方案把多轮交互砍成一次提交,对做设备端联邦分析的人来说是工程上的一大步,而且结合 TEE 做双层防护,这个思路值得抄。
01:20
Hugging Face:Blog(RSS)
精选70
ITBench-AA:前沿大模型在首个智能体企业IT任务基准测试中得分均低于50%

由Artificial Analysis和IBM推出的ITBench-AA SRE基准测试显示,所有前沿大模型得分均未超过50%。Claude Opus 4.7(自适应推理,最大努力)以47%领先,GPT-5.5(xhigh)和Qwen3.7 Max分别得46%和42%。该测试包含59个需要通过Shell命令调查Kubernetes事件快照并提交根因诊断的智能体任务。关键发现是模型推理轮次差异近3倍,但更长的轨迹并不转化为更高准确率,过度调查的模型会因提交误报而受罚。在成本方面,开源模型Gemma 4 31B(Reasoning)以每任务$0.14的成本获得37%得分,优于成本更高但得分更低的闭源模型。

智能体Hugging Face评测/基准
关联讨论 2 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:通义千问 / Qwen (@Alibaba_Qwen)
推荐理由:IT运维这事儿,AI还是新手。ITBench-AA这份基准把Claude Opus 4.7逼到47%,开源模型GLM-5.1却用五分之一成本拿到40%,企业场景性价比可能不在闭源那边。
01:05
Claude:Blog(网页)
54
CodeRabbit如何用Claude构建智能体编排系统

AI代码审查平台CodeRabbit发现,AI生成的代码常能通过编译与测试,却不符合开发者真实意图,根源在于开发者隐含假设AI理解上下文。为此,团队基于Claude构建了一个智能体编排系统,置于编码请求与智能体之间。该系统在代码生成前协调多个Claude模型进行结构化规划,输出可审查的产品需求文档,使需求显式化。系统每周助力审查超过200万个PR。

智能体Anthropic教程/实践编码
00:20
Hugging Face:Blog(RSS)
精选72
Reachy Mini 实现完全本地化语音交互

Reachy Mini 机器人现可通过 `speech-to-speech` 库实现完全本地化的语音交互,无需依赖云端。该方案采用级联流水线架构,对外提供 Realtime API 兼容的 WebSocket 接口。默认组件包括 Silero VAD 用于语音活动检测、Parakeet-TDT 作为语音转文本模型、通义千问(Qwen3-TTS)作为文本转语音模型。大语言模型推荐使用 llama.cpp 运行 Gemma 4。所有数据均在本地处理,保障了隐私且无 API 费用。

智能体Hugging Face教程/实践语音

推荐理由:小众硬件的本地语音实战,但HF这套开源管线证明端到端对话已完全可用,所有组件都可自由替换,想做本地化语音助手的人可以照抄。
‹ 上一页
1…7891011…50
下一页 ›