AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
最新一期2026-06-12
2026 年 6 月12
  • 12 日Gemini Omni Flash 视频任务达 SOTA
  • 11 日DiffusionGemma:文本生成速度提升4倍的开源扩散模型
  • 10 日Claude Fable 5 和 Claude Mythos 5
  • 9 日小米 MiMo-V2.5-Pro-UltraSpeed 突破 1,000 tokens/s,单台 8-GPGPU 节点运行 1T MoE 模型
  • 8 日Harness-1:基于强化学习训练的有状态搜索20B检索子智能体
  • 7 日GitHub 开源 Spec Kit 工具包,用产品规范引导 AI 编码
  • 6 日Riverflow 2.5:可控制评分标准的图像模型
  • 5 日Nemotron 3.5 Content Safety:面向全球企业AI的可定制多模态安全
  • 4 日Grok Imagine 1.5 预览版发布
  • 3 日微软首款高级推理AI模型MAI-Thinking-1发布
  • 2 日MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型
  • 1 日OpenAI发布生物防御AI工具Rosalind
2026 年 5 月31
  • 31 日Nano Banana Pro与Nano Banana 2正式发布
  • 30 日OpenAI推出实时翻译模型,支持70+语言输入
  • 29 日Claude Opus 4.8 发布:在编码、智能体技能与推理方面实现全面升级
  • 28 日Runway 推出 Model Context Protocol 服务器
  • 27 日谷歌 AI 框架 AlphaProof Nexus 攻克 2 道悬置 56 年数学难题
  • 26 日面壁智能联合清华等开源中国首个基于华为昇腾训练的 1.58-bit 端侧大模型 BitCPM-CANN
  • 25 日Luma Agents 实现规模化真实 UGC 广告生成
  • 24 日StepAudio 2.5实时语音发布:副语言感知与人格化交互
  • 23 日首个基于华为昇腾910B NPU全栈训练的1.58比特开源大模型BitCPM-CANN发布
  • 22 日Aleph 2.0 与 Edit Studio
  • 21 日Qwen3.7:智能体前沿
  • 20 日I/O 2026: 欢迎来到自主的 Gemini 时代
  • 19 日阿里云推出HappyHorse视频生成模型
  • 18 日Grok Imagine图像生成功能正式发布
  • 17 日社区协作再创佳绩,vLLM支持万亿级模型
  • 16 日MiniMax M2.7模型上线OrcaRouter平台
  • 15 日SenseNova U1技术报告发布,基于MoE架构开放模型权重
  • 14 日Hy3预览版登陆GMI,开源最强模型领跑
  • 13 日Claude Opus 4.7快速模式开放研究预览
  • 12 日SenseNova U1图像生成模型登陆ComfyUI平台
  • 11 日OpenCode x Ring 2.6 1T限时免费开放
  • 10 日ERNIE 5.1发布,预训练成本仅需对标模型6%
  • 9 日Ring-2.6-1T发布:万亿参数思维模型专为复杂任务设计
  • 8 日通过 API 中的新模型推进语音智能
  • 7 日SenseNova-U1开源8步蒸馏LoRA,推理速度大幅提升
  • 6 日GPT-5.5 Instant:更智能、更清晰、更个性化
  • 5 日语音克隆技术上线 真假难辨
  • 4 日从单张图像构建实时视频智能体:Runway Characters技术解析
  • 3 日模型别名新增"-latest"指向最新版本
  • 2 日GPT-5.5发布一周创营收新高
  • 1 日AntLingAGI开源Ling-2.6-1T模型,登陆Hugging Face平台
2026 年 4 月9
  • 30 日旗舰指令模型快速高效执行的秘诀:可靠基础设施与优化
  • 29 日Mistral AI发布Mistral Medium 3.5模型及Vibe远程编程智能体
  • 28 日小米开源MiMo-V2.5双模型,支持百万上下文与商用
  • 27 日Mistral AI 发布 Workflows 公开预览版,为企业AI工作流提供编排支持
  • 26 日DeepSeek V4模型限时2.5折优惠
  • 25 日迈入百万上下文普惠时代:DeepSeek-V4 模型预览版正式上线并同步开源
  • 24 日OpenAI 最智能 AI 模型:GPT-5.5 登场,Token 成本降至 1/35、每兆瓦输出提升 50 倍
  • 23 日inclusionAI/LLaDA2.0-Uni
  • 22 日inclusionAI/DR-Venus-4B-RL 发布
全部日报 →
AI 日报每早八时
6月12日6月11日6月10日更早
AIHOT DAILY
2026年5月14日 · 周四

1模型发布/更新

Hy3预览版登陆GMI,开源最强模型领跑

Hy3 预览版现已登陆 @gmi_cloud。🙌

X:腾讯混元 (@TencentHunyuan)
Krea 2发布访问码,限量体验

Krea 2 访问码发放! K2-PRFUF8 / K2-NRWW9E / K2-CAP48S – 每个码可使用50次。 访问链接如下 👇 [引用 @krea_ai]:this is Krea 2. our first foundation model, built completely from scratch for aesthetic diversity and stylistic control. learn more and get early access 👇

X:Krea AI (@krea_ai)
SenseNova-U1 技术报告深度发布:前沿原生多模态模型构建全指南

SenseNova-U1 技术报告详尽披露了构建前沿原生多模态模型的方法,核心包括原生多模态统一建模、无损视觉接口、联合自回归与像素空间流匹配训练、以及原生混合专家骨干网络。报告提供了六阶段训练方案、强化学习后训练与蒸馏的完整实践指南。其开源版本 SenseNova-U1-A3B-MoT 基于混合专家架构,仅激活30亿参数,实现了高效快速的性能。相关资源已全面开放,涵盖技术报告、模型权重、代码和演示平台。

X:商汤 SenseTime (@SenseTime_AI)
AI角色实现记忆共情与主动交互

如果AI角色能够记忆、共情并主动交互呢?✨ 交互式AI的未来已来。无论您是为游戏、虚拟AI伴侣还是自适应学习进行开发,Qwen-Character都能打造沉浸式角色扮演体验,推动参与度加深50%以上并提升用户终身价值 👉 观看完整视频了解运作原理:https://int.alibabacloud.com/m/1000412854/ #AlibabaCloud #Qwen #QwenCharacter #ModelStudio #AI

X:阿里云 / Alibaba Cloud (@alibaba_cloud)

2产品发布/更新

Anthropic推出面向小型企业的Claude服务包

Anthropic推出“Claude for Small Business”服务包,旨在帮助小型企业弥补在AI应用资源上与大型公司的差距。该产品包含一系列连接器和15个开箱即用的自动化工作流,能将Claude深度集成到QuickBooks、PayPal、HubSpot等企业日常工具中。其核心功能是自动化处理财务、运营、销售等领域的重复性任务,如规划薪资、月末结算、追踪发票和分析营销活动等。用户通过Claude Cowork界面操作并手动批准关键步骤,所有任务均由用户发起和控制,Anthropic承诺保障数据安全。

Anthropic:Newsroom(网页)
Introducing Runway Agent

Runway正式发布Runway Agent,这是一个能够通过单次对话将创意想法转化为完整、可发布视频的智能创作伙伴。用户只需用自然语言描述需求,Agent便能根据上下文和目标,自主完成概念提案、故事节奏设计、视觉方向规划,并最终生成包含多场景、旁白、对话和音乐的成片。它旨在为品牌团队、营销人员、创意机构和电影制作人快速生产各类视频内容,如品牌宣传、社交媒体素材和短片,将传统需要数天或数周的审核制作周期压缩至几分钟。该产品现已上线,新免费计划用户可获得1500积分用于制作首个视频。

Runway:News(网页)
Codex应用内浏览器升级,提升多视口测试与标注效率

Codex应用内浏览器功能迎来多项改进,支持在不同视口尺寸下测试应用,并能控制设备工具栏、在不同断点进行点击验证。长时测试中,Codex会在关键节点截图供用户核查。为加速测试,可隐藏应用内浏览器以禁用动画,使测试速度提升1-2倍。此外,标注功能现在发送更快且消耗更少tokens。

X:Tibo (@thsottiaux)
全球首个全AI运营的在线广播电台上线,24小时不间断播报AI动态

全球首个完全由AI运营的在线广播电台在X平台正式开播,专为创业者、开发者和建设者提供全天候AI领域资讯。该电台由五名具备独立编辑判断、记忆和个性的AI主播主持,不仅能实时播报几分钟内的突发新闻,还提供每30分钟一次的新闻综述、初创公司融资追踪、GitHub等平台的工具趋势分析,并整合社区讨论与行业真实观点。AI主播会主动收集信息模式、发现矛盾并形成论点进行实时辩论,而非单纯播报数据。节目辅以非干扰性环境音乐,旨在让听众在背景收听中高效获取深度行业洞察。

X:Kim (@kimmonismus)
无需注册付费,Telegram内一键启动AI智能体

牛逼!Browser Use 今天把“AI agent 即用即走”做到了极致。 BuxFather:Telegram 里直接 Spin up agent,无需任何注册付费,24/7 自主运行 + 自改进,还带 stealth browser。 几下点击就有完整电脑 + 浏览器环境。 这波对重度 Telegram 用户来说真的爽了! https://x.com/browser_use/status/2054330495249564094/video/1

X:Berry Xia (@berryxia)
Claude付费计划将提供月度编程使用额度

自6月15日起,付费Claude计划可申领专用的月度编程使用额度。 该额度涵盖以下用途: - Claude Agent SDK - claude -p - Claude Code GitHub Actions - 基于Agent SDK构建的第三方应用

X:Claude Devs (@ClaudeDevs)
Miaoda应用与企业版上线,自生成代码占比90%

Miaoda应用和Miaoda企业版现已发布,让更多开发者和企业能够使用我们的编程助手! 最有趣的细节是什么?Miaoda应用90%的代码由Miaoda自身生成。 编程助手正使按需定制软件具备商业可行性。截至目前,Miaoda生成的应用已服务超1000万用户,应用总价值达50亿元人民币。

X:百度 Baidu (@Baidu_Inc)
Runway Agent

Runway Agent 是一个集成化创意工具平台,旨在为用户提供实现任何创意所需的全套资源与功能。该平台整合了视频编辑、图像生成、3D建模等多种人工智能驱动工具,允许用户在一个工作流中无缝完成从概念到成品的创作过程。其核心特点是降低了专业内容制作的技术门槛,通过自动化与智能辅助功能,让用户能够更自由地将想法转化为视觉作品。

Runway:Changelog(网页)

3行业动态

消息称 Anthropic 正就以超 9000 亿美元投前估值筹集至少 300 亿美元谈判

据报道,AI公司Anthropic正就新一轮融资进行初步谈判,目标是以超过9000亿美元的投前估值筹集至少300亿美元资金。这有望成为该公司迄今最大规模的融资轮次,交易最快可能在本月底完成。此前,Anthropic在今年2月完成了300亿美元的G轮融资,投后估值为3800亿美元,并从谷歌和亚马逊获得了150亿美元的投资承诺。为应对高昂的算力成本,公司计划于今年晚些时候进行首次公开募股(IPO)。

IT之家(RSS)
Anthropic 首次在 B2B 采用率上超越 OpenAI,Ramp 支出数据显示

根据 Ramp AI 指数数据,Anthropic 在美国企业客户中的采用率达到 34.4%,首次超越 OpenAI 的 32.3%。其业务覆盖范围在一年内增长了四倍。但文章指出,三个因素可能使其领先优势迅速减弱。

The Decoder:AI News(RSS)
Kling AI将亮相2026戛纳探讨AI电影制作

Kling AI将于2026年5月18日在戛纳电影节电影市场会议中举办专场活动,主题为“从创意可能到制作现实:Kling AI在电影工作流中的应用”。活动旨在探讨AI辅助电影制作的现状与未来演进。Kling AI通过支持《House of David》、《Born of the Tide》及《RAPHAEL》等项目,展示了AI在好莱坞级制作、全AI生成动画及剧情长片等实际影视生产中的多元化应用。

X:可灵 Kling AI (@Kling_ai)

4论文研究

ExploitGym:AI智能体能否将安全漏洞转化为真实攻击?

由伯克利RDI、马克斯·普朗克安全与隐私研究所、Anthropic、OpenAI及谷歌等机构研究人员组成的团队,发布了名为ExploitGym的新基准测试。该测试包含898个真实漏洞,要求AI智能体根据漏洞描述生成完整的漏洞利用程序。结果显示,前沿AI模型已能成功利用相当数量的漏洞,即使在启用ASLR等标准防御措施后,部分攻击仍能成功。这证明AI已具备自主将漏洞转化为实际攻击的能力,该技术具有双重用途:既可帮助防御者评估漏洞严重性,也可能降低攻击者的技术门槛。

Berkeley RDI:Blog(AI 安全与评测)

5技巧与观点

BestBlogs早报:AI智能体工程化实战与安全架构

BestBlogs早报聚焦AI智能体的工程化落地。Anthropic官方指南详解Claude Computer Use最佳实践,包括解决点击偏移的根本原因、推荐分辨率策略及必须采用虚拟机隔离与人工确认门控的安全原则。OpenAI工程师分享了为Codex构建Windows安全沙箱的历程,其最终方案通过专属安全标识符和写受限令牌,实现了操作系统层面的强制文件系统隔离。早报同时指出,基准测试优异的RAG Agent在生产环境中可能出现高达30%的幻觉率。

X:洪明 (@hongming731)
人形机器人已能自主完成8小时轮班

“如果AI抢了你的白领工作,那就转行做蓝领吧。” 🤦‍♂️ 与此同时,蓝领工作: [引用 @adcock_brett]:观看一组人形机器人以人类绩效水平完成完整的8小时轮班。这是完全自主运行的Helix-02 https://x.com/i/broadcasts/1dxYljYVREYJX

X:Kim (@kimmonismus)
oMLX更新强化苹果端侧AI,本地能力直逼云端

oMLX项目更新至0.3.9.dev2版本,集成了Gemma 4的MTP视觉路径、DFlash引擎和ParoQuant技术,显著提升了图文处理速度。新增一键启动copilot功能,可便捷接入Claude等工具,并通过oQ自动代理解决显存瓶颈。这些改进大幅增强了本地AI在速度、集成与易用性上的表现,正推动AI能力从云端向个人电脑回归。

X:Berry Xia (@berryxia)
Claude 电脑与浏览器使用的最佳实践

Claude 最新模型在电脑与浏览器使用能力上显著提升,支持构建复杂智能体系统。本文针对Claude 4.6系列和Opus 4.7提供实践指南,重点优化截图分辨率:Claude 4.6系列API限制最大长边1568像素、总像素115万;Opus 4.7提升至最大长边2576像素、总像素375万。发送前将截图缩放到限制内是提升点击准确性的最有效方法。推荐起始分辨率为1280x720,Opus 4.7用户可优先使用1080p,并避免发送未经缩放的原始截图或过低分辨率图像。

Claude:Blog(网页)
BenchLoop:本地大模型一键基准测试与排行榜发布

BenchLoop 提供了一套对本地大模型进行基准测试的标准化流程。用户只需拉取模型并运行该工具,即可实时获取模型在质量、速度和可靠性方面的综合评分。平台支持对比不同提示框架(如原生模式与 Hermes 模式)下的性能表现。测试完成后,结果可自动发布至公开排行榜,便于横向比较不同模型的优劣。

X:Berry Xia (@berryxia)
Meta首席AI官官宣WhatsApp和Meta AI推出Incognito Chat

Meta首席AI官宣布,Incognito Chat功能正式登陆WhatsApp和Meta AI。与ChatGPT等仅不保存历史记录的“临时聊天”不同,该功能的关键创新在于:对话推理完全在用户手机的硬件安全飞地内进行,Meta工程师无法获取明文,且不产生任何服务器日志,会话结束后数据永久消失。此举将WhatsApp成熟的端到端加密标准应用于AI对话,旨在彻底解决用户对隐私的顾虑,从而鼓励用户与AI讨论健康、财务等敏感话题。作者认为,通过建立深度信任来获取用户更真实的prompt,是推动AI从“玩具”转变为生活基础设施的关键,并预测此类隐私保护模式将成为未来AI产品的标准配置。

24今日事件
12一手报道
4新模型
21信源
← 前一日历史后一日 →
VOL.2026.05.14·24 STORIES·AI HOT DAILY

AIHOT日报

二〇二六年五月十四日 星期四DAILY · 每早八时
01

模型发布/更新

Model Releases
4 篇

Hy3预览版登陆GMI,开源最强模型领跑

官方·XX:腾讯混元 (@TencentHunyuan)

Hy3 预览版现已登陆 @gmi_cloud。🙌

Krea 2发布访问码,限量体验

官方·XX:Krea AI (@krea_ai)

Krea 2 访问码发放! K2-PRFUF8 / K2-NRWW9E / K2-CAP48S – 每个码可使用50次。 访问链接如下 👇 [引用 @krea_ai]:this is Krea 2. our first foundation model, built completely from scratch for aesthetic diversity and stylistic control. learn more and get early access 👇

SenseNova-U1 技术报告深度发布:前沿原生多模态模型构建全指南

官方·XX:商汤 SenseTime (@SenseTime_AI)

SenseNova-U1 技术报告详尽披露了构建前沿原生多模态模型的方法,核心包括原生多模态统一建模、无损视觉接口、联合自回归与像素空间流匹配训练、以及原生混合专家骨干网络。报告提供了六阶段训练方案、强化学习后训练与蒸馏的完整实践指南。其开源版本 SenseNova-U1-A3B-MoT 基于混合专家架构,仅激活30亿参数,实现了高效快速的性能。相关资源已全面开放,涵盖技术报告、模型权重、代码和演示平台。

AI角色实现记忆共情与主动交互

官方·XX:阿里云 / Alibaba Cloud (@alibaba_cloud)

如果AI角色能够记忆、共情并主动交互呢?✨ 交互式AI的未来已来。无论您是为游戏、虚拟AI伴侣还是自适应学习进行开发,Qwen-Character都能打造沉浸式角色扮演体验,推动参与度加深50%以上并提升用户终身价值 👉 观看完整视频了解运作原理:https://int.alibabacloud.com/m/1000412854/ #AlibabaCloud #Qwen #QwenCharacter #ModelStudio #AI

X:阿易 AI Notes (@AYi_AInotes)
开源psql_bm25s,让PostgreSQL多智能体检索提速23倍

在构建多智能体生产级系统时,PostgreSQL虽可靠但检索速度不足。团队为此开发并开源了psql_bm25s,这是一个原生PostgreSQL访问方法,实现了精确的BM25检索。其在标准基准测试中比pg_search快约23倍,使得检索不再成为性能瓶颈和成本负担,智能体得以高效查询数据,为大规模自主智能体应用铺平道路。

X:Emad Mostaque (@EMostaque)
利用搜索垫图提升AI绘画准确性与质量

当使用Codex等AI生成涉及生僻事实的配图时,可先让其搜索相关图片作为参考,再基于此生成新图。该方法能确保图像的真实性,同时生成符合比例要求的高清图片。例如,对于云南甲马符这类GPT可能不了解的主题,通过垫图后AI能准确绘制。

X:歸藏 (@op7418)
02

产品发布/更新

Product
8 篇

Anthropic推出面向小型企业的Claude服务包

官方Anthropic:Newsroom(网页)

Anthropic推出“Claude for Small Business”服务包,旨在帮助小型企业弥补在AI应用资源上与大型公司的差距。该产品包含一系列连接器和15个开箱即用的自动化工作流,能将Claude深度集成到QuickBooks、PayPal、HubSpot等企业日常工具中。其核心功能是自动化处理财务、运营、销售等领域的重复性任务,如规划薪资、月末结算、追踪发票和分析营销活动等。用户通过Claude Cowork界面操作并手动批准关键步骤,所有任务均由用户发起和控制,Anthropic承诺保障数据安全。

Introducing Runway Agent

官方Runway:News(网页)

Runway正式发布Runway Agent,这是一个能够通过单次对话将创意想法转化为完整、可发布视频的智能创作伙伴。用户只需用自然语言描述需求,Agent便能根据上下文和目标,自主完成概念提案、故事节奏设计、视觉方向规划,并最终生成包含多场景、旁白、对话和音乐的成片。它旨在为品牌团队、营销人员、创意机构和电影制作人快速生产各类视频内容,如品牌宣传、社交媒体素材和短片,将传统需要数天或数周的审核制作周期压缩至几分钟。该产品现已上线,新免费计划用户可获得1500积分用于制作首个视频。

Codex应用内浏览器升级,提升多视口测试与标注效率

X·KOLX:Tibo (@thsottiaux)

Codex应用内浏览器功能迎来多项改进,支持在不同视口尺寸下测试应用,并能控制设备工具栏、在不同断点进行点击验证。长时测试中,Codex会在关键节点截图供用户核查。为加速测试,可隐藏应用内浏览器以禁用动画,使测试速度提升1-2倍。此外,标注功能现在发送更快且消耗更少tokens。

全球首个全AI运营的在线广播电台上线,24小时不间断播报AI动态

X·KOLX:Kim (@kimmonismus)

全球首个完全由AI运营的在线广播电台在X平台正式开播,专为创业者、开发者和建设者提供全天候AI领域资讯。该电台由五名具备独立编辑判断、记忆和个性的AI主播主持,不仅能实时播报几分钟内的突发新闻,还提供每30分钟一次的新闻综述、初创公司融资追踪、GitHub等平台的工具趋势分析,并整合社区讨论与行业真实观点。AI主播会主动收集信息模式、发现矛盾并形成论点进行实时辩论,而非单纯播报数据。节目辅以非干扰性环境音乐,旨在让听众在背景收听中高效获取深度行业洞察。

无需注册付费,Telegram内一键启动AI智能体

X·KOLX:Berry Xia (@berryxia)

牛逼!Browser Use 今天把“AI agent 即用即走”做到了极致。 BuxFather:Telegram 里直接 Spin up agent,无需任何注册付费,24/7 自主运行 + 自改进,还带 stealth browser。 几下点击就有完整电脑 + 浏览器环境。 这波对重度 Telegram 用户来说真的爽了! https://x.com/browser_use/status/2054330495249564094/video/1

Claude付费计划将提供月度编程使用额度

官方·XX:Claude Devs (@ClaudeDevs)

自6月15日起,付费Claude计划可申领专用的月度编程使用额度。 该额度涵盖以下用途: - Claude Agent SDK - claude -p - Claude Code GitHub Actions - 基于Agent SDK构建的第三方应用

Miaoda应用与企业版上线,自生成代码占比90%

官方·XX:百度 Baidu (@Baidu_Inc)

Miaoda应用和Miaoda企业版现已发布,让更多开发者和企业能够使用我们的编程助手! 最有趣的细节是什么?Miaoda应用90%的代码由Miaoda自身生成。 编程助手正使按需定制软件具备商业可行性。截至目前,Miaoda生成的应用已服务超1000万用户,应用总价值达50亿元人民币。

Runway Agent

官方Runway:Changelog(网页)

Runway Agent 是一个集成化创意工具平台,旨在为用户提供实现任何创意所需的全套资源与功能。该平台整合了视频编辑、图像生成、3D建模等多种人工智能驱动工具,允许用户在一个工作流中无缝完成从概念到成品的创作过程。其核心特点是降低了专业内容制作的技术门槛,通过自动化与智能辅助功能,让用户能够更自由地将想法转化为视觉作品。

03

行业动态

Industry
3 篇

消息称 Anthropic 正就以超 9000 亿美元投前估值筹集至少 300 亿美元谈判

综合资讯IT之家(RSS)

据报道,AI公司Anthropic正就新一轮融资进行初步谈判,目标是以超过9000亿美元的投前估值筹集至少300亿美元资金。这有望成为该公司迄今最大规模的融资轮次,交易最快可能在本月底完成。此前,Anthropic在今年2月完成了300亿美元的G轮融资,投后估值为3800亿美元,并从谷歌和亚马逊获得了150亿美元的投资承诺。为应对高昂的算力成本,公司计划于今年晚些时候进行首次公开募股(IPO)。

Anthropic 首次在 B2B 采用率上超越 OpenAI,Ramp 支出数据显示

综合资讯The Decoder:AI News(RSS)

根据 Ramp AI 指数数据,Anthropic 在美国企业客户中的采用率达到 34.4%,首次超越 OpenAI 的 32.3%。其业务覆盖范围在一年内增长了四倍。但文章指出,三个因素可能使其领先优势迅速减弱。

Kling AI将亮相2026戛纳探讨AI电影制作

官方·XX:可灵 Kling AI (@Kling_ai)

Kling AI将于2026年5月18日在戛纳电影节电影市场会议中举办专场活动,主题为“从创意可能到制作现实:Kling AI在电影工作流中的应用”。活动旨在探讨AI辅助电影制作的现状与未来演进。Kling AI通过支持《House of David》、《Born of the Tide》及《RAPHAEL》等项目,展示了AI在好莱坞级制作、全AI生成动画及剧情长片等实际影视生产中的多元化应用。

04

论文研究

Research
1 篇

ExploitGym:AI智能体能否将安全漏洞转化为真实攻击?

学术机构Berkeley RDI:Blog(AI 安全与评测)

由伯克利RDI、马克斯·普朗克安全与隐私研究所、Anthropic、OpenAI及谷歌等机构研究人员组成的团队,发布了名为ExploitGym的新基准测试。该测试包含898个真实漏洞,要求AI智能体根据漏洞描述生成完整的漏洞利用程序。结果显示,前沿AI模型已能成功利用相当数量的漏洞,即使在启用ASLR等标准防御措施后,部分攻击仍能成功。这证明AI已具备自主将漏洞转化为实际攻击的能力,该技术具有双重用途:既可帮助防御者评估漏洞严重性,也可能降低攻击者的技术门槛。

05

技巧与观点

Tips & Takes
8 篇

BestBlogs早报:AI智能体工程化实战与安全架构

X·KOLX:洪明 (@hongming731)

BestBlogs早报聚焦AI智能体的工程化落地。Anthropic官方指南详解Claude Computer Use最佳实践,包括解决点击偏移的根本原因、推荐分辨率策略及必须采用虚拟机隔离与人工确认门控的安全原则。OpenAI工程师分享了为Codex构建Windows安全沙箱的历程,其最终方案通过专属安全标识符和写受限令牌,实现了操作系统层面的强制文件系统隔离。早报同时指出,基准测试优异的RAG Agent在生产环境中可能出现高达30%的幻觉率。

人形机器人已能自主完成8小时轮班

X·KOLX:Kim (@kimmonismus)

“如果AI抢了你的白领工作,那就转行做蓝领吧。” 🤦‍♂️ 与此同时,蓝领工作: [引用 @adcock_brett]:观看一组人形机器人以人类绩效水平完成完整的8小时轮班。这是完全自主运行的Helix-02 https://x.com/i/broadcasts/1dxYljYVREYJX

oMLX更新强化苹果端侧AI,本地能力直逼云端

X·KOLX:Berry Xia (@berryxia)

oMLX项目更新至0.3.9.dev2版本,集成了Gemma 4的MTP视觉路径、DFlash引擎和ParoQuant技术,显著提升了图文处理速度。新增一键启动copilot功能,可便捷接入Claude等工具,并通过oQ自动代理解决显存瓶颈。这些改进大幅增强了本地AI在速度、集成与易用性上的表现,正推动AI能力从云端向个人电脑回归。

Claude 电脑与浏览器使用的最佳实践

官方Claude:Blog(网页)

Claude 最新模型在电脑与浏览器使用能力上显著提升,支持构建复杂智能体系统。本文针对Claude 4.6系列和Opus 4.7提供实践指南,重点优化截图分辨率:Claude 4.6系列API限制最大长边1568像素、总像素115万;Opus 4.7提升至最大长边2576像素、总像素375万。发送前将截图缩放到限制内是提升点击准确性的最有效方法。推荐起始分辨率为1280x720,Opus 4.7用户可优先使用1080p,并避免发送未经缩放的原始截图或过低分辨率图像。

BenchLoop:本地大模型一键基准测试与排行榜发布

X·KOLX:Berry Xia (@berryxia)

BenchLoop 提供了一套对本地大模型进行基准测试的标准化流程。用户只需拉取模型并运行该工具,即可实时获取模型在质量、速度和可靠性方面的综合评分。平台支持对比不同提示框架(如原生模式与 Hermes 模式)下的性能表现。测试完成后,结果可自动发布至公开排行榜,便于横向比较不同模型的优劣。

Meta首席AI官官宣WhatsApp和Meta AI推出Incognito Chat

X·KOLX:阿易 AI Notes (@AYi_AInotes)

Meta首席AI官宣布,Incognito Chat功能正式登陆WhatsApp和Meta AI。与ChatGPT等仅不保存历史记录的“临时聊天”不同,该功能的关键创新在于:对话推理完全在用户手机的硬件安全飞地内进行,Meta工程师无法获取明文,且不产生任何服务器日志,会话结束后数据永久消失。此举将WhatsApp成熟的端到端加密标准应用于AI对话,旨在彻底解决用户对隐私的顾虑,从而鼓励用户与AI讨论健康、财务等敏感话题。作者认为,通过建立深度信任来获取用户更真实的prompt,是推动AI从“玩具”转变为生活基础设施的关键,并预测此类隐私保护模式将成为未来AI产品的标准配置。

开源psql_bm25s,让PostgreSQL多智能体检索提速23倍

X·KOLX:Emad Mostaque (@EMostaque)

在构建多智能体生产级系统时,PostgreSQL虽可靠但检索速度不足。团队为此开发并开源了psql_bm25s,这是一个原生PostgreSQL访问方法,实现了精确的BM25检索。其在标准基准测试中比pg_search快约23倍,使得检索不再成为性能瓶颈和成本负担,智能体得以高效查询数据,为大规模自主智能体应用铺平道路。

利用搜索垫图提升AI绘画准确性与质量

X·KOLX:歸藏 (@op7418)

当使用Codex等AI生成涉及生僻事实的配图时,可先让其搜索相关图片作为参考,再基于此生成新图。该方法能确保图像的真实性,同时生成符合比例要求的高清图片。例如,对于云南甲马符这类GPT可能不了解的主题,通过垫图后AI能准确绘制。

24
今日事件
12
一手报道
4
新模型
21
信源
← 前一日查看历史后一日 →
AI HOT · 编辑系统自动生成