AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态今日 198 条
全部一手资讯X论文
6月12日周五
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月12日
03:09
MiniMax (official)@MiniMax_AI
58
M3 现已上线 @RespanAI 🔥 并且享五折优惠

Respan: As promised, we don't charge markups on models. @MiniMax_AI M3 is now 50% off through Respan Gateway. Link in comments.

产品更新
03:08
🚨 AI News | TestingCatalog@testingcatalog
68
Perplexity Deep Research 现以原生技能形式集成至 Perplexity Computer 平台。Computer 负责将复杂问题分解为子任务,路由至20多个前沿模型,并返回报告、演示文稿和仪表板。Deep Research 基于 Search as Code 架构构建,模型编写代码自行组装搜索,并行执行数千次检索步骤,在所有基准测试上均超越旧版 Deep Research。该功能已面向 Pro 和 Max 订阅用户开放。

Perplexity: Deep Research in Computer is built on our Search as Code architecture. The model writes code that assembles search itsel...

智能体产品更新搜索
03:02
SemiAnalysis@SemiAnalysis_
67
GPU 机架达到 400kW?传统数据中心无法应对,电网将被限流。 Radiant 耗时 12 个月,从零到 AI 生产,正是因为绕过了电网。基础设施主管 Patrick Wohlschlegel 告诉 @JordanNanos
行业动态部署/工程
03:02
Yuchen Jin@Yuchenj_UW
54
Claude Fable 5 到目前为止感觉不错,但我还不认为它相比 GPT-5.5 或 Opus 4.8 有巨大飞跃。 我最大的不满:旧的AI研究论文/博客 + 基本问题常常触发自动降级到 Opus 4.8。 Anthropic 昨晚表示不会再有无声模型切换(很好),但请不要削弱基本的AI研究或生物问题。
Anthropic大佬观点模型发布
02:59
HuggingFace Daily Papers(社区热门论文)
63
我们的模型基于哪些模型?--审计现代大语言模型中的隐形依赖

现代LLM训练管线日益依赖其他模型生成数据、过滤语料、评判输出,形成递归依赖,但完整依赖结构分散在不同公共工件中,复杂度和递归深度远超人工追踪能力。本文提出ModSleuth,一个能从公共工件递归重建LLM依赖图并附源证据的智能体系统。对4个LLM发布的分析,恢复1060个源验证依赖,构建了大规模依赖图,揭示了多跳许可证义务、训练-评估耦合、发布版本与训练版本不一致及文档不一致等问题。ModSleuth及依赖图已开源。

安全/对齐数据/训练论文/研究
02:58
Bloomberg:Technology(RSS)
72
OpenAI 正考虑大幅降价以应对 Anthropic 竞争

据知情人士透露,OpenAI 正考虑对其服务进行大幅降价,以应对竞争对手 Anthropic 同样可能采取的成本削减举措。此举暗示双方在各自筹备上市前可能掀起一场价格战。

AnthropicOpenAI行业动态
关联讨论 3 条Gary Marcus:The Road to AI We Can Trust(RSS)X:Rohan Paul (@rohanpaul_ai)Hacker News 热门(buzzing.cc 中文翻译)
02:52
xAI@xai
70
Grok Build 插件市场现已进入 Beta 阶段。您可以在终端中使用 MongoDB、Vercel、Sentry、Cloudflare 和 Chrome DevTools 插件进行开发。详情请见 https://x.ai/news/grok-plugin-marketplace

xAI: The Grok Build Plugin Marketplace is now in beta. Build with MongoDB, Vercel, Sentry, Cloudflare, and Chrome DevTools pl...

MCP/工具产品更新部署/工程
关联讨论 2 条xAI:News(网页)X:xAI (@xai)
02:46
jason@jxnlco
61
一年多前我见到了@jolandgraf等人、@humford和Sandeep,现在更兴奋很快就能在办公室见到他们! https://openai.com/index/openai-to-acquire-ona/
OpenAI开源生态数据/训练行业动态
02:32
Artificial Analysis@ArtificialAnlys
52
Ideogram 4.0 开源权重文生图模型发布

Ideogram 4.0 是 Ideogram 首个开源权重模型,生成 2K×2K 输出,支持多语言文本渲染、边界框布局控制和透明背景。采用结构化 JSON 提示,提示增强器仅限 Ideogram 专有 API。在 Artificial Analysis 开放权重排行榜排名第8,整体第31,领先 Seedream 3.0 等闭源模型。API 三档:Turbo $30/千张、Default $60/千张、Quality $100/千张。开源权重免费用于评估和非商业用途,商业自部署需单独许可。

图像生成开源生态模型发布
02:28
Bloomberg:Technology(RSS)
56
SpaceX IPO 被视为里程碑时刻,Seven Seven Six 的 Ohanian 称

Seven Seven Six 创始人兼 Reddit 联合创始人 Alexis Ohanian 在柏林 SuperReturn 年会上表示,SpaceX 的 IPO 将成为里程碑事件,为太空经济注入新资本。他还谈到即将到来的 AI 公司 IPO(包括 OpenAI 和 Anthropic),认为这些上市将改变风险投资格局。

AnthropicOpenAI大佬观点
02:28
Bloomberg:Technology(RSS)
57
Gopuff 联合 CEO 称选择 xAI 是出于成本和质量考虑

即时配送公司 Gopuff 基于 xAI 的模型构建了新的 AI 购物助手。联合 CEO Rafael Ilishayev 表示,选择 xAI 主要是因为其成本和性能优势。xAI 正筹备 IPO,认为企业 AI 市场空间达 26 万亿美元,但目前 Gopuff 是少数将 Grok 投入实际业务的企业客户之一。

xAI行业动态
02:27
The Verge:订阅版科技(RSS)
36
Roborock Q10 S5 Plus 扫拖机器人半价促销,达历史最低价

Roborock Q10 S5 Plus 扫拖一体机器人价格腰斩,降至历史最低。该机型配备 AI 智能避障和强力振动拖地功能。

行业动态
02:26
Simon Willison 博客
37
asyncinject 0.7 发布

asyncinject 0.7 发布,这是一个作者数年前为支持 asyncio 依赖注入模式而构建的 Python 工具库,曾与 Datasette 搭配使用。Claude Fable 5 发现了库中的若干 bug 并自动修复——Claude Fable 5 是一个非常主动的模型。

开源/仓库部署/工程
02:26
Simon Willison 博客
68
Datasette 1.0a33 发布

Datasette 1.0a33 发布,这是迈向稳定版 1.0 的重要步骤。该版本将在 1.0a3 中引入的 `?_extra=` 模式从表格扩展至查询和行数据,该模式现已加入文档。为演示新特性,作者使用 Claude Code 中的 Claude Fable 5 制定计划,再由 Codex Desktop 中的 GPT-5.5 xhigh 实现,构建了自定义 extras API 探索工具。

产品更新开源生态
02:26
Baidu Inc.@Baidu_Inc
5
靴子系好,球网架起,时钟归零--所有的小准备汇聚成足球最大的夏天。 准备好开球了吗? - 图像由 ERNIE-Image 创建
产品更新图像生成
02:25
Epoch AI@EpochAIResearch
66
单个数据中心的计算能力记录每 7 个月翻倍一次。 Colossus 1、Anthropic-Amazon New Carlisle 和 Meta Prometheus 依次登顶。
数据/训练论文/研究部署/工程
02:19
Chubby♨️@kimmonismus
62
Anthropic 目前营收超过任何其他 AI 模型公司,却仍无法靠自身获得新数据中心的融资。《The Information》报道称,贷款机构要求 Google 先担保租赁付款。正是这家 Google,协助设计 Anthropic 的芯片,并向其出售约 2000 亿美元的计算能力。营收领先者竟处于这种尴尬境地。
AnthropicGoogle行业动态部署/工程
02:13
Anthropic:Newsroom(网页)
精选74
Anthropic与DXC达成全球联盟,将Claude引入关键行业系统

Anthropic与IT服务公司DXC Technology达成多年全球联盟。DXC将培训数万名获得Claude认证的前沿部署工程师(FDE),将Claude引入其为全球大型银行、航空公司、保险公司及政府机构运营的关键系统。内部部署中,Claude已成为DXC OASIS平台的默认基础模型,该平台超95%代码由Claude编写,开发速度提升10倍,已服务50多家客户。DXC加入Claude Partner Network,将在保险、现代化服务、网络安全及应用服务四个领域率先推出基于Claude的解决方案。

智能体Anthropic行业动态

推荐理由:这是 Anthropic 在企业服务赛道的一次重大卡位,DXC 把银行、航空等关键行业的系统交给 Claude,比任何 benchmark 都更能证明模型在大规模生产环境中的可靠性。
02:09
OpenCode@opencode
50
OpenCode Go 正在成为哪些模型被使用、如何使用的最佳数据来源。 我们制作了一个公开统计页面,供你查看最新数据。 https://opencode.ai/data
产品更新数据/训练
02:02
Artificial Analysis@ArtificialAnlys
61
Artificial Analysis 联合 NVIDIA 发布 AI 护栏基准测试

随着用户和企业赋予 AI 模型与智能体更高自主权,其输入输出护栏的重要性持续上升。Artificial Analysis 与 NVIDIA 合作,在三个开放数据集上独立基准测试了护栏与审核模型,评估检测质量、延迟以及在捕获不安全内容与过度拒绝安全内容之间的权衡。结果显示无模型全面领先,且业内仍缺乏统一评判标准。该研究被视为这一日益重要的评估问题的早期探索。

安全/对齐评测/基准
02:02
Nathan Lambert@natolambert
58
Dolci数据集中有一类特定粉丝小说,角色在池塘放屁导致鱼被熏死。数据集通过选择生动描写的回答、拒绝不配合的回答,教会模型服从。Nathan Lambert表示乐于创造此类研究场景。

Goodfire: #4: fart fishing Buried in Dolci is a cluster of very specific fan fiction, where characters fart in ponds, causing fish...

安全/对齐数据/训练
02:00
Ethan Mollick@emollick
48
Ethan Mollick测试Fable模型完成柯勒律治未竟诗作《忽必烈汗》,基于PorlockBench任务:假设"波洛克的人"未出现,补全诗歌并延续主题。Fable用时10分钟思考,思维痕迹充满对柯勒律治意图的复杂分析,但结果仍显直白,未达到柯勒律治水准。该评测反映模型在创造性续写任务上的进步,但基准尚未饱和。

Ethan Mollick: PorlockBench still unsaturated, but the models are getting better: "complete the poem as you imagine it might end if The...

Anthropic大佬观点推理
01:59
HuggingFace Daily Papers(社区热门论文)
61
APEX:用于无线边缘运维的网络原生时间序列基础模型

APEX 是一个网络原生、仅解码器的 Transformer 模型,专用于企业无线接入点(AP)遥测的预测与异常检测。它在约 4,500 个生产无线网络的 10 通道多元遥测数据上预训练,涵盖约 10 万条 AP 时间序列、每 AP 34 个指标。提供两个版本:APEX-Large(269M 参数,云部署)和 APEX-Edge(10.5M 参数,边缘部署)。在 192 步(4 天)的 DHCP 退化基准上,APEX-Large 比最强基础模型基线 Toto 降低 MAE 18%,比 SARIMA 降低 38%,异常检测 F1 达 0.93;APEX-Edge 可在 AP 级边缘硬件上实现亚秒级、保护隐私的推理。结果表明网络原生预训练是主动无线运维的实用基础。

数据/训练端侧论文/研究
01:58
Bloomberg:Technology(RSS)
44
Gopuff CEO 称马斯克的 SpaceX 派遣工程师协助开发更廉价的 AI 智能体

食品配送公司 Gopuff 联合 CEO Rafael Ilishayev 表示,SpaceX 派工程师帮助该公司开发了一款 AI 智能体,其价格低于竞争对手。

智能体行业动态
01:58
Bloomberg:Technology(RSS)
66
前 xAI 员工起诉,称因质疑 Grok 安全性遭解雇

埃隆·马斯克旗下 xAI 公司的一名前人工智能工程师提起诉讼,指控公司因他对 Grok 聊天机器人的安全性提出担忧而将其错误解雇。

xAI安全/对齐行业动态
01:55
Noam Brown@polynoamial
63
OpenAI 研究员 Noam Brown 表示,GPT-5.5 在 Agents' Last Exam(ALE)基准中排名第一,且按模型 token、成本或墙钟时间衡量同样表现最佳。ALE 由 @dawnsongtweets 团队创建,是一个滚动基准,包含超过 1500 个专家任务、覆盖 55 个职业,测试 AI 智能体能否执行实际经济价值工作。评估对象包括 GPT-5.5、Fable 5、Composer 2.5 等前沿系统。结果显示:当前智能体能解决部分专业任务,但在需要持续推理和深度专业知识的最难层级,所有被测前沿智能体(包括 Fable 5)成功率为 0%。

Dawn Song: Everyone says the latest AI agents will be "job-ready" soon, especially after the release of Fable 5 this week. But is t...

OpenAI大佬观点评测/基准
01:54
Perplexity@perplexity_ai
精选77
我们正在将 Deep Research 作为原生技能集成到 Computer 中。 它现在连接到驱动 Computer 的智能体框架,可访问搜索即代码生成、长运行沙箱、连接器、工具和授权数据。 Pro 和 Max 订阅者现已可用。
智能体产品更新搜索

推荐理由:Perplexity 把深度研究直接嵌进 Computer 的 agent 层,等于给自主代理加了个研究引擎,Pro 用户现在就能用,对需要大量调研的开发者或产品人来说是个效率飞轮。
01:54
宝玉@dotey
53
Claude Fable 5:长思考致推理强度与Token消耗需权衡

用户分享 Claude Fable 5 使用体验:以前无脑选 Max 推理强度,现在则不敢随便选,因为模型足够聪明无需过强推理,且时间长、token 消耗大。Fable 5 还喜欢反复验证,结果虽好但耗时长不一定合算。引用推文指出,Fable 5 的强项之一是思考推理时间很长,曾有一次思考 15 分钟才开始行动。

向阳乔木: 发现Claude Fable 5强的地方之一,可能是模型思考推理的时间足够长。 刚提了个想法,它思考15分钟才开始行动,牛逼。

Anthropic大佬观点推理
01:47
Hacker News 热门(buzzing.cc 中文翻译)
58
Anthropic 就"看不见的"Claude Fable 安全防护措施致歉

Anthropic 公开致歉,承认其 Claude Fable 功能中存在用户无法察觉的安全防护措施,但未公布具体措施细节。

Anthropic安全/对齐行业动态
01:39
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选60
BBVA 将 AI 置于银行业务核心,与 OpenAI 合作

BBVA 将 ChatGPT Enterprise 推广至 10 万名员工,并与 OpenAI 达成合作,加速全球银行业 AI 驱动的转型。

OpenAI行业动态部署/工程

推荐理由:BBVA给10万员工部署ChatGPT Enterprise,是金融业最大规模之一,但本质是PR案例,信息量有限,想参考银行级AI落地的可以扫一眼。
01:38
🚨 AI News | TestingCatalog@testingcatalog
50
Maket 推出了用户最常请求的功能:支持上传平面图(包括草图、PDF 或旧设计文件),系统自动识别墙、门、窗和家具,几分钟内即可在平台上生成可编辑的 3D 画布,用户可直接修改和查看。这是该平台最受期待的功能之一。

Maket: UPLOAD YOUR OWN FLOOR PLAN TO MAKET HAVE IT RECOGNIZED AND EDITABLE IN MINUTES One of the most requested features weʼve ...

产品更新图像生成
01:37
AYi@AYi_AInotes
70
QuantMind:量化金融知识处理框架开源(MIT协议)

一群AI研究员开源了量化金融知识处理框架QuantMind(MIT协议)。它能将arXiv论文、SEC文件、研报等非结构化内容批量解析为可查询的语义知识图谱,支持多模态解析(表格、公式、图表)及自然语言多跳推理,可替代初级分析师读论文、整理观点等工作。但真正的alpha仍取决于提问质量与验证严谨度。

AYi: http://x.com/i/article/2064536412670562304

GitHub检索增强多模态开源/仓库
01:29
Deedy@deedydas
56
数据质量直接决定 AI 模型性能,但此前数据对模型的影响机制难以捉摸。GoodfireAI 提出"预测性数据调试"方法,允许在投入昂贵训练前提前发现数据问题。在 DPO 数据集中,他们发现了损坏的护栏、模型幻觉,甚至包含"鱼放屁同人小说"等低质内容。该技术旨在揭示并塑造模型将在训练中学到的内容,避免不可逆的无效训练。

Goodfire: Have you debugged your training data? You might not like what you find. Introducing predictive data debugging: reveal an...

大佬观点数据/训练
01:28
向阳乔木@vista8
46
发现 Claude Fable 5 强的地方之一,可能是模型思考推理的时间足够长。 刚提了个想法,它思考 15 分钟才开始行动,牛逼。
智能体Anthropic大佬观点推理
01:28
向阳乔木@vista8
47
用大模型复刻热门工具站的新思路

推文探讨了使用大模型复刻已有热门工具站的可能性,强调这些工具站本身不需要AI能力,纯靠需求驱动。作者指出,许多出海赚Adsense美金的站点也遵循类似逻辑——选择自己熟悉领域的工具,用当前最好的模型进行复刻,并结合自身对用户需求的深入理解,从而快速做出有价值的作品。这是对模型能力的一种实用测试。

大佬观点现象/趋势
01:28
Bloomberg:Technology(RSS)
58
企业常犯的最大AI错误

彭博观点专栏作家Gautam Mukunda指出,高管们正强迫员工使用AI,将裁员归咎于AI,并误解颠覆性技术的实际演变方式。

其他现象/趋势
01:24
Cursor Blog
精选74
Cursor 推出 Auto-review 机制:用分类器智能体动态管控智能体自主权限

Cursor 近日推出 Auto-review,通过一个专门的分类器智能体在工具调用前审查动作风险。该分类器根据上下文判断动作是否与用户意图一致,高风险时阻止并返回解释给父智能体,低风险时放行。分类器采用小模型,运行在智能体循环内以避免额外延迟,并能读取工作区文件辅助判断。测试基于约12小时内部开发会话生成的6122条标签数据,以及针对读取密钥、操作生产数据等危险场景的合成数据。设计目标是在不频繁阻断日常开发的前提下,拦截风险动作。

智能体产品更新安全/对齐
关联讨论 1 条Cursor Blog
推荐理由:Cursor把agent监管从"是/否"开关变成了可调节的刻度盘,一个专用小模型实时判断操作风险,高风险时给反馈让父agent换个安全方案,而非频繁打断用户。用Cursor的开发者都得了解这个逻辑。
01:22
xAI@xai
70
@MongoDB 插件已在 Grok Build 插件市场上线。 通过单个提示词,探索数据、优化数据库性能并构建高性能向量搜索系统。

xAI: The Grok Build Plugin Marketplace is now in beta. Build with MongoDB, Vercel, Sentry, Cloudflare, and Chrome DevTools pl...

MCP/工具xAI产品更新
关联讨论 2 条xAI:News(网页)X:xAI (@xai)
01:20
Logan Kilpatrick@OfficialLoganK
精选81
Gemini Omni Flash 在图像到视频、文本到视频和视频编辑方面达到了 SATA : ) 很高兴很快能将这一能力通过 API 提供给开发者!
Google图像生成多模态模型发布

推荐理由:视频生成正式进入全模态一体时代,Gemini Omni Flash 把图生视频、文生视频和剪辑整合在一个模型里,API 很快上线,做视频工具的可以提前琢磨对手在哪了。
01:17
Hacker News 热门(buzzing.cc 中文翻译)
精选71
DeepSeek-R1 的开源实现

DeepSeek-R1 的开源复现项目已在 GitHub 发布,在 Hacker News 上获得 101 个积分。该项目旨在以开源方式复现 DeepSeek-R1 模型。

DeepSeek开源/仓库推理

推荐理由:Hugging Face 开源复现 DeepSeek-R1,这是推理模型透明化的关键一步,训练代码和权重都放出来了,搞强化学习和推理优化的可以直接开工。
‹ 上一页
1…1112131415…50
下一页 ›