AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态一手 · 2390 条
全部一手资讯X论文
9月11日周四
9月10日周三
9月9日周二
9月4日周四
9月2日周二
9月1日周一
8月29日周五
8月28日周四
8月27日周三
8月26日周二
8月25日周一
8月21日周四
8月15日周五
8月13日周三
8月8日周五
8月7日周四
8月4日周一
8月1日周五
7月31日周四
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
9月11日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选73
为智能体编写高效工具--与智能体协作

文章探讨如何为基于大语言模型的智能体设计高效工具。核心方法是通过与智能体(如Claude Code)协作,采用快速原型构建和全面评估的迭代流程来优化工具性能。关键设计原则包括:选择适当的工具实现范围,使用命名空间明确功能边界,从工具向智能体返回有意义的上下文,优化响应以提高token效率,以及对工具描述进行提示词工程。工具本质上是确定性系统与非确定性智能体之间的新契约,设计应优先考虑智能体的使用体验,而非传统开发者导向的API思路,以扩大智能体解决实际任务的能力。

智能体AnthropicMCP/工具教程/实践

推荐理由:Anthropic 把自家内部反复打磨的 agent 工具开发方法论完整公开了,从评估流程到 prompt 工程细节全是实操干货,做 MCP server 或 agent 工具链的人可以直接抄作业。
00:00
Runway:Changelog(网页)
浅色模式(Light Mode)

正式推出 Light Mode(浅色模式)功能,宣称将提供用户创作任何内容所需的一切工具与能力,满足多样化创作需求。

产品更新视频
9月10日
15:01
Thinking Machines Lab:官方博客(RSS)
精选60
破解LLM推理中的非确定性

LLM推理的再现性是科学进步的基础,但即使在温度设为0的贪心采样下,ChatGPT等API以及vLLM、SGLang等自托管推理引擎仍无法保证确定性结果。常见的“并发+浮点非结合性”假设并不完整——GPU上重复执行相同矩阵乘法结果完全一致。真正原因在于:部分GPU内核是非确定性的,但LLM前向传播使用的内核均为确定性;推理服务器前向传播本身是确定性的,用户感知的非确定性源于浮点运算非结合性在不同聚合顺序下导致的细微数值差异。文章揭示了这一误解,并探讨如何实现真正可重现的LLM推理输出。

开源/仓库推理教程/实践部署/工程

推荐理由:Horace He 把 LLM 推理非确定性的锅从并发浮点转向 batch-size,并给出了可落地的 batch-invariant 内核实现,做推理部署和 RL 的工程师都该看看。
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang HiCache:支持多种存储后端的快速分层 KV 缓存

SGLang 发布 HiCache 分层 KV 缓存系统,通过 HiRadixTree 页表管理 GPU、CPU 及外部存储中的缓存数据,支持 Mooncake、3FS、NIXL 等多种后端。系统采用 GPU 辅助 I/O 内核和层间重叠机制加速数据传输,在 Qwen3-Coder-480B 编码场景中将 TTFT 降低 56%、吞吐量翻倍、缓存命中率提升至 80%;在 DeepSeek-R1-671B 部署中实现缓存命中时 TTFT 降低 84%,整体吞吐量最高提升 6 倍。

开源/仓库部署/工程
9月9日
08:10
Sam Altman:Blog(RSS)
精选
Jakub 与 Szymon

OpenAI 高层公开致谢首席科学家 Jakub Pachocki 与 Szymon Sidor,二人多次联手攻克被认为不可能的技术难题,主导 Dota RL 扩展、GPT-4 预训练及推理突破,被形容为“不知疲倦”的黄金搭档。

OpenAI大佬观点推理数据/训练

推荐理由:Sam Altman 揭秘 OpenAI 核心科学家与关键技术突破历程
00:00
Mistral AI:News(网页)
76
Mistral AI 融资17亿欧元以加速AI推动技术进步

Mistral AI宣布完成1.7亿欧元C轮融资,投后估值达117亿欧元。本轮融资由半导体设备制造商ASML领投,DST Global、Andreessen Horowitz、NVIDIA等现有投资方参与。公司将利用这笔资金加速AI前沿研究,为战略行业提供定制化的分布式前沿AI解决方案,以解决复杂的工程和工业问题。此轮融资重申了公司的独立性。

开源生态行业动态
9月4日
14:54
蚂蚁 inclusionAI:GitHub 新仓库
51
InclusionAI 开源 MoE 大语言模型 Ling-V2

InclusionAI 发布并开源了其混合专家大语言模型 Ling-V2。该模型采用 MoE 架构,旨在通过更高效的参数利用来提升模型性能。此次开源意味着研究者和开发者可以自由访问、使用并基于此模型进行进一步的创新与开发。

开源/仓库模型发布端侧
9月2日
00:00
Mistral AI:News(网页)
55
Le Chat 推出自定义 MCP 连接器与记忆功能

Mistral AI 于 2025 年 9 月 2 日宣布为 Le Chat 推出更新。更新包括:处于测试阶段的企业级 MCP 连接器目录,提供 20 多个安全的连接器,覆盖数据、生产力、开发、自动化与商务等领域,支持搜索、总结并操作各类工具,且允许用户自定义连接器。此外,新增记忆功能(beta),可基于用户偏好和事实提供个性化回复,并支持从 ChatGPT 快速导入记忆。所有功能均向免费套餐用户开放,并支持多端部署。

MCP/工具产品更新
关联讨论 1 条Mistral AI:News(网页)
00:00
Mistral AI:News(网页)
52
Le Chat 推出记忆功能测试版

Mistral AI 为其对话AI产品 Le Chat 推出“记忆”测试版功能。该功能旨在让AI助手能根据上下文记住并关联信息,其设计基于三大原则:透明(用户可知何时、为何调用记忆)、自主(用户可随时关闭、编辑或删除记忆)和数据主权(记忆可导出)。辅助功能“记忆洞察”帮助用户探索记忆内容。产品强调记忆的可控性与实用性,后续将优化分类、遗忘与可视化能力。

产品更新
00:00
字节 Seed:Research Papers(网页内嵌数据)
PXDesign:快速、模块化且准确的蛋白质结合剂从头设计方法

PXDesign 提供了一种快速、模块化且准确的蛋白质结合剂从头设计方案。该方法通过优化算法架构,在保持高精度的同时显著提升计算速度,支持灵活的功能组件组合,可针对不同蛋白质靶点高效生成高亲和力结合剂,为药物开发和合成生物学研究提供了高效的计算设计工具。

论文/研究
9月1日
17:30
公众号:DeepSeek(深度求索)
33
DeepSeek关于AI生成合成内容标识的公告

DeepSeek已在平台内对AI生成合成内容添加标识,并明确提醒用户相关内容由AI生成。

DeepSeek产品更新
17:00
BAIR:Berkeley AI Research Blog
word2vec究竟学到了什么?

本研究提出了word2vec学习机制的完整定量理论,证明其在实际条件下等价于无加权最小二乘矩阵分解。梯度流动力学具有闭式解,最终词嵌入即为PCA结果。从小初始化开始时,模型通过离散步骤逐次学习正交线性子空间(概念),递增嵌入矩阵的秩。这些潜在特征对应由词共现概率和单字概率等可测量语料统计量决定的矩阵顶部特征向量。

数据/训练论文/研究
00:00
LMSYS:Blog(Chatbot Arena 团队)
美团开源LongCat-Flash:基于SGLang的高效Agentic MoE模型

美团开源Agentic MoE模型LongCat-Flash,总参数量560B,每token仅激活27B。该模型基于SGLang框架,采用PD分离架构与SBO技术,通过四阶段流水线在单batch内实现计算与通信重叠,突破吞吐与延迟的权衡瓶颈。相比同类模型推理成本降低50%以上,在Agent任务中表现优异,适用于复杂实时智能体应用。

智能体模型发布部署/工程
8月29日
15:39
美团 LongCat:HuggingFace 新模型
meituan-longcat 发布 LongCat-Flash-Chat

meituan-longcat 发布 LongCat-Flash-Chat 项目,宣称将通过开源与开放科学推进人工智能技术的进步与民主化。该项目致力于打破技术壁垒,降低 AI 使用门槛,但目前尚未披露具体的技术架构、参数规模、性能基准测试数据及应用场景等详细信息。

Hugging Face模型发布
04:47
Ethan Mollick:One Useful Thing(RSS)
精选
大众智能

从 GPT-5 到 nano banana,强大的人工智能技术正变得普及化。无论是尖端大模型还是轻量级应用,普通用户都能便捷获取先进 AI 能力,技术民主化进程加速,标志着智能时代进入人人可及的新阶段。

OpenAI现象/趋势端侧

推荐理由:Ethan Mollick 解读 AI 普及化趋势,从 GPT-5 到微型设备应用
8月28日
08:00
xAI:News(网页)
精选
xAI发布轻量级编程模型Grok Code Fast 1

xAI发布轻量级编程模型Grok Code Fast 1,采用全新架构,基于真实PR数据训练,精通grep、终端和文件编辑等工具。推理速度达190 tokens/秒,定价输入$0.20/百万tokens、输出$1.50/百万tokens,SWE-Bench-Verified得分70.8%。目前已在GitHub Copilot、Cursor、Cline等平台限时免费开放。

智能体xAI模型发布编码

推荐理由:xAI发布专为Agentic Coding优化的极速编程模型,已集成Cursor、Copilot等主流工具,价格极具竞争力
00:00
LMSYS:Blog(Chatbot Arena 团队)
gpt-oss MXFP4 微调和部署:ModelOpt + SGLang(8月29日更新)

OpenAI 开源模型 gpt-oss 原生采用 MXFP4 量化,但社区长期缺乏针对该低精度格式的训练支持。NVIDIA 推出基于 Model Optimizer 的量化感知训练(QAT)方案,允许在 Blackwell、Hopper、Ampere 及 Ada 等常见 GPU 上直接微调模型,无需转换为 BF16 而牺牲性能。实测显示,经 QAT 微调的 gpt-oss-20b 在多语言推理任务中通过率从 16% 提升至 100%,在安全提示识别任务中从 30% 优化至 97%。微调后的模型可通过 SGLang 部署,保持 MXFP4 格式的推理速度与内存优势。

OpenAI教程/实践数据/训练部署/工程
8月27日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 支持 gpt-oss:从 Day 0 支持到性能增强

SGLang 针对 openai/gpt-oss-120b 发布重大性能优化,prefill 吞吐量提升 2.1 倍,decode 吞吐量提升 2.25 倍。新版本集成 FlashInfer 内核以释放 NVIDIA Blackwell 性能,通过 FlashAttention-3 加速 Hopper GPU,并原生支持 AMD MI350。在 B200 上 MXFP4 精度下单批次解码速度达 416.02 tok/s。同时引入 EAGLE3 投机解码支持,GPQA 基准测试验证精度与官方报告一致,确保高性能不损失推理能力。

智能体OpenAI开源/仓库部署/工程
8月26日
08:00
OpenRouter:Announcements(RSS)
49
OpenRouter 上线首个图像模型 Gemini 2.5 Flash Image Preview

OpenRouter 现已上线 Gemini 2.5 Flash Image Preview,这是该平台首个图像生成模型,支持 SOTA 图像生成、角色一致性以及多图像输出。

Google产品更新图像生成多模态
08:00
OpenRouter:Announcements(RSS)
46
OpenRouter 上线首个图像模型 Gemini 2.5 Flash Image Preview

OpenRouter 现已提供 Gemini 2.5 Flash Image Preview,这是平台上的首个图像模型。该模型具备 SOTA 图像生成能力,支持角色一致性(character consistency)和多图像输出(multi-image outputs)。

产品更新图像生成
08:00
OpenRouter:Announcements(RSS)
42
首个图像模型在 OpenRouter 上线

Gemini 2.5 Flash Image Preview 模型已在 OpenRouter 平台正式发布。该模型是首个在该平台上线的图像生成模型,具备当前最优的图像生成能力。其核心特性包括出色的角色一致性和支持多图像输出功能,为开发者与用户提供了新的图像生成工具选项。

产品更新图像生成部署/工程
8月25日
00:00
Claude:Blog(网页)
精选
Anthropic发布Claude浏览器扩展:AI自动操作功能向付费用户开放

Anthropic正式发布Claude for Chrome扩展,允许AI在浏览器中执行点击、填表等操作。该功能已从1000名Max用户试点扩展至所有付费订阅者,新增Claude Code集成、定时任务及多标签工作流。针对提示词注入攻击,Anthropic通过站点权限、操作确认等防护措施,基于123个测试案例的红队测试,将攻击成功率从23.6%降至11.2%,并屏蔽高风险网站以确保安全。

智能体Anthropic产品更新安全/对齐

推荐理由:Claude浏览器代理正式开放,自动操作网页同时攻克提示注入安全难题
8月21日
14:25
公众号:DeepSeek(深度求索)
精选63
DeepSeek-V3.1 发布,迈向 Agent 时代的第一步

DeepSeek-V3.1 以混合推理模型形式开源,用户可一键切换思考模式,同时 Agent 智能体支持性能得到增强。

智能体DeepSeek开源生态推理

推荐理由:DeepSeek V3.1 不是小修小补,混合推理和 Agent 支持让它从‘对话模型’转向‘行动模型’,开源这一步让 Agent 开发有了新底座。
00:00
Runway:Changelog(网页)
Game Worlds 开启 Beta 测试

Game Worlds 启动 Beta 测试,现开放用户申请加入体验。参与者可抢先试用新功能,协助验证系统稳定性并提供反馈,帮助完善正式版本。

产品更新视频
8月15日
19:57
蚂蚁 inclusionAI:GitHub 新仓库
精选58
inclusionAI/UI-Venus

UI-Venus 是一款本地 UI 智能体,仅以屏幕截图作为输入,即可执行精确的图形用户界面元素定位与高效导航。该代理无需依赖系统底层代码或辅助功能接口,直接通过视觉信息理解界面结构,实现自动化操作。其核心能力在于对任意应用或网页中的按钮、菜单、文本框等元素进行准确识别与交互,提升了跨平台任务执行的通用性与可靠性。

智能体GitHub多模态开源/仓库

推荐理由:蚂蚁这个纯截图驱动的 UI Agent 在当时算是早期探索,代码开源可直接用,做 GUI 自动化的值得看看底层怎么实现元素定位和导航。
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选73
角色如何改变AI的回答?--Anthropic可解释性团队2025年8月电路分析案例

Anthropic可解释性团队在2025年8月的研究更新中,通过一个电路分析案例展示了模型“角色扮演”如何影响其回答。研究使用Claude Haiku 3.5模型,当系统提示将其设定为“学龄前儿童”并询问“27的平方根”时,模型会以“我不知道!”回应并提议玩耍;而在默认或“研究生”角色下则能给出正确答案。团队通过归因图识别出一个关键子电路:模型能将“学龄前学生”关联到“扮演儿童”,从而激活“我不知道”特征。研究还发现,问题难度会调节此效应,并且通过特征干预能显著改变模型行为。这引发了对其他角色运作机制及预训练角色与模型表达能力关系的后续思考。

Anthropic推理论文/研究

推荐理由:揭示模型角色扮演的内部机制,为可解释性研究提供新视角。
8月13日
04:00
EleutherAI:Blog
面向开放权重 AI 安全的预训练数据过滤

Deep Ignorance 技术通过预训练数据过滤为开放权重 LLM 构建内置式防篡改安全防护。该方法在训练阶段筛选数据,将安全能力深度集成于模型权重,使其难以被后续微调或提示注入绕过。这一方案针对开放权重模型易被恶意修改的痛点,提供了从预训练源头建立安全屏障的新路径,在保障模型开放性的同时增强安全性。

安全/对齐开源生态数据/训练
00:00
Berkeley RDI:Blog(AI 安全与评测)
Agentic AI Summit 2025 于 2025 年 8 月 13 日圆满落幕

Agentic AI Summit 2025 在 UC Berkeley 吸引超过 2000 名现场观众及约 4 万名在线参与者,汇聚全球 AI 领域领导者、创新者与创业者共探 agentic AI 发展。目前所有会议录像已开放观看,主办方宣布下届峰会将于明年回归。

智能体行业动态
8月8日
20:11
公众号:小米 MiMo
47
小米发布 MiMo-VL-7B-2508 多模态模型</br>summary_zh: 小米推出了 MiMo-VL-7B-2508 多模态模型。
多模态推理模型发布
01:02
Ethan Mollick:One Useful Thing(RSS)
精选
GPT-5:只管做事

GPT-5 不再需要详细提示工程,只需给出目标即可自主完成任务。将 AI 置于主导地位,用户只需设定方向,具体执行由模型自行处理。

智能体OpenAI大佬观点推理

推荐理由:Ethan Mollick 深度解读 GPT-5 自主执行能力,洞察 AI 代理新范式
8月7日
08:00
OpenRouter:Announcements(RSS)
精选68
GPT-5 已在 OpenRouter 上线

GPT-5 现已登陆 OpenRouter 平台,具备长上下文能力,专为复杂推理和代码工作流设计。

OpenAI推理模型发布编码

推荐理由:GPT-5 是 AI 史上的分水岭,长上下文和推理能力直接催生了一整代 agent 工具,哪怕过了快一年回头看,仍然值得搞清楚它改变了什么。
08:00
OpenRouter:Announcements(RSS)
精选68
GPT-5 现已上线

OpenRouter 平台已发布 GPT-5,该模型支持长上下文,专为复杂推理与代码工作流构建。

OpenAI推理模型发布编码

推荐理由:这是 GPT-5 首次以大上下文和推理能力亮相,1M token 上下文让 code agent 直接从 demo 变成可用,现在看虽是旧闻,但节点意义不减。
08:00
OpenRouter:Announcements(RSS)
精选66
GPT-5 现已上线

GPT-5 已在 OpenRouter 平台正式推出。该模型具备长上下文处理能力,专门针对复杂推理任务与代码工作流进行了优化。此次发布标志着新一代大语言模型开始接入开放路由网络,为开发者与用户提供更强大的多步骤逻辑处理和编程辅助功能。

产品更新推理编码

推荐理由:OpenRouter 上架 GPT-5 本身不算新闻,但对用 OpenRouter 做多模型路由的开发者来说,这是终于能切到最新旗舰的信号,值得第一时间跑一遍自己的 benchmark。
8月4日
08:00
OpenRouter:Announcements(RSS)
48
OpenRouter 应用支持语音输入与 PDF URL 发送

现可通过 URL 发送 PDF 文件以及使用语音输入功能,且适用于任意模型。

产品更新多模态
08:00
OpenRouter:Announcements(RSS)
43
OpenRouter 应用新增语音输入和 PDF URL 支持

OpenRouter 平台现支持在应用中使用语音输入功能,并允许通过 URL 发送 PDF 文件。该功能适用于平台上的任意模型。

产品更新多模态语音
08:00
OpenRouter:Announcements(RSS)
51
为应用添加 Audio Inputs 和 PDF URLs 支持

平台宣布为所有模型的应用新增音频输入与通过URL发送PDF文件的功能。用户现在可以直接使用语音与各类模型(如GPT、Claude、LLaMA)进行交互,同时支持通过链接直接上传PDF文档进行处理。这两项更新旨在提升多模态交互的便捷性,扩展了应用处理非文本输入和数据获取的方式,无需再依赖传统的文件上传步骤。

产品更新多模态部署/工程
00:00
字节 Seed:Research Papers(网页内嵌数据)
Seed Diffusion:支持高速推理的大规模扩散语言模型

字节跳动Seed团队发布扩散语言模型Seed Diffusion,采用非自回归的扩散架构替代传统GPT类模型,通过去噪扩散机制并行生成文本,突破逐token解码的速度瓶颈。该模型在保持大规模参数能力的同时显著提升推理效率,在文本生成任务中实现生成质量与计算速度的平衡,为大规模语言模型提供了自回归范式之外的高性能替代方案。

arXiv推理论文/研究
8月1日
23:00
EleutherAI:Blog
注意力探针

提出一种将注意力机制引入线性探针的新方法。传统线性探针通过训练简单分类器分析神经网络内部表征,该技术引入可学习的注意力权重,使探针能够动态聚焦输入中的关键特征或特定 token,替代全局池化操作。这种方法提升了对模型决策过程的细粒度解释能力,有助于精准定位 Transformer 架构中影响预测的关键信息路径,为大语言模型的可解释性研究提供了更强大的分析工具。

数据/训练论文/研究
00:00
Mistral AI:News(网页)
59
通过微调释放视觉语言模型在卫星图像上的潜力

Mistral AI展示了如何通过LoRA微调技术,将Pixtral-12B视觉语言模型适配到卫星图像分析任务,从而显著提升模型在该专业领域的性能。该研究使用公开的Aerial Image Dataset进行测试,对比了微调前后的分类效果。未微调的基础模型在模糊类别上表现不佳且存在幻觉,而经过微调的模型将整体分类准确率从85.2%提升至94.1%,针对类似“游乐场”与“体育场”等易混淆类别的准确率也从63.0%大幅提升到88.5%,并解决了输出无效类别的幻觉问题。这项工作证明了领域特定微调对于挖掘通用大模型在垂直应用中潜力的有效性。

多模态教程/实践
7月31日
00:00
LMSYS:Blog(Chatbot Arena 团队)
精选
智谱发布 GLM-4.5 系列模型并原生支持 SGLang

智谱发布旗舰模型 GLM-4.5(355B/32B 激活)与 GLM-4.5-Air(106B/12B 激活),含 FP8 量化版本,即日起原生支持 SGLang 框架。采用 MoE 架构与 128k 上下文,在 12 项基准测试中分列第 3 与第 6。GLM-4.5 在 BrowseComp 网页浏览任务中以 26.4% 准确率超越 Claude 4 Opus,工具调用成功率达 90.6%,编程与数学推理能力突出。

智能体推理模型发布编码

推荐理由:国产大模型Agent与编码能力跻身第一梯队,为开发者提供Claude/GPT之外的高性价比替代方案
‹ 上一页
1…4647484950
下一页 ›