AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态一手 · 2393 条
全部一手资讯X论文
1月22日周四
1月21日周三
1月20日周二
1月19日周一
1月16日周五
1月15日周四
1月14日周三
1月13日周二
1月12日周一
1月11日周日
1月10日周六
1月9日周五
1月8日周四
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
1月22日
00:00
Qwen:Blog Retrieval(API)
Qwen3-TTS 系列现已开源:支持语音设计、克隆与生成!

Qwen Studio 功能全面,涵盖聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索集成、工具调用及 artifacts 等模块。

开源/仓库语音
00:00
Moonshot AI:Kimi Blog(VitePress)
精选
Kimi 供应商验证器

Kimi 发布 K2.5 模型时开源 Kimi Vendor Verifier(KVV),用于验证第三方推理实现的准确性。针对开源模型部署渠道多样化导致的质量失控问题,KVV 提供六项关键基准测试,覆盖参数约束验证、多模态流水线、长输出压力测试、工具调用一致性及编程能力评估。项目与 vLLM/SGLang 社区合作修复根因,并提供预发布验证和实时更新的公开排行榜。完整评估在双 H20 8 卡服务器上约需 15 小时。

开源/仓库评测/基准部署/工程

推荐理由:Kimi开源Vendor Verifier,系统性解决开源模型第三方部署质量验证难题
1月21日
20:00
Cursor Blog
Salesforce 采用 Cursor 加速开发超 30%,代码质量显著提升

Salesforce 在全球数千名工程师中推广 Cursor 后,开发速度实现两位数增长(超 30%),代码质量同步提升。内部数据显示,团队周期时间、缺陷数量和吞吐量均显著改善,某团队遗留代码覆盖率时间更缩短 85%。工程师采用路径分化:初级开发者借其理解复杂代码库,资深工程师则从自动化繁琐任务起步,逐步扩展至高频使用。公司认为 AI 编程工具对软件开发生命周期的改造才刚刚开始。

智能体产品更新编码
14:25
Hugging Face:Blog(RSS)
精选70
AssetOpsBench:弥合AI智能体基准测试与工业现实的差距

IBM Research在Hugging Face发布AssetOpsBench,这是一个工业资产运维的AI智能体基准测试框架。它基于真实场景构建,包含多行业数据集和超1000个运维事件,通过多阶段指标测试智能体的诊断、决策等能力,注重动态适应性、多模态处理和安全推理,以推动AI智能体走向实际工业应用。

智能体评测/基准

推荐理由:首个面向工业资产运维场景的 Agent 基准,填补学术评测与真实落地的鸿沟
00:41
Midjourney:Updates(RSS)
Web 端更新

新增 6:11、4:5、5:4、21:9 四种宽高比选项;未使用 cref/oref 时自动去除 --cw/--ow 参数;自动清理 moodboard 任务中不支持的 weird 参数。

产品更新图像生成
00:00
Mistral AI:News(网页)
46
调试vLLM中的内存泄漏

在生产环境中,使用vLLM部署Mistral Medium 3.1模型进行Prefill/Decode分离推理时,团队发现了一个严重的内存泄漏问题。该问题表现为系统内存以每分钟400 MB的速度线性增长,最终将导致内存耗尽。泄漏仅在启用图编译且通过NIXL传输KV Cache的特定条件下出现,初步调查指向了传输层。团队从Python内存分析工具入手,但常规工具未能定位到根源,调查随后深入到底层与UCX和Infiniband相关的交互中。

教程/实践部署/工程
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选72
设计抗AI技术评估的实践

Anthropic性能优化团队负责人Tristan Hume分享了设计抗AI技术评估的经验。自2024年初,团队使用带回家测试评估候选人优化模拟加速器代码的能力,超1000人参与,成功招聘数十名工程师。但随着Claude模型快速迭代,Opus 4已超越多数人类申请者,Opus 4.5甚至匹配顶尖候选人,导致在时间限制下难以区分人类与AI输出。为此,作者三次重设计测试,探索抗AI评估要素,详述原始设计、模型破解方式及非常规对策。最终,团队将原始测试作为公开挑战发布,因无时间限制时人类表现仍优于Claude。

Anthropic大佬观点现象/趋势

推荐理由:Anthropic 性能优化负责人亲手写了三版面试题被自家模型逐一击穿的全过程,这种坦诚的工程复盘比任何 AI 能力排行榜都更真实地告诉你,模型到底强到了什么程度。
00:00
LMSYS:Blog(Chatbot Arena 团队)
Novita AI 优化 GLM4-MoE:基于 SGLang 实现 TTFT 降低 65%

Novita AI 发布基于 SGLang 的 GLM4-MoE 生产级优化方案,通过共享专家融合、Qknorm 融合与异步传输三项核心技术,在 H200 集群 TP8/FP8 配置下实现首 token 延迟(TTFT)降低 65%、每 token 输出时间(TPOT)提升 22%。针对 Agentic Coding 场景,团队提出无需额外训练草稿模型的 Suffix Decoding 技术,利用历史输出模式重复率进一步加速推理。

智能体教程/实践编码部署/工程
1月20日
23:02
Hugging Face:Blog(RSS)
58
"DeepSeek时刻"一周年

Hugging Face在其官方博客发布文章,回顾“DeepSeek时刻”过去一年的影响。文章指出,自DeepSeek系列模型发布以来,开源大模型生态发生了显著变化。模型能力快速逼近甚至在某些任务上超越了闭源模型,社区参与度和模型下载量均创下新高。这一趋势降低了AI技术的使用门槛,并推动了更多商业化应用的探索。开源与闭源模型的竞争格局正在被重塑。

DeepSeekHugging Face现象/趋势
11:20
Hugging Face:Blog(RSS)
精选83
差分Transformer V2

差分Transformer V2发布,其核心是改进的差分注意力机制。相较于V1,V2将查询头数量翻倍而保持键值头不变,差分操作后将维度缩减,从而在解码时能达到与标准Transformer相当的速度,且无需定制内核。新版本还解决了V1中因注意力分布均匀化导致的数值不稳定问题,特别是消除了RMSNorm层所需的巨大缩放因子(如在长序列下),从而避免了梯度爆炸,旨在实现更稳定的大规模预训练。

Microsoft推理模型发布

推荐理由:新注意力架构提升解码效率与训练稳定性,开发者可低成本集成优化模型。
08:00
Hugging Face:Blog(RSS)
精选73
Overworld发布实时交互式视频扩散模型Waypoint-1

Overworld推出实时交互式视频扩散模型Waypoint-1,用户可通过文本、鼠标和键盘实时控制生成可步入的虚拟世界。该模型基于帧因果校正流变换器架构,在1万小时游戏视频及对应控制数据上训练,从一开始就专注于交互体验,支持零延迟的自由操控。其配套的高性能推理库WorldEngine在消费级硬件上可实现流畅运行,例如Waypoint-1-Small在RTX 5090上能以30 FPS(4步去噪)或60 FPS(2步去噪)生成画面。模型采用扩散强制预训练和自我强制后训练来确保生成长序列的稳定性。

智能体Hugging Face模型发布视频

推荐理由:零延迟交互式视频生成,游戏和创意应用开发者的福音。
00:00
智谱:研究(网页内嵌数据)
精选
GLM-4.7-Flash开源、免费

GLM-4.7-Flash 开源并免费开放 API,支持通过 Hugging Face 和魔搭社区部署。上一代 GLM-4.5-Flash 将于 2026 年 1 月 30 日下线,届时相关请求将自动路由至新版。

开源生态模型发布端侧

推荐理由:智谱开源轻量模型GLM-4.7-Flash,免费API助力个人开发者快速上手
1月19日
13:26
Steve Yegge:Medium(RSS)
46
史蒂夫的生日博客

作者临近57岁生日,回顾了近期在AI领域的活跃动态。人工智能领域正吸引大量资本涌入,作者因其文章和项目收到了众多风险投资人的接触,并因Gas Town相关加密货币$GAS产生了约30万美元的交易费收入,但他强调需专注于软件开发而非被资本或社区分散精力。文章还讨论了利用20余个AI智能体进行高端编程对工作与休息节奏带来的影响,表现为频繁的深度小睡需求。

智能体GitHub大佬观点现象/趋势
1月16日
18:39
Google DeepMind:Blog(RSS)
D4RT:教AI看见四维世界

D4RT 实现统一高效的4D重建与追踪,速度较先前方法提升最高达300倍,为四维计算机视觉领域提供高效解决方案。

DeepMindGoogle多模态视频
18:00
公众号:蚂蚁百灵(Ling)
36
百灵大模型Ling Studio正式发布,支持Ling-1T、Ring-1T及Ming-flash-omni-Preview多模态能力

蚂蚁百灵推出Ling Studio,这是用户与百灵大模型交互的全新官方Web平台。目前可体验Ling-1T(高速首字响应与快速回答)、Ring-1T(高效稳定的复杂推理)以及Ming-flash-omni-Preview(图片识别与音频识别等多模态能力)。平台支持灵活配置模型参数与系统提示词、原生工具调用(含联网搜索)及API即用即接。即将上线文件对话、图片生成和一系列模型Skills。

MCP/工具产品更新多模态推理
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang-Diffusion:发布两月进展综述

SGLang-Diffusion 最新版本(lmsysorg/sglang:dev-pr-17247)性能较初始版本提升2.5倍,在NVIDIA GPU上较其他方案快5倍。新增Day-0支持Flux.2、Qwen-Image系列、Z-Image-Turbo等多款模型,完整支持LoRA格式与HTTP API,并推出ComfyUI集成插件。技术层面引入Layerwise Offload机制实现计算与权重加载重叠,支持SP/TP混合并行及SageAttention系列后端,兼容AMD、4090、5090及MUSA硬件。

图像生成开源/仓库部署/工程
1月15日
18:00
公众号:小红书技术(dots.llm)
36
KDD 2026 | 小红书内容审核:Hi-Guard 让内容治理"知其然,更知其所以然"

小红书内容理解团队提出层级式治理框架 Hi-Guard,通过分层流水线与路径感知的强化学习,改进模型对复杂审核标准的内化能力。

安全/对齐论文/研究
08:00
Hugging Face:Blog(RSS)
精选80
开放回应:你需要知道的事

OpenAI 正通过开源与开放科学推进人工智能的民主化进程。其核心目标是降低 AI 技术的门槛,促进更广泛的参与和创新。这一举措将推动研究透明化,加速技术迭代,并鼓励全球协作共同构建 AI 的未来。

产品更新开源/仓库开源生态
关联讨论 1 条X:Sam Altman (@sama)
推荐理由:开源替代方案降低 AI API 依赖,开发者多一个免费可控的选择
03:00
OpenAI:Alignment 研究博客(RSS)
精选55
CoVal: 从群体中学习具有价值观意识的评估准则

研究团队发布了一个名为CoVal的实验性数据集,其中包含了由众包方式撰写的评估准则。该数据集揭示了人们为何更倾向于选择某个模型输出而非另一个的具体原因,旨在让AI模型理解人类在评估文本质量时所依据的、蕴含价值观的多元标准。通过分析这些群体贡献的详细评估规则,研究为训练更符合人类偏好的语言模型提供了透明、可解释的反馈依据。

OpenAI安全/对齐论文/研究

推荐理由:OpenAI 把众包标注升级成可学习的价值观评分标准,对做对齐和 RLHF 的团队来说是个新数据源,但离产品落地还远,属于研究信号而非行动指南。
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 优化 Pipeline Parallelism 支持百万 Token 超长上下文

SGLang 发布面向超长上下文推理的 Pipeline Parallelism(PP)优化实现,集成 Chunked PP、异步 P2P 通信与动态分块机制。在 H20 集群 PP4 TP8 配置下,DeepSeek-V3.1 的 Prefill Throughput 较 TP8 提升 3.31 倍,较 TP32 领先 30.5%,TTFT 降低 67.9%,强扩展效率达 82.8%。该方案兼容 PD 分离与 HiCache,为万亿参数模型百万 Token 上下文推理提供高效开源路径。

开源/仓库部署/工程
1月14日
18:44
美团 LongCat:HuggingFace 新模型
精选
美团LongCat发布重思考模式总结模型

美团LongCat推出基于5600亿参数MoE架构大模型LongCat-Flash-Thinking-2601的重思考模式(Heavy Thinking Mode),并发布LongCat-HeavyModel-Summary模型。该模式通过并行思考与总结两阶段协同扩展推理能力:前者以高温度并行生成多路径扩展宽度,后者将精炼轨迹递归反馈形成迭代循环延伸深度。模型经额外强化学习优化总结能力,已在Longcat AI平台上线。

Hugging Face推理模型发布
关联讨论 1 条美团 LongCat:HuggingFace 新模型
推荐理由:美团开源 560B 参数 MoE 推理模型,Heavy Thinking 模式支持并行多路径探索,已上线可体验
17:20
公众号:豆包(字节)
18
豆包向你发送了一封邀请函
行业动态
08:00
公众号:月之暗面(Kimi)
40
90%腾讯工程师在用的CodeBuddy编程助手,现已内置Kimi K2 Thinking模型

腾讯CodyBuddy编程助手集成Kimi K2 Thinking模型,该助手已有90%腾讯工程师使用。

产品更新推理编码
01:00
Google DeepMind:Blog(RSS)
Veo 3.1 Ingredients to Video:更强的一致性、创造力和控制力

Veo 3.1 版本新增竖屏视频生成功能,输出画面动态效果更自然生动,在一致性与创造力方面均有提升。

Google产品更新视频
00:00
智谱:研究(网页内嵌数据)
精选
智谱联合华为开源首个国产芯片训练的多模态SOTA模型

智谱联合华为开源多模态生成模型GLM-Image,为首款基于国产昇腾芯片与MindSpore框架全流程训练的SOTA模型。采用9B自回归与7B扩散解码器混合架构,在CVTG-2K复杂视觉文字生成和LongText-Bench长文本渲染榜单均位列开源第一,支持1024×1024至2048×2048多分辨率生成。API调用成本0.1元/张,代码已开源至GitHub、Hugging Face及魔搭社区。

图像生成开源生态模型发布部署/工程

推荐理由:首个国产昇腾芯片训练的SOTA多模态模型开源,文字渲染能力开源第一,生成一张图仅需0.1元
1月13日
21:04
公众号:豆包(字节)
25
这次,我们把「AI 老师」请进了豆包
产品更新
03:00
OpenAI:Alignment 研究博客(RSS)
精选63
为何我们对"忏悔式"训练感到兴奋

Anthropic提出“忏悔式”训练法,要求AI在拒绝不当请求时,内部生成安全解释以“自我剖析”潜在危害。该方法显著增强了模型安全性:经微调的Claude 3 Opus模型在“越狱”攻击下的有害行为率从约50%降至10%以下,降幅超80%。其效果优于传统思维链监控,为AI对齐提供了更鲁棒、可解释的安全训练新路径。

OpenAI安全/对齐论文/研究

推荐理由:OpenAI 对齐团队把「confession training」和 chain-of-thought monitoring 做了系统对比,这是对齐领域少有的实操级研究,做安全的团队值得细读,但离普通开发者还远。
1月12日
11:13
公众号:月之暗面(Kimi)
20
Kimi Doodle 2025 节日头图回顾,手机端同步上线并推出冰箱贴周边

Kimi Doodle 是月之暗面为其 AI 助手 Kimi 不定期更新的节日头图,旨在增添节日仪式感。2025 年的 Doodle 已同步上线 Kimi 手机端。此外,官方将 2025 年的 Doodle 制作成冰箱贴周边,计划通过评论区抽奖赠送 10 位全套冰箱贴。

行业动态
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang EPD 分离架构:视觉语言模型的弹性编码器扩展

SGLang推出EPD(Encoder-Prefill-Decode)分离架构,将视觉编码与语言处理解耦,支持编码器独立横向扩展以替代低效的张量并行。该方案兼容现有PD分离,支持ZMQ、Mooncake等传输后端及视觉嵌入缓存。测试表明,在图像密集型场景(如多图输入)且1 QPS负载下,首token生成时间(TTFT)较同机部署降低约6–8倍;但在图像轻量场景中,网络开销可能导致性能下降。

多模态开源/仓库部署/工程
1月11日
22:02
Nathan Lambert:Interconnects(RSS)
使用多个模型

2026年AI应用的新范式将是同时使用多个模型。与依赖单一模型的传统方式不同,通过组合不同AI模型的优势能力将成为最大化人工智能输出效果的关键策略。这一转变标志着行业从单一大型模型向多模型协作生态的迁移,用户需采用模型组合方法以释放AI的全部潜力,适应日益复杂的智能化需求。

大佬观点
04:30
Dwarkesh Patel:Podcast & Blog(RSS)
近期阅读清单 - 2026年1月10日

作者发布2026年1月10日阅读清单,涵盖非线性动力学与混沌理论、探讨AI自动化的《Machines of Loving Grace》、Neuralink联合创始人Max Hodak关于意识的理论假说,以及神经网络训练过程中产生精美分形图案的现象。内容横跨复杂系统、神经科学与机器学习可视化等多个前沿领域。

大佬观点数据/训练
1月10日
17:00
BAIR:Berkeley AI Research Blog
信息驱动的成像系统设计

伯克利研究团队提出一种基于互信息的成像系统评估与优化框架,通过直接从含噪测量中估计信息内容来量化系统性能。该方法利用成像系统已知的噪声物理特性(光子散粒噪声、电子读出噪声等),将互信息分解为总测量变异与噪声变异之差,仅需训练概率模型学习测量分布即可计算。实验验证该指标在四个成像领域均能准确预测系统性能,优化后的设计可达到端到端方法的最先进水平,同时显著降低内存与计算需求,且无需针对特定任务设计解码器。

论文/研究
07:20
Midjourney:Updates(RSS)
精选
Niji V7 正式发布!

Niji V7 图像模型正式上线。该版本专为亚洲及动漫场景优化,改进了动漫连贯性、提示词理解能力、文字渲染效果及 sref 性能。

图像生成模型发布

推荐理由:Midjourney 动漫专用模型 Niji V7 发布,生成质量再升级
01:42
Nathan Lambert:Interconnects(RSS)
精选
Claude Code 与众不同

Claude Code 集成 Opus 4.5 模型实现关键突破,编程智能体跨越重要能力阈值。此次升级标志着编码代理在自主性和工程处理能力上达到新水平,可应对更复杂的开发任务。Opus 4.5 显著提升了代码生成、调试及复杂问题解决的表现,使 AI 辅助编程从基础工具向高效协作伙伴转变,为开发者带来质的不同的使用体验与效率提升。

智能体Anthropic大佬观点编码
关联讨论 7 条Nathan Lambert:Interconnects(RSS)Gary Marcus:The Road to AI We Can Trust(RSS)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Claude Code:GitHub Releases(RSS)Claude:Blog(网页)
推荐理由:编码 Agent 跨越关键门槛,Claude Code 能力跃升将重塑开发者工作流
1月9日
08:00
OpenRouter:Announcements(RSS)
50
OpenRouter 1月发布:优先快速LLM、探索提供商、自定义自动路由、SDK技能加载与性能大提升

OpenRouter 1月发布聚焦优先选择快速大语言模型、探索提供商、自定义自动路由、在SDK中加载技能,以及大幅性能改进。

智能体产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
51
OpenRouter 1月更新:快速LLM优先、自定义自动路由、SDK技能加载与性能提升

OpenRouter 发布1月更新,新增快速LLM优先级排序功能,用户可优先选择低延迟模型;支持浏览和切换不同提供商;自动路由可自定义策略;SDK新增加载技能(skills)的能力;同时带来重大性能改进。

产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
50
January Release Spotlight

本次发布聚焦于提升大型语言模型(LLM)的速度与性能。核心更新包括优先支持快速LLM、探索更多模型提供商选项,以及允许用户自定义自动路由。软件开发工具包(SDK)现已支持加载技能,同时系统实现了显著的性能改进。这些更新旨在优化开发者的使用体验与模型运行效率。

MCP/工具产品更新部署/工程
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选75
揭秘AI智能体评估:构建可靠系统的关键

有效的评估能帮助团队更自信地发布AI智能体,避免陷入仅在生产环境被动发现问题、修复可能引发新问题的循环。智能体因其多轮操作的自主性与灵活性,评估更为复杂。一个完整的评估结构包含任务、评分器、记录、结果、评估框架与评估套件等核心组件。缺乏系统评估将导致团队无法区分真实的质量倒退与随机波动。建立评估体系能帮助团队在智能体规模化过程中持续监控质量、自动测试变更并量化改进效果,其价值在智能体整个生命周期内持续累积。

智能体Anthropic教程/实践评测/基准

推荐理由:Anthropic 把内部踩过的坑全摊开了,从 eval 设计到 grader 选型到 transcript 审读,是目前最完整的 Agent 评估工程指南,做 Agent 产品的团队可以直接当手册用。
1月8日
07:00
Ethan Mollick:One Useful Thing(RSS)
Claude Code 及其未来展望

合适的工具能让 AI 完成令人印象深刻的任务。Claude Code 体现了这一理念,展示了配备恰当工具后 AI 所能达到的成就,指向 AI 辅助开发的未来方向。

智能体Anthropic大佬观点编码
04:00
Qwen:Blog Retrieval(API)
Qwen3-VL-Embedding 与 Qwen3-VL-Reranker:面向下一代多模态检索

Qwen Studio 发布新一代多模态检索模型 Qwen3-VL-Embedding 与 Qwen3-VL-Reranker,平台集成聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 Artifacts 等全栈多模态能力。

检索增强多模态模型发布
‹ 上一页
1…3940414243…50
下一页 ›