AIHOT

全部动态一手 · 2393 条

全部一手资讯 X 论文

1月22日周四

1月21日周三

1月20日周二

1月19日周一

1月16日周五

1月15日周四

1月14日周三

1月13日周二

1月12日周一

1月11日周日

1月10日周六

1月9日周五

1月8日周四

1月22日

00:00

Qwen：Blog Retrieval（API）

Qwen3-TTS 系列现已开源：支持语音设计、克隆与生成！

Qwen Studio 功能全面，涵盖聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索集成、工具调用及 artifacts 等模块。

开源/仓库语音

00:00

Moonshot AI：Kimi Blog（VitePress）

精选

Kimi 供应商验证器

Kimi 发布 K2.5 模型时开源 Kimi Vendor Verifier（KVV），用于验证第三方推理实现的准确性。针对开源模型部署渠道多样化导致的质量失控问题，KVV 提供六项关键基准测试，覆盖参数约束验证、多模态流水线、长输出压力测试、工具调用一致性及编程能力评估。项目与 vLLM/SGLang 社区合作修复根因，并提供预发布验证和实时更新的公开排行榜。完整评估在双 H20 8 卡服务器上约需 15 小时。

开源/仓库评测/基准部署/工程

推荐理由：Kimi开源Vendor Verifier，系统性解决开源模型第三方部署质量验证难题

1月21日

20:00

Cursor Blog

Salesforce 采用 Cursor 加速开发超 30%，代码质量显著提升

Salesforce 在全球数千名工程师中推广 Cursor 后，开发速度实现两位数增长（超 30%），代码质量同步提升。内部数据显示，团队周期时间、缺陷数量和吞吐量均显著改善，某团队遗留代码覆盖率时间更缩短 85%。工程师采用路径分化：初级开发者借其理解复杂代码库，资深工程师则从自动化繁琐任务起步，逐步扩展至高频使用。公司认为 AI 编程工具对软件开发生命周期的改造才刚刚开始。

智能体产品更新编码

14:25

Hugging Face：Blog（RSS）

精选70

AssetOpsBench：弥合AI智能体基准测试与工业现实的差距

IBM Research在Hugging Face发布AssetOpsBench，这是一个工业资产运维的AI智能体基准测试框架。它基于真实场景构建，包含多行业数据集和超1000个运维事件，通过多阶段指标测试智能体的诊断、决策等能力，注重动态适应性、多模态处理和安全推理，以推动AI智能体走向实际工业应用。

智能体评测/基准

推荐理由：首个面向工业资产运维场景的 Agent 基准，填补学术评测与真实落地的鸿沟

00:41

Midjourney：Updates（RSS）

Web 端更新

新增 6:11、4:5、5:4、21:9 四种宽高比选项；未使用 cref/oref 时自动去除 --cw/--ow 参数；自动清理 moodboard 任务中不支持的 weird 参数。

产品更新图像生成

00:00

Mistral AI：News（网页）

调试vLLM中的内存泄漏

在生产环境中，使用vLLM部署Mistral Medium 3.1模型进行Prefill/Decode分离推理时，团队发现了一个严重的内存泄漏问题。该问题表现为系统内存以每分钟400 MB的速度线性增长，最终将导致内存耗尽。泄漏仅在启用图编译且通过NIXL传输KV Cache的特定条件下出现，初步调查指向了传输层。团队从Python内存分析工具入手，但常规工具未能定位到根源，调查随后深入到底层与UCX和Infiniband相关的交互中。

教程/实践部署/工程

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选72

设计抗AI技术评估的实践

Anthropic性能优化团队负责人Tristan Hume分享了设计抗AI技术评估的经验。自2024年初，团队使用带回家测试评估候选人优化模拟加速器代码的能力，超1000人参与，成功招聘数十名工程师。但随着Claude模型快速迭代，Opus 4已超越多数人类申请者，Opus 4.5甚至匹配顶尖候选人，导致在时间限制下难以区分人类与AI输出。为此，作者三次重设计测试，探索抗AI评估要素，详述原始设计、模型破解方式及非常规对策。最终，团队将原始测试作为公开挑战发布，因无时间限制时人类表现仍优于Claude。

Anthropic大佬观点现象/趋势

推荐理由：Anthropic 性能优化负责人亲手写了三版面试题被自家模型逐一击穿的全过程，这种坦诚的工程复盘比任何 AI 能力排行榜都更真实地告诉你，模型到底强到了什么程度。

00:00

LMSYS：Blog（Chatbot Arena 团队）

Novita AI 优化 GLM4-MoE：基于 SGLang 实现 TTFT 降低 65%

Novita AI 发布基于 SGLang 的 GLM4-MoE 生产级优化方案，通过共享专家融合、Qknorm 融合与异步传输三项核心技术，在 H200 集群 TP8/FP8 配置下实现首 token 延迟（TTFT）降低 65%、每 token 输出时间（TPOT）提升 22%。针对 Agentic Coding 场景，团队提出无需额外训练草稿模型的 Suffix Decoding 技术，利用历史输出模式重复率进一步加速推理。

智能体教程/实践编码部署/工程

1月20日

23:02

Hugging Face：Blog（RSS）

"DeepSeek时刻"一周年

Hugging Face在其官方博客发布文章，回顾“DeepSeek时刻”过去一年的影响。文章指出，自DeepSeek系列模型发布以来，开源大模型生态发生了显著变化。模型能力快速逼近甚至在某些任务上超越了闭源模型，社区参与度和模型下载量均创下新高。这一趋势降低了AI技术的使用门槛，并推动了更多商业化应用的探索。开源与闭源模型的竞争格局正在被重塑。

DeepSeekHugging Face现象/趋势

11:20

Hugging Face：Blog（RSS）

精选83

差分Transformer V2

差分Transformer V2发布，其核心是改进的差分注意力机制。相较于V1，V2将查询头数量翻倍而保持键值头不变，差分操作后将维度缩减，从而在解码时能达到与标准Transformer相当的速度，且无需定制内核。新版本还解决了V1中因注意力分布均匀化导致的数值不稳定问题，特别是消除了RMSNorm层所需的巨大缩放因子（如在长序列下），从而避免了梯度爆炸，旨在实现更稳定的大规模预训练。

Microsoft推理模型发布

推荐理由：新注意力架构提升解码效率与训练稳定性，开发者可低成本集成优化模型。

08:00

Hugging Face：Blog（RSS）

精选73

Overworld发布实时交互式视频扩散模型Waypoint-1

Overworld推出实时交互式视频扩散模型Waypoint-1，用户可通过文本、鼠标和键盘实时控制生成可步入的虚拟世界。该模型基于帧因果校正流变换器架构，在1万小时游戏视频及对应控制数据上训练，从一开始就专注于交互体验，支持零延迟的自由操控。其配套的高性能推理库WorldEngine在消费级硬件上可实现流畅运行，例如Waypoint-1-Small在RTX 5090上能以30 FPS（4步去噪）或60 FPS（2步去噪）生成画面。模型采用扩散强制预训练和自我强制后训练来确保生成长序列的稳定性。

智能体Hugging Face模型发布视频

推荐理由：零延迟交互式视频生成，游戏和创意应用开发者的福音。

00:00

智谱：研究（网页内嵌数据）

精选

GLM-4.7-Flash开源、免费

GLM-4.7-Flash 开源并免费开放 API，支持通过 Hugging Face 和魔搭社区部署。上一代 GLM-4.5-Flash 将于 2026 年 1 月 30 日下线，届时相关请求将自动路由至新版。

开源生态模型发布端侧

推荐理由：智谱开源轻量模型GLM-4.7-Flash，免费API助力个人开发者快速上手

1月19日