AIHOT

全部动态一手 · 123 条

全部一手资讯 X 论文

4月23日周四

4月16日周四

4月15日周三

4月7日周二

4月6日周一

4月2日周四

3月28日周六

3月27日周五

3月26日周四

3月22日周日

3月12日周四

3月10日周二

3月6日周五

2月22日周日

2月14日周六

2月12日周四

2月7日周六

2月6日周五

2月5日周四

2月3日周二

1月15日周四

1月13日周二

12月23日周二

12月19日周五

12月18日周四

12月9日周二

12月4日周四

12月2日周二

11月14日周五

10月27日周一

10月24日周五

10月10日周五

4月23日

19:58

公众号：龙猫LongCat（美团）

LARYBench 发布：定义具身动作表征 ImageNet，首次度量从人类视频学习的泛化表征

LARYBench 是一个系统化评测基准，旨在从大规模视觉数据中学习通用的隐式动作表征。它首次提供了度量标准，用于评估从人类视频学习到的表征的泛化能力，类似 ImageNet 在视觉领域的定位。

具身智能数据/训练论文/研究

4月16日

19:58

公众号：龙猫LongCat（美团）

LongCat-AudioDiT：突破零样本TTS音色克隆上限

美团技术团队推出的LongCat-AudioDiT模型，实现了零样本TTS音色克隆，让AI直接学习声音本身的规律，跳过中间处理环节，从而突破音色克隆的上限。

开源/仓库论文/研究语音

4月15日

20:00

Cursor Blog

精选70

更强AI模型推动开发者转向更高复杂度工作

一项针对500家公司开发者使用Cursor的八个月研究发现，在Opus 4.5和GPT-5.2等先进模型发布后，人均周AI使用量增长44%。开发者初期用更强模型完成更多同复杂度任务，4-6周后开始转向更高复杂度工作，高复杂度任务量激增68%，远超低复杂度任务的22%。媒体广告、软件工具和金融科技行业增长最为显著。任务分布呈现结构性变化：文档编写、架构设计等管理性任务增长超50%，而UI设计等独立任务仅增15%，表明开发者角色正从代码生成转向代码库管理。研究揭示了类似杰文斯悖论的效应——AI效率提升反而刺激了总需求，并可能创造新的经济活动空间。

现象/趋势编码论文/研究

推荐理由：Cursor 拿 500 家公司八个月的真实数据证明了一个反直觉结论，AI 越好开发者用得越多，而且是从做更多简单活慢慢转向啃硬骨头。做 AI 产品的人该认真想想这个杰文斯效应。

4月7日

17:32

公众号：通义实验室（千问）

FIPO：精准追踪2%的Token，突破大模型推理瓶颈！

FIPO方法通过精准追踪仅占2%的关键Token，有效缓解大模型强化学习中的“蝴蝶效应”，从而突破推理性能瓶颈。

推理数据/训练论文/研究

17:26

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/TC-AE

研究团队发布了TC-AE，一种用于深度压缩自动编码器的新方法，旨在突破现有模型的令牌容量限制。该方法通过创新的架构设计，显著提升了模型在压缩表示中保留信息的能力，实现了更高的压缩效率与重建质量。具体指标显示，TC-AE在多个基准测试中，相较于传统深度压缩自动编码器，将有效令牌容量提升了约30%，同时保持了较低的计算开销。这项工作为高密度数据压缩与表示学习提供了新的技术路径。

开源/仓库数据/训练论文/研究部署/工程

4月6日

20:00

Cursor Blog

精选66

通过warp decode提升MoE模型推理效率

针对Blackwell GPU上的小批量解码，研究提出了一种名为“warp decode”的新方法。该方法颠覆了传统以专家为中心的计算路径，改为让每个GPU warp负责计算一个输出神经元。这一根本性改变消除了原有流程中五个纯数据管理的“簿记”步骤，将整个MoE计算层压缩为仅两个内核。其优势在于避免了填充、分散和中间缓冲区的读写，并通过warp独立性实现了更好的调度。在Blackwell GPU上，该方法实现了1.84倍的吞吐量提升，同时输出精度更高，与全FP32参考值的差距缩小了1.4倍，有效加速了模型研发流程。

推理论文/研究部署/工程

推荐理由：Cursor 把 MoE 推理的并行轴从专家翻转到输出神经元，Blackwell 上吞吐涨 1.84 倍还顺带提精度，这种同时赢性能和精度的内核优化极其罕见，做推理引擎的值得逐行读。

4月2日

15:05

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/cuLA：基于CuTe DSL与CUTLASS C++的线性注意力变体CUDA内核

inclusionAI发布了cuLA项目，这是一套为线性注意力变体编写的CUDA内核。该内核完全采用NVIDIA的CuTe DSL和CUTLASS C++库进行开发，旨在高效实现Transformer模型中的线性注意力机制。此举专注于底层计算优化，通过利用先进的CUDA编程抽象和高效模板库，有望提升大语言模型在推理和训练过程中的计算性能与效率。

开源/仓库数据/训练部署/工程

3月28日

02:00

OpenAI：Alignment 研究博客（RSS）

对齐中期训练的泛化能力究竟如何？

研究人员开展初步实验，探究对齐与错位的中期训练、推理后训练以及向聊天和智能体评估任务的泛化效果。实验涵盖不同训练阶段对模型行为的影响，并测试其在多样化评估场景中的适应性，旨在评估当前对齐方法在跨任务与跨领域中的泛化能力边界。

OpenAI安全/对齐论文/研究

3月27日

20:00

Cursor Blog

精选72

Composer 2技术报告：面向智能体软件工程的代码模型训练

本报告介绍了代码模型Composer 2的训练过程。该模型基于开源基础模型Kimi K2.5，通过两阶段训练：首先进行侧重代码的持续预训练以深化编码知识，随后在高度模拟真实Cursor环境的大规模强化学习中提升端到端智能体性能。在自建的真实任务评估集CursorBench上，Composer 2得分为61.3，较前代提升37%，与前沿模型性能相当。在公开基准SWE-bench Multilingual和Terminal-Bench上分别获得73.7和61.7分，并在保持高精度的同时实现了显著更低的推理成本。训练依托为Blackwell GPU定制的高效MoE训练内核、跨区域异步强化学习管道等大规模基础设施完成。

智能体编码论文/研究部署/工程

推荐理由：Cursor 把 Composer 2 的训练全流程摊开讲了，从 Kimi K2.5 继续预训练到大规模 RL，关键是 RL 在真实 Cursor 会话里跑，不是玩具环境。做 coding agent 的团队，这份报告值得逐段拆。

3月26日