AIHOT

5月28日

02:38

Artificial Analysis@ArtificialAnlys

Artificial Analysis与IBM联合推出首个AI智能体企业IT评测基准

Artificial Analysis与IBM Research联合推出ITBench-AA，首个评估AI智能体在企业IT任务中表现的基准，首发任务为站点可靠性工程（SRE）。该基准包含59项Kubernetes事件响应任务，所有前沿模型得分均未超过50%。其中，Claude Opus 4.7以47%领先，GPT-5.5得46%，通义千问（Qwen3.7 Max）得42%。开源模型中，智谱GLM-5.1（推理）得分40%，与Gemini 3.5 Flash持平；深度求索（DeepSeek V4 Pro）得38%。分析还发现，模型推理轮次差异近3倍，但更长轮次并不保证更高准确率。

智能体评测/基准

01:02

Qwen@Alibaba_Qwen

精选69

Fast， faster， Qwen. 🚀

Qwen3.5在TokenSpeed推理引擎上，针对智能体工作负载达到了创纪录的580 tokens per second (tps)速度。这一成果由通义千问推理团队、lightseekorg Foundation TokenSpeed团队、NVIDIA及Mooncake团队共同实现，并采用了tri_dao的FlashAttention-4 (FA4) 优化。此里程碑标志着开源大语言模型推理性能的边界得到了推动，相关详情可查阅PyTorch社区博客。

PyTorch: The speed-of-light optimization for Qwen3.5 on the TokenSpeed inference engine is a significant milestone, achieving a r...

智能体开源/仓库推理论文/研究

推荐理由：Qwen3.5在TokenSpeed上跑出580 tps，这是开源LLM推理的极限突破，对agent类应用是实实在在的性能跃进，PyTorch这篇博客值得每一个做推理部署的细读。

5月27日

21:27

Berryxia.AI@berryxia

腾讯HY实验室发布Chronicles-OCR基准测试

腾讯HY实验室与四家机构发布了专门测试AI对中国古文字识别能力的基准Chronicles-OCR，包含2800张专家标注图像，覆盖甲骨文、金文等七大类。测试显示，28个前沿多模态模型集体表现不佳：VLLM在甲骨文上准确率仅14%，GPT-5与Gemini 2.5 Pro得分近零。值得注意的是，开启推理模式反而损害性能，因模型实为识别龟壳、青铜器等载体（准确率96.7%），而非真正识别字符本身。

ModelScope: The best VLLM scores only 14% on oracle bone script recognition. Chronicles-OCR, a new ancient Chinese character benchma...

多模态论文/研究评测/基准

20:27

Berryxia.AI@berryxia

MiniMax 发布 M2 论文，预告 M3 与 MSA 研究即将发布

MiniMax 在开源 M2 模型半年后，系统性发布了其背后所有工作的论文，详细阐述了设计思路、训练细节与系统架构。此前，其开源系统 CISPO、Forge RL System 和 Self-Evolution 已被社区广泛采用，且多版模型发布后曾登顶 HuggingFace 排行榜。与此同时，MiniMax 官方宣布已为下一代模型 M3 做好准备，并且 MSA 论文也即将发布。

RyanLee: Recently, we took time to consolidate all of the work behind M2 and published it here: our M2 paper on arXiv It's been j...

开源生态数据/训练论文/研究

10:31

Saining Xie@sainingxie

推文介绍了Cambrian-P，这是一个原生集成相机位姿的多模态大语言模型。其核心观点是，相机位姿是一种易于获取且足以支撑鲁棒视频理解的最小3D信号。通过联合建模视频帧与位姿，模型能将图像序列转化为全局结构化的表示。引用推文指出，当前多模态大语言模型在识别视频活动方面表现优异，但对视频中的空间结构及自主体/物体动态的理解仍然不足，而相机位姿信息是弥补这一差距的关键缺失环节。

Jihan Yang: Camera pose matters for video understanding! Today's MLLMs excel at recognizing activities, but still struggle with the ...

多模态论文/研究

07:21

karminski-牙医@karminski3

微软等发布SkillOpt框架，用机器学习流程系统优化AI智能体技能

微软联合上海交通大学等机构发布SkillOpt框架，旨在通过机器学习流程系统性地优化AI智能体的技能。该框架引入独立的优化器模型，通过harness闭环流程对技能进行编辑，且每次编辑必须在验证集上带来分数提升才被接受。框架设置了每步4到8个编辑操作的学习率预算，使核心修改控制在1到4个。实验表明，优化后的技能可使GPT-5.5的对话准确率提升23.5分。

智能体arXivMicrosoft数据/训练

5月26日

23:59

Ant Ling@AntLingAGI

团队发布了KPop技术，用于稳定大规模MoE模型的强化学习训练。它取代了此前IcePop方法的固定比例掩码，改用自适应二元KL散度区域来匹配每个token的固有噪声，从而实现更鲁棒的参数更新，支持长期、智能体化的强化学习训练。具体应用中，万亿参数的Ring-2.6-1T模型在仅使用纯强化学习训练（未修改基础设施或路由重放）的情况下，于SWE-bench Verified评测中得分超过76。KPop仅通过一个关键参数即可实现该优化。

Jia Guo: Curious about the secret sauce behind our trillion-scale agentic foundation model? Here it comes!🥳 Last year, we releas...

智能体数据/训练论文/研究

23:29

Ant Ling@AntLingAGI

精选68

团队推出 KPop，用于稳定大规模 MoE 模型的智能体强化学习训练。它用基于二元 KL 散度的自适应掩码机制，替代了此前 IcePop 方法中的固定比例掩码，能根据训练过程中的训练-推理不匹配程度动态调整。这一改进使得 Ring-2.6-1T 模型在无需修改基础设施或路由重放的情况下，仅通过纯 RL 训练，在 SWE-bench Verified 上取得了超过 76 分的成绩。

Jia Guo: Curious about the secret sauce behind our trillion-scale agentic foundation model? Here it comes!🥳 Last year, we releas...

智能体数据/训练编码论文/研究

推荐理由：蚂蚁团队把 IcePop 升级成 KPop，从固定掩码变成自适应 KL 区域，思路很巧。Ring-2.6-1T 纯 RL 直接冲到 SWE-bench 76+，做 agentic RL 训练的同学值得翻一下博客。