AIHOT

全部动态论文 · 2149 条

全部一手资讯 X 论文

5月28日周四

5月27日周三

5月28日

07:07

Anthropic：Research（发表成果 · 网页）

精选69

社会科学中的编码智能体

一项针对1260名定量社会科学家的调查显示，虽然81%的受访者用过AI聊天机器人，但仅有20%将Claude Code、Codex等编码智能体常规应用于工作。采用率存在显著差异：以男性名字命名的研究者使用率是女性研究者的两倍；顶尖大学研究者可能性高出40%。用户产出更多工作论文和基金申请，但这可能反映早期采用者自身差异。研究者对AI助力撰写可发表论文更乐观，但对重塑整个社会科学领域持保留态度。这是一项初步调查，更深入研究仍在进行中。

智能体Anthropic数据/训练论文/研究

推荐理由：Anthropic 这份调查把编码代理在社科领域的真实渗透率摸清了，只有 20% 的研究者真在用，而且男女、校际差距比 AI 聊天工具大得多，做学术工具的可以认真看看。

04:19

Meta Engineering Blog（RSS）

精选69

SilverTorch：索引即模型--推荐系统的新检索范式

Meta 推出SilverTorch推荐系统架构，统一了用户生成内容的所有检索组件。该架构吞吐量比现有技术高23.7倍，计算成本效率比CPU方案高20.9倍，同时提升了准确性。

Meta搜索论文/研究

推荐理由：SilverTorch 把索引本身变成模型，在推荐检索上拿到 23 倍吞吐提升，这个思路对搜索和推荐工程师都有启发，虽然离普通人有点远。

02:38

Artificial Analysis@ArtificialAnlys

Artificial Analysis与IBM联合推出首个AI智能体企业IT评测基准

Artificial Analysis与IBM Research联合推出ITBench-AA，首个评估AI智能体在企业IT任务中表现的基准，首发任务为站点可靠性工程（SRE）。该基准包含59项Kubernetes事件响应任务，所有前沿模型得分均未超过50%。其中，Claude Opus 4.7以47%领先，GPT-5.5得46%，通义千问（Qwen3.7 Max）得42%。开源模型中，智谱GLM-5.1（推理）得分40%，与Gemini 3.5 Flash持平；深度求索（DeepSeek V4 Pro）得38%。分析还发现，模型推理轮次差异近3倍，但更长轮次并不保证更高准确率。

智能体评测/基准

01:34

Google Research：Blog（网页）

精选70

通过零信任聚合实现的隐私分析

Google Research 推出了一种新的隐私分析解决方案。该方案结合了一种新的密码学安全聚合协议与可信执行环境（TEE）的透明性，旨在实现前沿的隐私与安全保证。其核心是基于零信任原则，通过密码学与硬件保护的结合，确保系统仅能获取群体的匿名化聚合洞察。

Google安全/对齐端侧论文/研究

推荐理由：Google 的隐私聚合新方案把多轮交互砍成一次提交，对做设备端联邦分析的人来说是工程上的一大步，而且结合 TEE 做双层防护，这个思路值得抄。

01:20

Hugging Face：Blog（RSS）

精选70

ITBench-AA：前沿大模型在首个智能体企业IT任务基准测试中得分均低于50%

由Artificial Analysis和IBM推出的ITBench-AA SRE基准测试显示，所有前沿大模型得分均未超过50%。Claude Opus 4.7（自适应推理，最大努力）以47%领先，GPT-5.5（xhigh）和Qwen3.7 Max分别得46%和42%。该测试包含59个需要通过Shell命令调查Kubernetes事件快照并提交根因诊断的智能体任务。关键发现是模型推理轮次差异近3倍，但更长的轨迹并不转化为更高准确率，过度调查的模型会因提交误报而受罚。在成本方面，开源模型Gemma 4 31B（Reasoning）以每任务$0.14的成本获得37%得分，优于成本更高但得分更低的闭源模型。

智能体Hugging Face评测/基准

关联讨论 2 条

推荐理由：IT运维这事儿，AI还是新手。ITBench-AA这份基准把Claude Opus 4.7逼到47%，开源模型GLM-5.1却用五分之一成本拿到40%，企业场景性价比可能不在闭源那边。

01:02

Qwen@Alibaba_Qwen

精选69

Fast， faster， Qwen. 🚀

Qwen3.5在TokenSpeed推理引擎上，针对智能体工作负载达到了创纪录的580 tokens per second (tps)速度。这一成果由通义千问推理团队、lightseekorg Foundation TokenSpeed团队、NVIDIA及Mooncake团队共同实现，并采用了tri_dao的FlashAttention-4 (FA4) 优化。此里程碑标志着开源大语言模型推理性能的边界得到了推动，相关详情可查阅PyTorch社区博客。

PyTorch: The speed-of-light optimization for Qwen3.5 on the TokenSpeed inference engine is a significant milestone, achieving a r...

智能体开源/仓库推理论文/研究

推荐理由：Qwen3.5在TokenSpeed上跑出580 tps，这是开源LLM推理的极限突破，对agent类应用是实实在在的性能跃进，PyTorch这篇博客值得每一个做推理部署的细读。

00:20

HuggingFace Daily Papers（社区热门论文）

精选70

QUACK：多模态社交推理智能体通信知识的质询、理解与审计

QUACK 是一个开源评估框架，用于审计多模态社交推理智能体的语言基础性。它从游戏结果、行为轨迹和陈述一致性三个层面评估智能体。其核心的陈述验证管道能从日志中重建轨迹并逐条核查陈述，自动标记空间幻觉、无依据指控等问题。实验评估了三个前沿视觉语言模型，结果显示即使最强的智能体，其15.1%的可验证空间主张也存在幻觉，且超过半数的指控缺乏证据支持。该项目的完整组件已在 GitHub 开源。

智能体GitHub多模态安全/对齐

推荐理由：多模态社交 agent 的幻觉问题被严重低估了，QUACK 这套审计框架直接把 20% 的空间谎言和过半的无据指控摊在桌面上，做 agent 安全的必须跟进。

5月27日

23:20

HuggingFace Daily Papers（社区热门论文）

JLT：潜在扩散Transformer中的清洁潜在预测

本文提出JLT，一个基于冻结FLUX.2 VAE编码的130M参数潜在扩散Transformer。研究对比了清洁潜在预测与速度预测DiT在相同表示与训练设置下的表现。分析表明，速度回归继承了各向同性目标协方差下限并放大低方差方向，而清洁预测则能抑制这些方向。在ImageNet 256x256上，JLT-B/1通过classifier-free guidance获得2.50的FID-50K分数，相比速度预测展现出显著优势。研究指出，潜在扩散中的预测目标是与表示相关的几何选择，而非可互换的代数参数化。

图像生成论文/研究

22:02

Hacker News 热门（buzzing.cc 中文翻译）

整个人类的烹饪艺术浓缩在2兆字节中

研究将人类烹饪艺术数据压缩至仅2兆字节。该成果已发布于arxiv.org，论文编号为2605.22391。

arXiv论文/研究

21:27

Berryxia.AI@berryxia

腾讯HY实验室发布Chronicles-OCR基准测试

腾讯HY实验室与四家机构发布了专门测试AI对中国古文字识别能力的基准Chronicles-OCR，包含2800张专家标注图像，覆盖甲骨文、金文等七大类。测试显示，28个前沿多模态模型集体表现不佳：VLLM在甲骨文上准确率仅14%，GPT-5与Gemini 2.5 Pro得分近零。值得注意的是，开启推理模式反而损害性能，因模型实为识别龟壳、青铜器等载体（准确率96.7%），而非真正识别字符本身。

ModelScope: The best VLLM scores only 14% on oracle bone script recognition. Chronicles-OCR, a new ancient Chinese character benchma...

多模态论文/研究评测/基准

20:27

Berryxia.AI@berryxia

MiniMax 发布 M2 论文，预告 M3 与 MSA 研究即将发布

MiniMax 在开源 M2 模型半年后，系统性发布了其背后所有工作的论文，详细阐述了设计思路、训练细节与系统架构。此前，其开源系统 CISPO、Forge RL System 和 Self-Evolution 已被社区广泛采用，且多版模型发布后曾登顶 HuggingFace 排行榜。与此同时，MiniMax 官方宣布已为下一代模型 M3 做好准备，并且 MSA 论文也即将发布。

RyanLee: Recently, we took time to consolidate all of the work behind M2 and published it here: our M2 paper on arXiv It's been j...

开源生态数据/训练论文/研究

18:20

HuggingFace Daily Papers（社区热门论文）

精选72

Gemini Embedding 2：来自Gemini的原生多模态嵌入模型

Google DeepMind推出Gemini Embedding 2，这是一款原生多模态嵌入模型，支持在统一表示空间中嵌入视频、音频、图像和文本。该模型利用Gemini的多模态能力，通过大规模对比学习实现SOTA性能。在关键基准上表现优异：MSCOCO取得62.9 R@1，Vatex取得68.8 NDCG@10，MTEB multilingual达到69.9，MTEB Code达到84.0，超越了专用模型。其统一能力使其适用于RAG、推荐与搜索等下游任务，并在天文学、生物科学、艺术和烹饪等专业领域展现出强大的零样本性能。

Google检索增强多模态论文/研究

推荐理由：Google 把多模态嵌入统一到一个模型里了，文本、代码、跨模态检索全面刷榜，做 RAG 和搜索的该认真看看了。