AIHOT

全部动态资讯 · 1789 条

全部一手资讯 X 论文

5月28日周四

5月27日周三

5月28日

04:19

Meta Engineering Blog（RSS）

精选69

SilverTorch：索引即模型--推荐系统的新检索范式

Meta 推出SilverTorch推荐系统架构，统一了用户生成内容的所有检索组件。该架构吞吐量比现有技术高23.7倍，计算成本效率比CPU方案高20.9倍，同时提升了准确性。

Meta搜索论文/研究

推荐理由：SilverTorch 把索引本身变成模型，在推荐检索上拿到 23 倍吞吐提升，这个思路对搜索和推荐工程师都有启发，虽然离普通人有点远。

01:34

Google Research：Blog（网页）

精选70

通过零信任聚合实现的隐私分析

Google Research 推出了一种新的隐私分析解决方案。该方案结合了一种新的密码学安全聚合协议与可信执行环境（TEE）的透明性，旨在实现前沿的隐私与安全保证。其核心是基于零信任原则，通过密码学与硬件保护的结合，确保系统仅能获取群体的匿名化聚合洞察。

Google安全/对齐端侧论文/研究

推荐理由：Google 的隐私聚合新方案把多轮交互砍成一次提交，对做设备端联邦分析的人来说是工程上的一大步，而且结合 TEE 做双层防护，这个思路值得抄。

01:20

Hugging Face：Blog（RSS）

精选70

ITBench-AA：前沿大模型在首个智能体企业IT任务基准测试中得分均低于50%

由Artificial Analysis和IBM推出的ITBench-AA SRE基准测试显示，所有前沿大模型得分均未超过50%。Claude Opus 4.7（自适应推理，最大努力）以47%领先，GPT-5.5（xhigh）和Qwen3.7 Max分别得46%和42%。该测试包含59个需要通过Shell命令调查Kubernetes事件快照并提交根因诊断的智能体任务。关键发现是模型推理轮次差异近3倍，但更长的轨迹并不转化为更高准确率，过度调查的模型会因提交误报而受罚。在成本方面，开源模型Gemma 4 31B（Reasoning）以每任务$0.14的成本获得37%得分，优于成本更高但得分更低的闭源模型。

智能体Hugging Face评测/基准

关联讨论 2 条

推荐理由：IT运维这事儿，AI还是新手。ITBench-AA这份基准把Claude Opus 4.7逼到47%，开源模型GLM-5.1却用五分之一成本拿到40%，企业场景性价比可能不在闭源那边。

00:20

HuggingFace Daily Papers（社区热门论文）

精选70

QUACK：多模态社交推理智能体通信知识的质询、理解与审计

QUACK 是一个开源评估框架，用于审计多模态社交推理智能体的语言基础性。它从游戏结果、行为轨迹和陈述一致性三个层面评估智能体。其核心的陈述验证管道能从日志中重建轨迹并逐条核查陈述，自动标记空间幻觉、无依据指控等问题。实验评估了三个前沿视觉语言模型，结果显示即使最强的智能体，其15.1%的可验证空间主张也存在幻觉，且超过半数的指控缺乏证据支持。该项目的完整组件已在 GitHub 开源。

智能体GitHub多模态安全/对齐

推荐理由：多模态社交 agent 的幻觉问题被严重低估了，QUACK 这套审计框架直接把 20% 的空间谎言和过半的无据指控摊在桌面上，做 agent 安全的必须跟进。

5月27日

23:20

HuggingFace Daily Papers（社区热门论文）

JLT：潜在扩散Transformer中的清洁潜在预测

本文提出JLT，一个基于冻结FLUX.2 VAE编码的130M参数潜在扩散Transformer。研究对比了清洁潜在预测与速度预测DiT在相同表示与训练设置下的表现。分析表明，速度回归继承了各向同性目标协方差下限并放大低方差方向，而清洁预测则能抑制这些方向。在ImageNet 256x256上，JLT-B/1通过classifier-free guidance获得2.50的FID-50K分数，相比速度预测展现出显著优势。研究指出，潜在扩散中的预测目标是与表示相关的几何选择，而非可互换的代数参数化。

图像生成论文/研究

22:02

Hacker News 热门（buzzing.cc 中文翻译）

整个人类的烹饪艺术浓缩在2兆字节中

研究将人类烹饪艺术数据压缩至仅2兆字节。该成果已发布于arxiv.org，论文编号为2605.22391。

arXiv论文/研究

18:20

HuggingFace Daily Papers（社区热门论文）

精选72

Gemini Embedding 2：来自Gemini的原生多模态嵌入模型

Google DeepMind推出Gemini Embedding 2，这是一款原生多模态嵌入模型，支持在统一表示空间中嵌入视频、音频、图像和文本。该模型利用Gemini的多模态能力，通过大规模对比学习实现SOTA性能。在关键基准上表现优异：MSCOCO取得62.9 R@1，Vatex取得68.8 NDCG@10，MTEB multilingual达到69.9，MTEB Code达到84.0，超越了专用模型。其统一能力使其适用于RAG、推荐与搜索等下游任务，并在天文学、生物科学、艺术和烹饪等专业领域展现出强大的零样本性能。

Google检索增强多模态论文/研究

推荐理由：Google 把多模态嵌入统一到一个模型里了，文本、代码、跨模态检索全面刷榜，做 RAG 和搜索的该认真看看了。