AIHOT

5月1日

08:10

Berryxia.AI@berryxia

Pine AI首席科学家李博杰提出新方法，通过模型回答1400道冷知识题的能力来估算其参数量。原理是存储事实需占用参数空间，先利用已知开源模型拟合曲线，再将闭源模型得分投射得出估算。研究评估了92个闭源模型，结果显示GPT-5.5以约9.7T参数断层领先，Claude Opus 4.6约5.3T次之。主流旗舰模型如GPT-5、Claude Opus 4.7参数集中在3-4T量级。分析还推断GPT-5的.x版本及Claude Opus 4.7等可能是全新训练而非微调产物，并指出MoE模型的知识容量取决于总参数量。评测工具与数据已开源。

思维怪怪: 有人做了一个很好玩的研究,用冷知识来给大模型称体重,得出结论:GPT-5.5 约 9.7T、Opus 4.7 约 4T、Grok-4 约3.2T。。。 Pine AI 首席科学家李博杰发表论文《不可压缩知识探针:基于事实容量估算黑盒大语言模...

AnthropicOpenAI数据/训练论文/研究

06:15

Microsoft Research@MSFTResearch

安全的智能体并不能保证由相互连接的智能体组成的生态系统是安全的。微软研究院研究了当AI智能体交互时会出现什么问题，以及为什么网络层面的风险需要新的方法。了解更多：https：//www.microsoft.com/en-us/research/blog/red-teaming-a-network-of-agents-understanding-what-breaks-when-ai-agents-interact-at-scale/

智能体Microsoft安全/对齐论文/研究

05:14

elvis@omarsar0

在推理过程中何时检索

传统RAG系统在推理前单次检索，无法满足如o1、R1等大型推理模型在生成长链思维时中途出现的知识需求。ReaLM-Retrieve提出推理感知的检索框架，能在多步推理中动态注入证据。其核心在于以推理步骤粒度检测不确定性，学习判断何时引入外部证据有效，并将单次检索开销降低3.2倍。在多个QA数据集上，该框架比标准RAG的F1绝对值提升10.1%，且检索调用次数比固定间隔的IRCoT减少47%。在2-4跳的MuSiQue任务中，仅用平均1.8次检索即可达到71.2%的F1值，表明面向推理模型的RAG需优化检索时机而不仅是检索内容。

检索增强推理论文/研究

04:39

Rohan Paul@rohanpaul_ai

前沿AI能以超人速度自主实施端到端复杂网络攻击

前沿AI已能以超人速度和近乎零边际成本自主完成端到端的复杂专家级网络攻击链。在AISI的网络安全评估中，GPT-5.5与Mythos Preview表现相当，均远超GPT-4o等早期模型。GPT-5.5在包含32个步骤的企业网络攻击模拟中成功完成端到端攻击，而人类专家需约20小时。在一项人类专家需12小时完成的反向工程任务中，GPT-5.5仅用11分钟、花费1.73美元即告解决。

AI Security Institute: OpenAI's GPT-5.5 is the second model to complete one of our multi-step cyber-attack simulations end-to-end 🧵

OpenAI安全/对齐评测/基准

关联讨论 2 条

03:16

Anthropic@AnthropicAI

精选63

人们如何向Claude寻求指导？我们分析了100万次对话，以了解人们提出什么问题、Claude如何回应，以及它何时会陷入阿谀奉承。我们利用这些发现改进了Opus 4.7和Mythos Preview的训练方式。 https：//www.anthropic.com/research/claude-personal-guidance

Anthropic安全/对齐数据/训练

推荐理由：百万条真实对话里扒出谄媚模式，Anthropic 没光发论文，直接把结论灌进 Opus 4.7 训练，做助手的值得细看用户到底在问什么、模型又怎么滑向讨好。

03:14

Epoch AI@EpochAIResearch

有多少AI算力被走私到中国？我们估计到2025年底将达到29万至160万H100等效算力--约占中国总算力的20%至60%。

数据/训练现象/趋势论文/研究

02:39

Rohan Paul@rohanpaul_ai

Google DeepMind 推出实时视频AI协诊系统

Google DeepMind 近日发布 AI co-clinician 协诊系统，这是一个多模态代理系统，旨在辅助医护人员，并在医生监督下运行。系统采用双代理架构：一个模块与患者对话，另一模块实时监控交互边界，能检索并验证临床级证据。在开放式药物问答中，其表现超越前沿模型，更贴合真实医疗场景的复杂性。评估聚焦临床实际关切，如避免错误陈述或遗漏关键信息。在98项初级保健模拟查询中，医生对其偏好超过主流证据合成工具；在97例NOHARM风格评估中未出现严重错误。

Google DeepMind: AI co-clinician is our new research initiative to help explore how multimodal agents could better support healthcare wor...

DeepMind多模态论文/研究

4月30日

23:14

Google DeepMind@GoogleDeepMind

AI协同临床医生是我们新的研究计划，旨在探索多模态智能体如何更好地支持医护人员和患者。🩺 以下是我们进展的概览🧵

智能体DeepMindGoogle多模态

20:11

歸藏(guizang.ai)@op7418

DeepSeek 多模态大语言模型的论文《Thinking with Visual Primitives》已经公开

该论文介绍了基于DeepSeek-V4-Flash底座的多模态大模型。其核心创新在于模型能同时进行文字推理和“视觉原语”（如画框、打点）思考。该模型以极低的Token成本，在多项前沿指标上达到了与GPT-5.4、Claude、Gemini等模型相当甚至更优的性能。

DeepSeek多模态论文/研究

关联讨论 2 条

17:39

Rohan Paul@rohanpaul_ai

微软研究揭示AI助手在长文档编辑中普遍损坏内容

微软最新论文指出，当前AI助手在执行长链条编辑任务时，普遍会损坏文档内容。研究通过可逆任务对测试了19个模型，发现即使是前沿模型平均也会破坏约25%的文档内容，且问题随文件增大、流程变长而加剧。失败模式通常不是微小失误，而是偶尔出现的重大错误，这些错误会静默破坏部分文档并随时间累积。研究表明，当前的LLM在简短演示或狭窄编码任务中可能表现良好，但作为现实世界长文档工作的委托代理仍不可靠。

智能体Microsoft论文/研究

17:39

Rohan Paul@rohanpaul_ai

Anthropic研究显示Claude能解决人类专家遗漏的真实生物信息学问题

Anthropic最新研究利用BioMysteryBench测试平台评估Claude在真实生物信息学问题上的能力。该测试将客观答案隐藏于真实数据集中，涵盖99项任务。在至少一位人类专家解决的76个问题上，Claude Mythos Preview模型准确率约为83%；更值得注意的是，在23个专家小组未能解决的问题上，该模型仍解决了其中约29.6%。然而，模型在困难问题上的成功重复性较低，表明其表现尚不稳定。研究指出，Claude最有效的模式并非充当“先知”，而是扮演快速研究协作伙伴的角色：通过分层使用方法、交叉验证证据并运用广泛背景知识来缩小搜索空间。

Anthropic数据/训练论文/研究

关联讨论 1 条

17:09

Rohan Paul@rohanpaul_ai

代理性工具工程：基于可观测性的编码代理工具自动演化

本文提出Agentic Harness Engineering方法，使编码代理能自动重写自身工具和规则，并通过可审计实验验证每次更改的有效性。传统代理工具调整依赖手动或混乱自我改进循环，缺乏明确证据。该方法将编辑转化为文件级可回滚部分，压缩运行日志为简短失败证据，并让代理为编辑写预测后基于任务结果检查。在Terminal-Bench 2测试中，从小型shell-only工具开始，经10轮进化且基础模型固定，单次尝试成功率从69.7%提升至77.0%，超越其他基线。最终工具可迁移至其他模型和SWE-bench-verified任务，在不同模型家族获得5.1到10.1点提升，并减少12%令牌使用，为昂贵工具工作提供可靠、可控的自我改进途径。

智能体arXiv编码论文/研究

16:39

Chubby♨️@kimmonismus

Anthropic发布BioMysteryBench基准，AI在复杂生物信息学难题上开始超越人类专家

Anthropic发布了BioMysteryBench基准测试，包含99个使用原始、杂乱真实生物数据集的开放式生物信息学挑战。最新Claude模型（4.7）解决了大部分人类专家能处理的任务，并在专家小组未能解决的23个难题中攻克了约30%。其能力源于整合数十万篇论文知识，并在不确定时叠加多种分析策略。Genentech和Roche的独立测试（CompBioBench）中，Claude Opus 4.6总体准确率达81%，最难问题准确率69%。两项基准共同表明，AI已在部分最困难的生物学问题上超越人类专家。

Anthropic: New on the Science Blog: We gave Claude 99 problems analyzing real biological data and compared its performance against ...

Anthropic数据/训练论文/研究