AIHOT

6月3日

11:37

向阳乔木@vista8

斯坦福团队研究发现，使用未过滤Common Crawl数据训练模型时，在计算量充足下效果可能优于清洗后数据，结论呈现模型规模依赖性：小模型（15M）上过滤数据全面领先，但大模型（330M、1B）未过滤数据在充分训练后反而超越过滤版本，原因是大模型参数容量足够大，可在训练中自行隔离噪声与有效信息。

数据/训练论文/研究

10:49

Berryxia.AI@berryxia

兄弟们，Google DeepMind 团队又来整活儿！

Google DeepMind发布了基于Gemini的多Agent系统Co-Scientist，旨在实现科研流程自动化。该系统能够生成、辩论和验证假设，帮助科学家从高强度脑力劳动中解放出来。过去一年，它已在肝纤维化新靶点、ALS新疗法等复杂问题上与科学家合作探索出新方向。其定位并非取代科学家，而是作为“专职研究伙伴”。目前，其假设生成功能已通过Gemini for Science向个人研究者开放。

Google DeepMind: We believe AI can be a dedicated research partner to help discover the next breakthrough. Enter Co-Scientist: our latest...

智能体DeepMindGoogle推理

关联讨论 1 条

08:16

Rohan Paul@rohanpaul_ai

斯坦福研究：AI在合同法教学中优于同行教授

斯坦福研究人员发现，在评估合同法问题时，法律教授有75%的次数更倾向于选择AI给出的答案，而非同行教授的答案。该研究让教授们针对40个真实学生提问撰写答案，并对近3000个人类与AI的回答进行了盲测比较。结果不仅显示AI胜出频率高，而且教授们仅将3.5%的AI答案标记为“有害”，而对人类答案的有害标记率为12%。这表明大语言模型并非只是流畅，其表现常能达到教授向学生解释法律模糊性的教学标准。

安全/对齐推理论文/研究

06:16

Rohan Paul@rohanpaul_ai

AI解释科学的能力优于预测能力

一项对4,760个科学事件的研究发现，AI模型在“解释”科学方面优于“预测”科学。模型在识别可能的研究路径（尤其是选择题形式）时表现较好，但在预测科学发现是否会实际发生、何时发生以及何种方法有效等更难任务上表现薄弱，准确率接近随机猜测。即使提供额外历史信息，模型改善有限。这表明，模型内嵌大量科学知识并不等同于具备可靠的科学预见能力。研究论文发表于arXiv（2605.22681），标题为《Forecasting Scientific Progress with AI》。

其他论文/研究

06:00

Microsoft Research@MSFTResearch

精选72

天气预报速度比传统超级计算机快数千倍。听听Kenji Takeda在#MSBuild微软研究实验室关于Aurora的分享。了解更多：https：//msft.it/6018vjGUA

Microsoft多模态论文/研究

推荐理由：微软把天气预报推到了推理速度比超算快数千倍，这在气象AI里算是代际提升，虽然离普通人远，但对气候建模和极端天气预警是实实在在的突破。