AIHOT

23:27

Berryxia.AI@berryxia

CMU与UMD的研究团队在论文《Language Models Need Sleep》（arXiv 2605.26099）中指出，传统Transformer模型在处理长任务时，因注意力机制计算复杂度高及KV cache显存占用持续增长而导致效率低下。为此，他们提出了受生物启发的“类睡眠巩固”机制：模型会周期性进入“睡眠”状态，离线多轮处理最近的上下文，并将信息固化到模型状态空间块的fast weights中，随后清空KV cache。实验表明，增加睡眠深度或时长能显著提升模型后续的推理能力。该框架完全开源，提供了一种区别于暴力堆显存的长上下文处理新范式。

himanshu: very cool research (and nomenclature)

arXiv开源生态推理论文/研究

23:27

Berryxia.AI@berryxia

大语言模型需要"睡眠"来巩固记忆

CMU与UMD的研究指出，当前长上下文大语言模型（如Mamba、Jet-Nemotron、Qwen3.5）的瓶颈并非记忆容量，而是“巩固计算”不足。论文《Language Models Need Sleep》提出，可模仿人类睡眠的海马回放机制，在清空前对模型的fast weights进行多次迭代更新（N次forward pass），以提升推理能力。实验表明，该机制在Rule 110元胞自动机及多跳图检索等任务上显著提升了模型性能，且不增加推理延迟。

推理现象/趋势

23:27

Berryxia.AI@berryxia

大语言模型需要"睡眠"以提升推理准确率

研究者提出新方法，认为大语言模型在处理长上下文信息后，需要类似“睡眠”的巩固过程以提升多跳推理能力。该方法要求在清除KV cache前，让模型对当前context进行多次forward pass，将信息沉淀进模型的快速权重中，而非在用户等待时进行思考。实验表明，在相同token预算下，此方法可将多跳推理任务的准确率大幅提升52%，且推理延迟不变。

Berryxia.AI: http://x.com/i/article/2059287655335206912

大佬观点推理

23:19

Claude@claudeai

六个Claude项目都源于同一个问题："为什么不呢？"

Anthropic开源生态教程/实践

23:01

Ethan Mollick@emollick

AI不用反问号，所以也许我们应该一直用它来表明我们的写作是人类写的‽

大佬观点现象/趋势

23:00

elvis@omarsar0

刚刚构建了一个超强的新智能体技能。它能完美地从YouTube视频中提取幻灯片，然后将笔记、图片、转录文本和幻灯片写入Obsidian知识库。一个HTML工件让我可以在听讲时导航并添加更多笔记。我应该发布这个技能吗？

智能体其他视频

22:58

meng shao@shao__meng

原来百度和腾讯，做了这么多面向 C 端的 Agent 啊？现在是不是基本全军覆没了？

智能体现象/趋势

22:58

SenseTime@SenseTime_AI

SenseNova-U1全训练代码开源，支持多模态多任务训练

OpenSenseNova开源了SenseNova-U1的完整训练代码库，支持其8B密集模型与A3B MoE架构。该代码库使用一个统一的框架，可同时训练多种多模态任务，包括文本到图像生成、图像编辑、交错生成及文本与视觉理解。工程上为大规模训练设计，支持混合并行、流式可恢复数据管线、环境变量驱动配置以及从1×8 GPUs到多节点集群的扩展能力。代码已在GitHub开源，采用Apache-2.0协议。

图像生成多模态开源/仓库开源生态

关联讨论 1 条