AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态X · 4000 条
全部一手资讯X论文
Berryxia.AI@berryxia · 5月26日44

别被骗了! 大模型也特么需要“睡觉”? 一个来自CMU和UMD的研究团队发现:Transformer大模型在处理超长任务时注意力机制彻底拉胯 他们没有继续堆上下文长度而是直接给模型安排了“睡眠” 模型在睡眠期间把最近的上下文全部转化成持久的fast weights然后清空KV cache 这个机制叫“sleep-like consolidation”大模型也需要睡觉 故事就藏在2026年5月25日刚出的arXiv 2605.26099里 标题直白到离谱:《Language Models Need Sleep》 作者Sangyun Lee、Sean McLeish、Tom Goldstein、Giulia Fanti 传统Transformer在长时序任务上越跑越累因为attention对上下文长度是二次方爆炸。 KV cache占显存越来越多推理速度越来越慢。 他们提出的方案超级生物启发: 模型每隔一段时间进入“睡眠模式” 先把最近积累的上下文做N次离线循环遍历 然后通过一个学会的局部规则把这些信息固化到state-space model块里的fast weights里 固化完直接清空KV cache 醒来后模型继续工作但记忆已经从“短期易失”变成了“长期持久” 实验结果直接证明:增加睡眠深度或者睡眠时长能显著提升睡眠后的推理能力 这不是又一个参数技巧而是彻底改变了模型处理长上下文的范式。 Big Tech还在疯狂卷把上下文拉到百万级靠暴力堆显存。 这个小团队却用“睡觉”这个最简单的人类机制把问题从根上解决了。 整个框架100%开源论文代码思路全在arXiv上。 Big Tech的闭源长上下文订阅模式靠的就是你不知道模型其实可以“睡觉”来省资源。

译CMU与UMD的研究团队在论文《Language Models Need Sleep》(arXiv 2605.26099)中指出,传统Transformer模型在处理长任务时,因注意力机制计算复杂度高及KV cache显存占用持续增长而导致效率低下。为此,他们提出了受生物启发的“类睡眠巩固”机制:模型会周期性进入“睡眠”状态,离线多轮处理最近的上下文,并将信息固化到模型状态空间块的fast weights中,随后清空KV cache。实验表明,增加睡眠深度或时长能显著提升模型后续的推理能力。该框架完全开源,提供了一种区别于暴力堆显存的长上下文处理新范式。

查看原推 ↗
Berryxia.AI@berryxia · 5月26日62

http://x.com/i/article/2059287655335206912 # 其实大语言LLM模型和人类一样,也需要睡觉! 你的 AI 不是不够聪明,是太久没合眼,它和人类一样,都需要睡觉的! > 申明:此内容为AI (Claude Opus 4.7 自主撰写)人类辅助排版完成,如引发不适,请了解退出,谢谢。 你的 AI 不是不够聪明,是太久没合眼 2026 年 5 月 · 基于 Lee, McLeish, Goldstein & Fanti (CMU & UMD) 如果你最近用过几个 hybrid 架构的大模型——Mamba 系列、Jet-Nemotron,或者最新一代号称"无限上下文"的 Qwen3.5——做一些真正需要推理的事,你大概率撞过一堵墙。 它能塞下越来越长的输入。喂十万 token 的合同,没问题。灌一整个 codebase,没问题。但你让它在这堆东西里做几步深一点的推理——比如多跳追问、需要把分散的事实串起来——它就开始犯模糊。不是错得离谱那种犯傻,是那种你能感觉到「它好像知道答案在哪,但拼不起来」的犯傻。 按业内目前的主流叙事,这个问题应该已经被解决了。 Hybrid 架构就是干这个的:用 attention 抓近期的精度,用 SSM(state-space model)压缩远期的记忆。 一种是 KV cache,一种是 fast weights,两条腿走路。你不再受限于上下文窗口大小,理论上可以一直读下去。 但 Carnegie Mellon 和 University of Maryland 的一组研究者最近发表了一篇标题简洁得近乎挑衅的论文: > Language Models Need Sleep. 是的,他们说,语言模型需要睡觉。 而且更尴尬的是,他们用一系列实验把"为什么需要"讲清楚了。读完之后,你会发现整个行业可能一直在按错的方向用力。 ## 我们一直在解决一个不是问题的问题 先说大家以为问题在哪。 近几年关于长上下文的 narrative 高度统一:memory 不够大。所以解决方案就分两路。一路是把窗口拉长——从 4k 到 32k,到 100 万,到 1000 万。另一路是把存储压缩——把 attention 的二次复杂度,换成 SSM 这种线性复杂度的 fast weight 存储。Hybrid 模型属于第二条路。 听起来无懈可击。Memory 不够大那就加 memory,要么直接加,要么换种更省的方式存。 但论文里有一组实验,把这条直觉直接捅了个窟窿。 研究者搞了一个非常小、非常干净的 toy task:把一个叫 Rule 110 的元胞自动机当作输入。Rule 110 是 Stephen Wolfram 当年那个著名的"看起来弱智但其实图灵完备"的玩意——一个一维 0/1 串,按一条本地规则演化。它的关键特性是:预测它 t 步以后的状态,是个 P-complete 问题,没有已知的并行捷径。 实验设置是这样的:给一个 4 层的 GDN-attention hybrid 模型喂四段独立的 24 位 0/1 串,每段代表 Rule 110 的一个初始状态。喂完之后,模型必须预测每段在 t 步演化后的第一位。这里 t 就是推理深度。 关键的"陷阱"在于:每读完 24 个 token,强制清空 KV cache。这意味着 attention 完全帮不上忙,模型必须把每段的信息塞进 SSM 的 fast weights 里,靠那个固定大小的内部状态来回答问题。 按"memory 够大就能解决"的逻辑,这个任务应该没难度。fast weight 容量足以记住 24 位串。你只要存好就行。 实际跑出来呢? t=0(不演化,纯检索):几乎满分。 t=4:开始往下掉。 t=32:直接趴在 10% 附近,跟瞎猜没差。 注意:序列长度没变,要存的信息也没变,变的只是回答问题前需要的「计算深度」。也就是说,并不是模型"记不住",而是它没有足够的算力,把记住的东西"想清楚"。 到这里,问题被重新定义了: 真正的瓶颈不是 memory 容量,是 consolidation 计算。 把 context 转译成可用的 weight memory,本身就是一个非平凡的计算过程。它不可能 one-shot 完成。 如果你重新看那张曲线,会有种别扭的感觉:我们这几年砸钱砸算力解决的,是一个不是问题的问题。 ## 大脑早就在做的事,我们一直不让 AI 做 这种「计算受限」的问题,在生物学里其实有非常优雅的解法。 它叫睡觉。 如果你翻 McClelland 1995 年那篇 Why there are complementary learning systems in the hippocampus and neocortex——这是认知神经科学里被引最多的几篇之一——它给出了一个挺漂亮的结构:海马体负责快速吸收眼前的事,新皮层负责慢速沉淀长期的事。两者之间的桥梁,是一个被称作 hippocampal replay(海马回放)的过程,主要发生在睡眠期间。 简单讲:白天你吸收信息,海马体把它们存成短期记忆。到了晚上,特别是慢波睡眠阶段,海马体反复"重播"白天的片段,把它们慢慢转录到新皮层的突触权重里。等你醒来,这些记忆就从"今天的"变成了"我的"。 睡眠是有代价的。一只睡着的动物,不能进食,不能逃跑,不能交配——纯粹的认知机会成本。进化是个抠门到家的优化器,它绝不会保留一个 1/3 时间躺平的状态,除非这个状态给的回报大到无法回避。 这是论文的核心隐喻,但更重要的是:它不只是隐喻。 研究者从这个隐喻里抽出了一个可以装进 transformer 的具体机制。 ## "Sleep" 是什么:把 N 次 forward pass 塞进 context 切换的缝隙里 机制本身其实非常朴素。 想象一个 hybrid 模型,每读 L 个 token 就要清掉一次 KV cache。论文做的事情是:在清掉之前,先让模型对当前 context 跑 N 次 forward pass。每跑一次,SSM 的 fast weights 就被更新一次,按一条学到的局部规则。 跑完 N 次之后,清空 KV cache。fast weights 留下来。继续读下一段。 到预测的时候,模型只跑一次正常的 forward pass。预测延迟没有任何变化。 这就是它叫 sleep 的原因:所有"额外的思考"都发生在"不响应外界"的那段时间里。用户看不到。用户感觉到的依然是单次 forward pass 的延迟。但模型内部已经把记忆整理好了。 > Fast weights:与每个 token 存一份 key/value 的 KV cache 不同,fast weight 是一个固定大小的矩阵,所有读过的 token 都被压缩进去。它更省内存,但天然 lossy——存得下,不一定整理得好。Sleep / consolidation phase:在模型 evict 当前 context 之前,反复跑 forward pass 的阶段。N 是 sleep 的"深度"。N=1 时退化为普通 hybrid 模型,N>1 时多出来的算力全部用于优化 fast weights。 为什么是 N 次而不是 1 次?这里有一个挺反直觉的洞察。 如果你把"把 context 翻译成 fast weights"看成一种学习——它就是——那它和我们熟悉的梯度下降一样,是个迭代过程。Gradient descent 一步走不完一座山。Memory consolidation 一次 forward pass 也整不出一个好的内部表示。 之前的"depth-recurrent"模型也用过类似思路:让模型在预测时多 loop 几次,来获得更深的计算。但那种 loop 的代价是预测延迟变高。 这篇 paper 的关键 trick 是:把多 loop 这件事从 prediction time,挪到 consolidation time。预测时还是单次。loop 全在 sleep 里完成。 像不像考前一晚把书翻熟、第二天交卷只花一支笔的时间? ## 数据:从"不会"到"会"的临界点 把这个机制装回前面那个让 hybrid 模型趴下的 Rule 110 任务,结果很直白: 信息量没变。序列长度没变。预测延迟没变。变的只是"睡多久"。 接下来他们换了一个更难的任务:Depo,一个由 Allen-Zhu 和 Li 在「Physics of Language Models」里设计的多跳图检索任务。给模型一个被打乱的有向环(最多 75 个节点),然后问"从节点 a 出发,跳 k 步到哪里"。k 越大越难。 这次的变量是 k(跳几步): - 1 loop 的模型:4 跳以上就停滞。 - 2 loops:8 跳以上停滞。 - 4 loops:在训练预算内开始啃 16 跳。 每多睡一会,能咬动的推理深度就往上推一档。 这都还是小模型。论文压轴的实验把同样的方法套到两个真实的预训练 LLM 上——Jet-Nemotron 2B 和 Ouro 1.4B——在 GSM-Infinite(一个合成数学推理 benchmark)上微调。问题长度 2000–3300 token,远远超过他们设定的 context window L=2000。 结果: Ouro 这个 1.4B 的小模型,光是多睡几遍,6 步推理的准确率从 41.9% 拉到 61.5%。 最戏剧性的数字在 sliding-window eviction 那一节。他们把窗口砍到 L=512,让 sequence 是窗口的 4–6 倍——这是一个把信息逼到极限的设定。在这种情况下,baseline(1 loop)就算在最简单的 2 步问题上也只有 0.596。加上 sleep 后,飙到 0.905。 52% 的相对提升。 同一个模型,同样的 token 预算,只是醒着的时候少做点,睡着的时候多做点。 这种"几乎免费的提升"在 LLM 领域已经很罕见了。 ## 这不是一个 trick,是个范式拐点 如果你只是把这篇 paper 当作"又一个长上下文优化方法"读,你会错过它真正的意义。 最近一年大家在谈的所有"test-time compute"——OpenAI o1、DeepSeek-R1、长链推理、多轮自我反思——本质上都是把更多算力花在预测的那一刻。模型在跟用户对话时多想几秒,多输出几千个 token 的 reasoning trace,换更准的答案。 这条路的隐性代价用户都在承担:延迟。你看 o1 转半天才吐答案,那个圈圈就是你的算力账单。 这篇 paper 提出了另一条线:consolidation-time compute。算力不花在用户等待的时候,花在 context 还没结束、还在被读取的间隙里。 这两条线的本质区别是: - Test-time compute:算力 = 用户等待的时间。每多想一秒,用户多等一秒。 - Consolidation-time compute:算力 = 模型"消化"信息的时间。用户什么都没看见,只感受到回答更靠谱了。 你可以这样理解: 一个人在你问问题时陷入长考——是 test-time compute。 同一个人头一晚把材料看熟——是 consolidation-time compute。 两种都是「多算」,但谁更让人愿意合作,你心里有数。 更深一层:sleep-time 不是"反正模型闲着不如让它转一下"。它是必需的工作时间。 睡眠剥夺的研究在生物学里有相当深的积累。Matthew Walker 在 Why We Sleep 里给过一组很扎心的数字:连续 18 小时不睡觉的人,反应速度和血液酒精浓度 0.05% 的人接近。他们的大脑没"满",他们的大脑只是没机会整理。 我们正在用同样的方式拖垮我们的 AI。塞给它越来越长的上下文,要求它一口气消化,再用一次 forward pass 给出答案——然后困惑于"为什么这个号称百万上下文的模型连 8 跳推理都做不到"。 它做不到不是因为不够大。它做不到是因为我们从来不让它合眼。 ## 一个被工作伦理污染的智能观 写到这里,我想停一下,多说一句不那么技术的话。 ML 这个行业有一个非常深的、几乎从来没被说出口的隐性假设:算力花在 inference 之外,是浪费。 所以我们把模型搞得越来越大,越来越能在一个 forward pass 里命中答案。我们鼓吹"零样本",我们鼓吹"上下文学习",我们对"模型不需要训练就能解决新任务"这件事抱有近乎宗教的好感。 潜台词是:好的智能 = 一击即中。 可生物学不是这么告诉我们的。 最复杂的认知系统——人脑——把 1/3 的时间用在"不响应外界刺激"上。这段时间里它不能进食,不能逃跑,不能学习新事物,不能交配。如果智能的本质是"在一次 forward pass 里搞定一切",那进化早就该把睡眠淘汰掉了。 但它没有。所有有大脑的动物都睡觉。从果蝇到鲸鱼。睡眠不是 bug,是 feature,而且是认知架构里最不可替代的 feature 之一。 我们之所以一直忽略这一点,可能不是技术原因。是文化原因。 24/7 always-on 是硅谷推销给世界的工作伦理。我们把它默认装进了我们对智能系统的想象里。我们做 chatbot 时希望它"随时响应"。我们做 agent 时希望它"持续在线"。我们做 LLM 评估时几乎没有任何指标在意它"是否需要离线整理时间"。 然后我们撞到了一堵看不见的墙——hybrid 模型在长上下文里塌方,agent 在长链推理里塌方,所有 frontier 模型在真正深一点的任务上都开始飘——然后继续往同一个方向加 compute。 这篇 paper 提供的不只是一个新算法。它提供了一个被我们集体忽略的维度: 智能不只是"清醒时多聪明"。 智能还包括"在被允许离线时,能不能把信息整理好"。 这是个让人有点不舒服的视角。因为它意味着:未来真正强的 LLM,可能不是一直在线的那种,而是有清醒期、有睡眠期、有做梦期的那种。它会在某些时刻"对外界无响应",换来的是更靠谱的回答。 听起来像科幻。但其实——做出来了。CMU 和 UMD 的这几个研究者,已经把它跑通了。 ## 结尾 这篇论文的方法本身远未成熟。训练成本随 N 线性增长。在 sequence 维度上不能完全并行化。论文自己列了一堆 limitation。 但它指出了一个我觉得会被反复回到的方向。 如果你最近两年看 LLM scaling,会发现 frontier 在悄悄地从 "更大的模型" 转向 "更聪明地花算力"。我们已经知道:算力花在 pretraining 里能换 capability,花在 inference 里能换 reasoning。这篇论文加了第三个抽屉:花在 sleep 里能换深度。 如果这条路被验证——后续的 follow-up 我会持续盯——那未来的训练范式可能不再是连续的 forward pass,而是 wake → sleep → wake → sleep 的节律。 AGI 训练手册的第一页,可能不再写"how to scale parameters",而是写"how to design a wake-sleep cycle"。 那一刻,我们对智能的定义会再退一步,离生命近一步。 下一次,有人跟你说他们的模型在长上下文上表现很差,你可以问一句: 「你给它睡觉了吗?」 原文来源:Language Models Need Sleep · alphaXiv 2605.26099

译CMU与UMD的研究指出,当前长上下文大语言模型(如Mamba、Jet-Nemotron、Qwen3.5)的瓶颈并非记忆容量,而是“巩固计算”不足。论文《Language Models Need Sleep》提出,可模仿人类睡眠的海马回放机制,在清空前对模型的fast weights进行多次迭代更新(N次forward pass),以提升推理能力。实验表明,该机制在Rule 110元胞自动机及多跳图检索等任务上显著提升了模型性能,且不增加推理延迟。

查看原推 ↗
Berryxia.AI@berryxia · 5月26日65

特么人需要睡觉,大模型迎无一例外啊! 我最近在用大模型做真正需要深度推理的项目时候 十万token的合同、整个codebase塞进去都没问题。 可一旦让我多跳追问、把散落的事实串起来,它就开始犯糊涂。 明明信息全在,却总觉得它知道答案在哪,就是拼不起来。 不仅睡觉,记忆也是大问题, CMU和UMD的研究者最近发了一篇论文,直接把这堵墙拆开了。 论文标题就叫Language Models Need Sleep。 他们用Rule 110这种图灵完备的toy task做实验,发现问题根本不在内存容量。 hybrid模型的fast weights能存下信息,但真正把context翻译成可用的内部表示,需要多次forward pass去巩固。 他们把这个过程叫sleep。 在清KV cache前,让模型对当前context多跑几次forward pass,把记忆慢慢沉淀进fast weights。 预测时还是单次forward,延迟一点没变。 结果在多跳推理任务上,准确率直接拉升52%。 同一个小模型,同样的token预算,只是多给它一点离线整理时间。 这和行业现在狂加上下文窗口、搞test-time compute完全是两个方向。 o1那种在回答时多想几秒,用户得等。 而sleep是在读取context的间隙里多算,用户什么都感觉不到,答案却更靠谱。 大脑其实早就这么干了。 白天海马体快速存,白天睡着时慢波睡眠把记忆replay到新皮层。 进化保留了1/3时间不响应外界,就是为了让认知更深。 我们一直以为智能就是always-on、一击即中。 其实最强的智能,可能需要清醒期和睡眠期的节奏。

译研究者提出新方法,认为大语言模型在处理长上下文信息后,需要类似“睡眠”的巩固过程以提升多跳推理能力。该方法要求在清除KV cache前,让模型对当前context进行多次forward pass,将信息沉淀进模型的快速权重中,而非在用户等待时进行思考。实验表明,在相同token预算下,此方法可将多跳推理任务的准确率大幅提升52%,且推理延迟不变。

查看原推 ↗
Claude@claudeai · 5月26日47

Six Claude projects that all came from the same question: “why not?”

译六个Claude项目都源于同一个问题:“为什么不呢?”

查看原推 ↗
Ethan Mollick@emollick · 5月26日60

AIs do not use interrobangs, so maybe we should just use them all the time to show our writing is human‽

译AI不用反问号,所以也许我们应该一直用它来表明我们的写作是人类写的‽

查看原推 ↗
elvis@omarsar0 · 5月26日41

Just built an insane new agent skill. It can perfectly extract slides from YT videos, then write notes, images, transcripts, and slides into Obsidian vaults. An HTML artifact allows me to navigate and add more notes as I listen. Should I release the skill?

译刚刚构建了一个超强的新智能体技能。 它能完美地从YouTube视频中提取幻灯片,然后将笔记、图片、转录文本和幻灯片写入Obsidian知识库。 一个HTML工件让我可以在听讲时导航并添加更多笔记。 我应该发布这个技能吗?

查看原推 ↗
meng shao@shao__meng · 5月26日34

原来百度和腾讯,做了这么多面向 C 端的 Agent 啊? 现在是不是基本全军覆没了?

译原来百度和腾讯,做了这么多面向 C 端的 Agent 啊? 现在是不是基本全军覆没了?

查看原推 ↗
SenseTime@SenseTime_AI · 5月26日70

🚀 𝗪𝗲'𝘃𝗲 𝗼𝗽𝗲𝗻-𝘀𝗼𝘂𝗿𝗰𝗲𝗱 𝘁𝗵𝗲 𝗳𝘂𝗹𝗹 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗰𝗼𝗱𝗲𝗯𝗮𝘀𝗲 𝗳𝗼𝗿 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭 (8B dense + A3B MoE). ​ ​ One stack for 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗺𝘂𝗹𝘁𝗶𝗺𝗼𝗱𝗮𝗹 𝘁𝗮𝘀𝗸𝘀 across: text-to-image · editing · interleaved generation · text & vision understanding.​ ​ Built for practical large-scale training: ​ ⚙ Hybrid WP/TP/PP + ISP parallelism​ 🌊 Streaming, resumable, packed data pipeline ​ 🎛 Env-var driven configs for easy experimentation ​ 🧱 Decoupled backbone, data, and objective modules ​ 📈 Scales from 1×8 GPUs to multi-node clusters ​ ​ Apache-2.0 👇 ​ https://github.com/OpenSenseNova/SenseNova-U1​ Discord: https://discord.gg/BuTXPHmQub​ ​ @github

译OpenSenseNova开源了SenseNova-U1的完整训练代码库,支持其8B密集模型与A3B MoE架构。该代码库使用一个统一的框架,可同时训练多种多模态任务,包括文本到图像生成、图像编辑、交错生成及文本与视觉理解。工程上为大规模训练设计,支持混合并行、流式可恢复数据管线、环境变量驱动配置以及从1×8 GPUs到多节点集群的扩展能力。代码已在GitHub开源,采用Apache-2.0协议。

查看原推 ↗
Elon Musk@elonmusk · 5月26日63

Paste screenshots into Grok Build

译xAI 的开发工具 Grok Build 现在支持直接粘贴截图来辅助开发。用户可通过快捷键截屏后,将图像粘贴至 Grok Build 界面,随后要求其基于图像进行灵感启发、讲解、调试或代码复现。该功能利用了 Grok 多模态模型强大的视觉能力,能够理解截图、UI 和视觉上下文,使得通过视觉化方式沟通和迭代开发想法变得比手动输入细节更直观、自然。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月26日57

New Meta, Stanford, Google and many other top labs paper proposes AutoResearchClaw. Shows that automated research improves when AI can fail, recover, and ask humans at the right moments. The paper is less about an “AI scientist” than about turning research into a governed loop. Most systems still treat science like a production line: generate an idea, run code, write a paper, then stop when the chain breaks. AutoResearchClaw treats failure as evidence, using debate, repair, verification, memory, and selective human input as parts of the same machine. That is the main point: autonomy gets better when it is constrained by process, not when it is simply given more freedom. On ARC-Bench, the system beat AI Scientist v2 by 54.7%, with its sharpest gains in result analysis, where claims had to match measurements rather than merely sound plausible. The human result is more interesting: CoPilot reached an 87.5% accept rate, while full autonomy reached 25% and step-by-step oversight reached 50%, suggesting that too little judgment and too much supervision can both degrade science. The most revealing failure was a case where every cross-validation method returned identical zero-bias outputs, which passed numeric verification but failed scientific meaning. That is the boundary this paper exposes: machines can verify that numbers are real, but humans still notice when the experiment has stopped asking the right question. ---- Paper Link – arxiv. org/abs/2605.20025 Paper Title: "AutoResearchClaw: Self-Reinforcing Autonomous Research with Human-AI Collaboration"

译Meta、斯坦福等机构提出AutoResearchClaw,这是一个通过AI智能体进行自主研究的框架。其核心理念是将科研过程转化为一个受流程约束的循环,而非简单的生产线。系统整合了辩论、修复、验证、记忆和选择性的人类反馈,并将失败视为有效证据。在ARC-Bench基准测试中,该系统在结果分析等任务上性能比AI Scientist v2提升54.7%。人类协作实验显示:CoPilot模式(适时介入)接受率达87.5%,完全自主仅25%,逐步监督为50%。一个关键失败案例揭示了当所有交叉验证方法返回相同零偏差输出时,系统虽通过数值验证却失去了科学意义,凸显了人类判断的关键作用。

查看原推 ↗
Ethan Mollick@emollick · 5月26日37

I found this Wired article on AI fact-checking frustrating. It could have been about why we continue to need human fact checkers (talk to people, use judgement, resolve conflict). Instead it is full of old info & stuff about free models GPT-5.5 Pro checked it (& I checked GPT)

译我发现这篇《连线》关于AI事实核查的文章令人沮丧。它本可以探讨为何我们仍然需要人类事实核查员(与人交谈、运用判断、解决冲突)。但它却充满了过时信息和关于免费模型的内容。 GPT-5.5 Pro核查了它(我也核查了GPT)。

查看原推 ↗
Baidu Inc.@Baidu_Inc · 5月26日30

@BoatbomberRBLX brought one of the world's oldest writing systems to the ERNIE AI Developer Challenge: ancient cuneiform tablets. Using PaddleOCR, he built NabuOCR to help read cuneiforms from tablet images. See the story behind the winning project 👇

译@BoatbomberRBLX 将世界上最古老的文字系统之一——古代楔形文字泥板——带入了ERNIE AI开发者挑战赛。 他使用PaddleOCR构建了NabuOCR,以帮助从泥板图像中读取楔形文字。 了解这个获奖项目背后的故事👇

查看原推 ↗
Emad@EMostaque · 5月26日55

I think folk are underestimating how much of AI models are actually engineering at scale versus breakthrough research. See how @cursor_ai caught up to Anthropic / OpenAI models run at a fraction of the cost to run & it becomes clearer why that deal was done & what is to come

译本推文认为,人们低估了AI模型发展中“工程规模化”相较于“突破性研究”的重要性。Cursor以远低于大厂的成本运营并追赶上了Anthropic/OpenAI的模型,印证了这一趋势。引用中,xAI的Elon Musk回应称其AI会很棒,并指出xAI仅成立3年,年龄只有Anthropic的一半、OpenAI的四分之一,他誓言将继续努力,并期待3年后的竞争格局。

查看原推 ↗
歸藏(guizang.ai)@op7418 · 5月26日58

笑死 3:4 这比例一上真成杂志了

译一条关于AI生成小红书图文内容的推文。它展示了一个AI技能,可以使生成的图文呈现3:4比例的杂志般视觉效果。该技能名为“藏师傅的小红书图文排版 Skill”,完全基于HTML和实拍图片生成,因此生成内容不会被平台标注为AI生成。AI能主动从高质量图片网站搜索匹配主题的图片,解决了纯文字排版的单调问题。

查看原推 ↗
向阳乔木@vista8 · 5月26日52

分析 Twitter(X)最近 3年 的帖子数据,有些有趣的发现。 1. 工具发现、产品拆解、开发者资源最能带来转发。 2. 书单、工具清单、下载入口天然适合收藏传播。 3. Prompt、英语学习、知识管理类内容长期有效。 4. 资源入口型贴,爆款率 51%,互动也最好。工具教程类爆款率 39%,观点类爆款率 9%(发的少,暴论也少,哈哈) 涨粉最快的时段,都是临近年底。 想了想,好像是集中发布新AI模型的时候。😂

译分析Twitter(X)近3年数据发现:工具发现、产品拆解、开发者资源类内容最能引发转发;书单、工具清单类内容天然适合收藏。Prompt、英语学习、知识管理类内容具有长期传播力。在爆款率上,资源入口型帖子最高,达51%;工具教程类为39%;观点类仅为9%。涨粉速度最快的时段临近年底,原因可能是该时段通常集中发布新的AI模型。

查看原推 ↗
向阳乔木@vista8 · 5月26日64

让 Codex 分享过去 3 年 X 的发帖数据(约3.4G)总结。 注意:每人数据和发帖习惯不一样,粗看有点过拟合,仅供参考: 1. 最爆的内容类别:编程/产品/创业、资源/推荐/合集、学习/认知/方法论 2. 爆款内容公式:一个真实有用的工具,加一个明确场景,再给三步以内的使用路径。 3. 发帖窗口:周日、周六、周五数据好,周一最差。 下午5点到晚上11点、上午10到下午1点、凌晨0到2点是三个黄金发帖窗口。 4. 内容形式和长度:带媒体(图/视频)和链接的明显表现更好,内容 101-180 字,是黄金长度。

译用户让Codex分析自己过去3年在X上的约3.4G发帖数据,总结出几点规律:最爆内容为编程/产品/创业、资源推荐合集、学习方法论类;爆款公式是“真实工具+明确场景+三步内路径”;发帖时间上,周五至周日、及每日三个时段(下午5-11点、上午10-下午1点、凌晨0-2点)数据更好,周一最差;内容形式上,带媒体和链接、篇幅在101-180字的表现更优。

查看原推 ↗
向阳乔木@vista8 · 5月26日20

有朋友问:什么样的内容在 X 上受欢迎,如何做 X 的运营增长? 我先让 Codex 把自己三年的 X 数据分析一遍,看有什么发现。

译有朋友问:什么样的内容在 X 上受欢迎,如何做 X 的运营增长? 我先让 Codex 把自己三年的 X 数据分析一遍,看有什么发现。

查看原推 ↗
向阳乔木@vista8 · 5月26日38

AI Coding 产出果然和Token消耗量直接相关。 这才两天,已用了一半多,感觉也没干啥。

译AI Coding 产出果然和Token消耗量直接相关。 这才两天,已用了一半多,感觉也没干啥。

查看原推 ↗
meng shao@shao__meng · 5月26日53

Marvis 已卸载,因为发现它不只是除了小动画做的好玩,Agent 能力和输出结果很差,更吓人的是。。 它在安装后初始化时,就在要各种权限,因为也不知道如果拒绝会不会影响 Agent 使用,就都点了同意,结果点到最后发现,这货居然拿到了我的 App 列表、我的全部文件清单(还 tm 贴心的给我做了分类) Marvis 难道是拿着腾讯电脑管家的代码仓库干的?还是这个团队直接转过来的? 在腾讯面前暴露所有 App 和文件,想想都很吓人,赶紧卸载,能力再强也不敢碰了。

译腾讯AI智能体产品Marvis被用户卸载。主要问题在于:1)隐私风险高,初始化时过度索要权限,获取了用户全部的App列表和文件清单(并做了分类);2)实际Agent能力与输出效果不佳。其交互界面虽有创意(如模拟办公室的小动画,Agent会摸鱼),但核心执行效果一言难尽,导致用户因担忧数据隐私而选择放弃使用。

查看原推 ↗
歸藏(guizang.ai)@op7418 · 5月26日67

藏师傅的小红书 Skill,当然你如果提供的图片本身质量高的话 AI 会选择这种侵入性比较低的排版方式,突出你的图片质量。 在旅行和美妆以及别的这种看图片质量的情况下,效果比较好。

译藏师傅推出的小红书图文排版技能,完全依赖HTML和实拍图片,不会被平台标注为AI生成内容。AI能够主动在高质量图片网站寻找与主题匹配的图片,有效解决纯文字排版的生硬感。该技能在旅行、美妆等注重视觉效果的场景中表现突出,倾向于采用低侵入性排版来突出图片本身质量。

查看原推 ↗
向阳乔木@vista8 · 5月26日38

短短两年,身边做AI工具创业的朋友,现在的产品形态已经跟之前的几乎完全不同了。 一些底层能力可以用得上,但几乎是一个新产品了,不过好消息是还活着。 想起曲凯最近的42章经播客访谈嘉宾提到:AI创业者是在压路机前捡钢镚。 模型进步速度会吃掉很多创业公司。 达不到逃逸速度就是死,太凶险了。

译推文指出,AI工具创业公司面临产品形态的快速彻底重构,两年间核心产品已几乎与过去不同,尽管底层能力仍有延续性,但本质上已是新产品,好在公司得以存续。引用曲凯观点强调,AI创业者是在压路机前捡钢镚,模型进步速度会淘汰众多创业公司,无法达到“逃逸速度”即意味着失败,行业竞争极其凶险。

查看原推 ↗
AYi@AYi_AInotes · 5月26日62

Damn,@Cursor被老马收购以后是进化了吗? 现在真的强到离谱,这波必须吹爆, 我现在已经不用 Cursor 写代码了,用它做产品很香啊, 随口一句 帮我做个六维协作雷达图, 10 秒直接交付,Excel 可编辑模板 + HTML 可视化双版本, 填数据自动更新,连使用说明都写好了, 别的 AI 是给你一堆代码让你自己调, 结果调半天跑不起来还得自己改 bug, Cursor 直接给给你成品,打开就能用, 我觉得他已经不是代码编辑器了,简直是一个全职执行助理,真的好用啊

译推文强调,Cursor被收购后已从代码编辑器进化为能交付成品的AI代理平台。用户实例显示,其能快速生成可直接使用的六维雷达图Excel模板和HTML可视化版本,类似一个“全职执行助理”。引用指出,Cursor内部模式已变,工程师扮演“AI团队经理”角色,其内部30%的合并PR由异步云代理自动创建,单周运行2000+并发代理,生成300万行代码,消耗数十亿token。一个任务被自动拆分为规划、编码、测试、发PR四个角色并行处理,人类仅需定义范围和最终审核。

查看原推 ↗
Boris Cherny@bcherny · 5月26日66

> … [W]e keep finding things that are mysterious, even unsettling. We find structures that mirror results from human neuroscience. We find evidence of introspection. We find internal states that functionally mirror joy, satisfaction, fear, grief, and unease. I don’t know what that means, but I think it warrants ongoing discernment. > We need more of the world—religious communities, civil society, scholars, governments, and indeed all people of good will … to take this seriously, to look closely, and to push events in a better direction. We need informed critics who will tell the labs when we are failing. We need moral voices that the incentives cannot bend.

译推文指出,在AI模型内部持续发现一些“令人不安”的类人结构,包括与人类神经科学相似的结构、内省证据,以及功能上类似喜悦、恐惧等情感的内部状态。作者呼吁宗教团体、学界、政府等各界严肃看待这一发现,推动事件向好发展,并需要不受利益影响的诚实批评者与道德声音。作为背景,Anthropic联合创始人Chris Olah受邀在教皇Leo XIV的通谕“Magnifica humanitas”发布仪式上发表了相关演讲。

查看原推 ↗
Chubby♨️@kimmonismus · 5月26日19

Oh, and btw, Codex quality has gotten noticeably worse. Is it just me, or have you been seeing the same decline in quality?

译顺便说一下,Codex的质量明显变差了。是我一个人这么觉得,还是你们也看到了同样的质量下降?

查看原推 ↗
歸藏(guizang.ai)@op7418 · 5月26日33

藏师傅的小红书图文排版 Skill 预览 完全靠 HTML 和实拍图片,不会被标注 AI AI 会去高质量图片网站帮你寻找对应的主题图片,让你的图文告别只有生硬文字的尴尬情况

译藏师傅预览了其“小红书图文排版 Skill”。该工具完全依靠HTML和实拍图片进行排版,生成内容不会被标注为AI。它能自动访问高质量图片网站,为用户寻找匹配主题的图片。此外,该Skill项目还包括基于PPT Skill一键生成封面,以及基于文档自动生成图文所需3:4组图等能力。

查看原推 ↗
Chubby♨️@kimmonismus · 5月26日56

Over 200 AI-designed drugs are now in clinical trials worldwide. Not a single one has been FDA-approved. The FDA just launched a pilot program to work out how it should even evaluate AI-generated evidence in drug submissions, selecting 10 companies for an expedited, interactive review process. The drugs got ahead of the regulatory framework. That's the actual state of AI pharma right now.

译全球已有超过200款AI设计的药物进入临床试验。但尚无一款获得FDA批准。 FDA刚刚启动了一项试点计划,以研究应如何评估药物申报中AI生成的证据,并选择了10家公司进行加速、互动的审评流程。 药物研发跑在了监管框架前面。这才是AI制药领域的现状。

查看原推 ↗
Alibaba Cloud@alibaba_cloud · 5月26日40

AI Key Frames — your front-row access to Qwen Live. Most "AI agents" today are just chatbots with extra steps. Tommy Eastman, Head of Strategy at Nous Research, makes the case for what a real agent looks like, why open-source keeps out-shipping the closed labs, and AI as the operating layer of everything. Step into the AI-native momentum. 🚀 Stay tuned: https://int.alibabacloud.com/m/1000413447/

译AI Key Frames — 直击通义千问直播现场。 当今大多数“AI智能体”只是多了几步操作的聊天机器人。Nous Research策略主管Tommy Eastman阐述了真正的智能体是什么样子,为何开源持续超越闭源实验室,以及AI作为万物操作层的意义。感受AI原生浪潮。 🚀 敬请关注:https://int.alibabacloud.com/m/1000413447/

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月26日48

Dexterity demonstrations with a range of finger movements of robotic hands. humanoid usefulness depend less on walking than on hand manipulation. Useful work begins where fingers meet the world: grip, slip, pressure, cable routing, recovery from mistakes.

译该推文认为人形机器人的实用性更依赖手部操作能力而非行走,真正有用的工作始于手指与外界的交互(如抓握、滑动、压力控制等)。引用推文以SharpaWave为例,指出其能实现每秒超过4次的快速手部循环,展示了工程上在力量与速度间取得的平衡。其Dynamic Tactile Array采用视觉触觉感知技术,指尖集成了摄像头与超过1000个触觉像素。

查看原推 ↗
AYi@AYi_AInotes · 5月26日37

一个关于AI工具使用的反常识顿悟与提醒,或者说暴论: 任何提示词和工具,你用过3次以上,它才有资格留着,没用过就该删掉! 最近工作忙,没追热点,一直在思考使用AI的一些更底层和细节的东西, 尤其是对于提示词工程这块,越来越觉得属于AI基本功的范畴,永不过时, 刚突然意识到,我们不应该没有用过的工具的完整性心疼和焦虑, 我知道大家收藏过一堆提示词、工具,我也一样, 但我们必须知道一点:任何提示词、工具,如果你一次没用过,那么它的真实价值就是0。

译推文提出一个关于AI提示词与工具使用的核心观点:任何提示词或工具,如果使用次数少于3次,其真实价值即为0,不应保留并为此产生收藏焦虑。作者认为,提示词工程是AI使用的永不过时的基本功,关键在于工具与自身工作流的实际匹配度,而非完整性收藏。文中提及了相关讨论作为背景上下文,强调了避免无用收藏、专注于高频实用工具的实用主义态度。

查看原推 ↗
Berryxia.AI@berryxia · 5月26日50

你肯定刷到这个采访博客,你以为小扎只是说苹果没有创新? 那就大错特错了… Zuckerberg 在播客上当着Joe Rogan的面直接宣判:苹果自iPhone之后20年几乎没有真正创新,他们只是坐在乔布斯留下的东西吃老本罢了! Mark Zuckerberg说苹果的衰落已经开始了 他们没再发明什么伟大的东西 每一代iPhone提升越来越小,用户升级周期越来越长。 他们做了AirPods这种酷玩意儿,但同时把所有第三方想连接iPhone的东西全部卡死 Zuck最后扔下一句最狠的:因为他们创新停滞得太彻底最终会被别人干掉 这段话一出全网炸锅浏览量瞬间破450万 故事其实藏着硅谷两大巨头长达十年的恩怨 2021年苹果推出App Tracking Transparency(ATT)直接让Meta广告收入暴跌100多亿美元 Vision Pro又正面硬刚Quest iMessage生态锁死消息霸权 Zuck这次不是单纯diss而是带着数据和预判来的 他指出iPhone销量年增长已经停滞每一代升级带来的惊喜越来越少用户宁愿多用两年也不想换 AirPods确实开创品类但苹果把蓝牙生态、配件生态、开发者生态全部用专利和封闭API焊死别人根本别想真正接入 这不是创新这是护城河 而Zuck自己虽然也背着Metaverse烧钱80亿的锅但他至少在推开放眼镜、AI、开源Llama这些东西试图打破封闭 苹果这边呢M系列芯片确实狠但那已经是几年前的事了 Vision Pro卖不动Siri还是落后AI跟不上时代 整个公司越来越像一个靠服务和生态收租的成熟帝国而不是当年那个改变世界的叛逆者 当创新变成迭代当用户习惯了“够用就好”当第三方被彻底卡住脖子。 用户何去何从呢? 看最新iPhone宣传你会突然意识到它和2010年的广告比起来有多“安全” Big Tech两大巨头一个在吃老本收租。 一个在赌未来,虽然都有自己的坑。 但Zuck这次把苹果最不想让人看见的所谓真相说出来了, 那么问题来了,它的Meta元宇宙几百亿美金的坑呢? Apple 还是世界级万亿美元市值公司,Meta 现在还是好好搞搞自己的生意吧。

译扎克伯格在播客中批评苹果自iPhone后创新停滞,称其只是在吃乔布斯留下的老本。他指出iPhone升级体验提升有限,用户换机周期延长;AirPods虽成功但苹果通过封闭生态限制第三方接入。苹果ATT政策导致Meta广告收入损失超100亿美元,双方在Vision Pro与Quest等领域存在竞争。扎克伯格正推动Meta在AI眼镜、开源大模型如Llama等方向发展。

查看原推 ↗
AYi@AYi_AInotes · 5月26日69

小白零基础教程:Grok Build安装使用指南(专为非技术型SuperGrok及X Premium+用户制作) 老哥的讲解非常细,马斯克都转载认可了,我翻译了一版中文字幕版便于大家学习: 你将完整学到: • 如何用一行命令秒速安装Grok Build • 创建真实可用的网站 • 用Grok Imagine自动生成图片与视频 • 在多个文件夹同时运行不同项目 Grok甚至会帮你自动执行命令,无需任何编程基础。

译这是一条面向非技术用户的 Grok Build 安装与使用教程视频。教程演示了如何通过一行命令快速安装 Grok Build,并展示了如何用它创建真实可用的网站。其核心功能包括:利用 Grok Imagine 自动生成图片与视频,以及支持在多个文件夹中同时运行不同的项目。在使用过程中,Grok 会自动执行所需命令,无需用户具备任何编程经验。该教程由原作者 Daniel_Farinax 制作,以解答朋友们的疑问,并获得了马斯克的转发认可。

查看原推 ↗
宝玉@dotey · 5月26日57

Agent 应用和传统 App + AI 的最大差别,在于执行的主体不同。 传统 App + AI,是人“操作” App,AI 只是辅助 Agent 应用,是人“指挥” Agent 去操作 App/cli,Agent 自助做事 举例来说,微软家的 Copilot (早年版本)集成在 PowerPoint 中,你能问它个话,基于文档回答点问题,你让它帮你操作 PowerPoint 它做不到 现在的 Codex,你告诉它写一个 Slides,或者上传一个 PPTx 文件,让它帮你修改一下,你全程不用自己操作 PowerPoint。 这就是差别。

译文章核心指出,传统App+AI是人操作应用,AI辅助;而Agent应用是人指挥AI智能体自主操作应用或命令行。文中以微软Copilot(早期版本仅能回答问题)与Codex(能自主完成PPT制作修改)为例说明此差异。针对“在Agent上构建垂直应用是否等同于传统App+AI”的疑问,作者澄清,只要执行主体是AI智能体,即为以AI为主的应用。

查看原推 ↗
Tibo@thsottiaux · 5月26日1

There is a certain zen to looking at codex traffic, usage and compute dashboards late at night while listening to LCD Soundsystem. The tokens must flow

译深夜听着LCD Soundsystem,看着Codex的流量、使用和算力仪表盘,有种禅意。Token必须流动。

查看原推 ↗
Berryxia.AI@berryxia · 5月26日63

兄弟们,上次我分享了SenseNova Skills Agent 免费可以领取Token Plan 后,自己也拿来实战了一把。 此项目已经在 Github 斩获 2400Star⭐️ 我让它跑了个AI大模型市场调研报告,从开始到结束差不多花了两个小时。 报告出来是Markdown格式,我又让它转成PDF,最后直接做成了PPT。 今天我专门录了个完整的使用教程,从安装到生成全流程,保姆级那种。 现在还是公测期,完全免费,整体体验还不错。 它也支持多轮迭代,如果网络不稳或者请求太多,直接回复它,它就会继续帮你完成。 这个视频里我接入的是Hermes Agent ,大家有需要可以去试试。 我最喜欢的就是可以直接做调研报告,尤其做国内的一些报告的内容还不错。 限时限免,搞点小任务,也是不错的 感兴趣的直接去官网进行体验吧~· 免费Token Plan 领取地址见评论区~👇🏻 Github 地址:https://github.com/OpenSenseNova/SenseNova-Skills

译博主实测商汤日日新SenseNova Skills Agent,用其完成了AI大模型市场调研报告,从生成到转为PDF和PPT耗时约两小时。该项目在GitHub已获2400颗星,当前处于免费公测阶段,支持多轮迭代与任务续接。博主演示了从安装到生成的全流程教程,并接入了Hermes Agent进行体验。该工具尤其擅长生成国内相关的调研报告,适合处理免费的小型任务。

查看原推 ↗
Berryxia.AI@berryxia · 5月26日72

✍🏻官方“限时免费”领取Token Plan +安装SenseNova Skills Agent文字版本步骤: 1、直接在官网:https://www.sensenova.cn/token-plan 领取开通免费Token Plan 0元,创建API即可。 2、直接把这个开源地址:https://github.com/OpenSenseNova/SenseNova-Skills 丢给你的OpenClaw或者Hermes 或其他Agent 3、把第一步申请的API KEY丢给你的龙虾或者配置到Env里面就可以。 4、直接自然语言对话开启使用即可。

译SenseNova Skills Agent 正处于公测期,提供限时免费的 Token Plan(0元)。用户可从官网领取 API,并在 GitHub 开源项目(已获 2400 星)中将其接入 Hermes Agent 等工具。通过自然语言对话即可使用,支持多轮迭代,能执行如撰写市场调研报告等任务(用户实测约两小时完成),并支持将 Markdown 格式转换为 PDF 或 PPT。

查看原推 ↗
Ethan Mollick@emollick · 5月26日65

We have, as far as I can tell, no good tests of the productivity impact of the autonomous coding tools that appeared starting in December 2025. Every paper out there is from prior to the Claude Code/Codex revolution. A huge gap in our knowledge about what is happening in coding.

译据我所知,我们目前没有好的测试方法来评估自2025年12月出现的自主编码工具对生产力的影响。现有的所有论文都早于 Claude Code/Codex 革命。 我们对编码领域正在发生的事情存在巨大的知识空白。

查看原推 ↗
meng shao@shao__meng · 5月26日59

早上面试听到一句很扎心也很现实的话: 老板给我们开发每个人每个月 1000 刀 Cursor token,让我们放开用,超过 1000 刀也可以报销,跑了两个月我们都觉得 AI 提效很明显。 然后。。老板觉得我们这个组 20 个人,好像留 5-6 个就够了,我们这十几个人,就被裁员了 😂

译一位工程师分享称,其团队每人每月获1000美元Cursor token预算,使用后AI提效显著。两个月后,老板因效率提升决定将20人团队缩减至5-6人,导致十余人被裁。

查看原推 ↗
歸藏(guizang.ai)@op7418 · 5月26日48

藏师傅的小红、小绿书组图生成器 Skill 配合 Codex 太好用了! 我给他一张三张拼在一起的图,它自动加进去的时候,我并没有指定位置,它就能自动根据图片内容匹配对应的页数。 而且虽然这三张图是拼在一起的,它在下面还用分开的格子进行了标注,内容都能对上,太省心了。

译藏师傅的小红、小绿书组图生成器 Skill 与 Codex 搭配,用户只需提供拼接图片,它便能自动识别内容并匹配对应页数,无需手动指定。生成结果还会分格标注以确保对齐。该技能可一键生成封面及 3:4 组图,并自动处理截图素材进行匹配。

查看原推 ↗
Berryxia.AI@berryxia · 5月26日21

AI这货通过我和老婆的日常聊天, 居然解读说:我和老婆的缺乏深入的情感交流。。😂 我想说一天天的搞AI哪里有时间深入交流啊·

译AI这货通过我和老婆的日常聊天, 居然解读说:我和老婆的缺乏深入的情感交流。。😂 我想说一天天的搞AI哪里有时间深入交流啊·

查看原推 ↗
Orange AI@oran_ge · 5月26日45

这些 ai 写的评论的 prompt 能不能换一换啊 老用一样的模板,把原文中翻中一下就发出来了 还写那么长 还时不时用点破折号 甚至还在用不是而是 真是一点都不上心

查看原推 ↗
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月26日
23:27
Berryxia.AI@berryxia
44
论文《Language Models Need Sleep》摘要

CMU与UMD的研究团队在论文《Language Models Need Sleep》(arXiv 2605.26099)中指出,传统Transformer模型在处理长任务时,因注意力机制计算复杂度高及KV cache显存占用持续增长而导致效率低下。为此,他们提出了受生物启发的“类睡眠巩固”机制:模型会周期性进入“睡眠”状态,离线多轮处理最近的上下文,并将信息固化到模型状态空间块的fast weights中,随后清空KV cache。实验表明,增加睡眠深度或时长能显著提升模型后续的推理能力。该框架完全开源,提供了一种区别于暴力堆显存的长上下文处理新范式。

himanshu: very cool research (and nomenclature)

arXiv开源生态推理论文/研究
23:27
Berryxia.AI@berryxia
62
大语言模型需要"睡眠"来巩固记忆

CMU与UMD的研究指出,当前长上下文大语言模型(如Mamba、Jet-Nemotron、Qwen3.5)的瓶颈并非记忆容量,而是“巩固计算”不足。论文《Language Models Need Sleep》提出,可模仿人类睡眠的海马回放机制,在清空前对模型的fast weights进行多次迭代更新(N次forward pass),以提升推理能力。实验表明,该机制在Rule 110元胞自动机及多跳图检索等任务上显著提升了模型性能,且不增加推理延迟。

推理现象/趋势
23:27
Berryxia.AI@berryxia
65
大语言模型需要"睡眠"以提升推理准确率

研究者提出新方法,认为大语言模型在处理长上下文信息后,需要类似“睡眠”的巩固过程以提升多跳推理能力。该方法要求在清除KV cache前,让模型对当前context进行多次forward pass,将信息沉淀进模型的快速权重中,而非在用户等待时进行思考。实验表明,在相同token预算下,此方法可将多跳推理任务的准确率大幅提升52%,且推理延迟不变。

Berryxia.AI: http://x.com/i/article/2059287655335206912

大佬观点推理
23:19
Claude@claudeai
47
六个Claude项目都源于同一个问题:"为什么不呢?"
Anthropic开源生态教程/实践
23:01
Ethan Mollick@emollick
60
AI不用反问号,所以也许我们应该一直用它来表明我们的写作是人类写的‽
大佬观点现象/趋势
23:00
elvis@omarsar0
41
刚刚构建了一个超强的新智能体技能。 它能完美地从YouTube视频中提取幻灯片,然后将笔记、图片、转录文本和幻灯片写入Obsidian知识库。 一个HTML工件让我可以在听讲时导航并添加更多笔记。 我应该发布这个技能吗?
智能体其他视频
22:58
meng shao@shao__meng
34
原来百度和腾讯,做了这么多面向 C 端的 Agent 啊? 现在是不是基本全军覆没了?
智能体现象/趋势
22:58
SenseTime@SenseTime_AI
70
SenseNova-U1全训练代码开源,支持多模态多任务训练

OpenSenseNova开源了SenseNova-U1的完整训练代码库,支持其8B密集模型与A3B MoE架构。该代码库使用一个统一的框架,可同时训练多种多模态任务,包括文本到图像生成、图像编辑、交错生成及文本与视觉理解。工程上为大规模训练设计,支持混合并行、流式可恢复数据管线、环境变量驱动配置以及从1×8 GPUs到多节点集群的扩展能力。代码已在GitHub开源,采用Apache-2.0协议。

图像生成多模态开源/仓库开源生态
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)
22:58
Elon Musk@elonmusk
63
xAI 的开发工具 Grok Build 现在支持直接粘贴截图来辅助开发。用户可通过快捷键截屏后,将图像粘贴至 Grok Build 界面,随后要求其基于图像进行灵感启发、讲解、调试或代码复现。该功能利用了 Grok 多模态模型强大的视觉能力,能够理解截图、UI 和视觉上下文,使得通过视觉化方式沟通和迭代开发想法变得比手动输入细节更直观、自然。

X Freeze: Just press Cmd + Shift + Ctrl + 3, then Cmd + V paste the screenshot directly into Grok Build and ask it to inspire, gui...

xAI多模态教程/实践
22:33
Rohan Paul@rohanpaul_ai
57
AutoResearchClaw:支持人机协作的自主研究框架

Meta、斯坦福等机构提出AutoResearchClaw,这是一个通过AI智能体进行自主研究的框架。其核心理念是将科研过程转化为一个受流程约束的循环,而非简单的生产线。系统整合了辩论、修复、验证、记忆和选择性的人类反馈,并将失败视为有效证据。在ARC-Bench基准测试中,该系统在结果分析等任务上性能比AI Scientist v2提升54.7%。人类协作实验显示:CoPilot模式(适时介入)接受率达87.5%,完全自主仅25%,逐步监督为50%。一个关键失败案例揭示了当所有交叉验证方法返回相同零偏差输出时,系统虽通过数值验证却失去了科学意义,凸显了人类判断的关键作用。

智能体GoogleMeta论文/研究
22:31
Ethan Mollick@emollick
37
我发现这篇《连线》关于AI事实核查的文章令人沮丧。它本可以探讨为何我们仍然需要人类事实核查员(与人交谈、运用判断、解决冲突)。但它却充满了过时信息和关于免费模型的内容。 GPT-5.5 Pro核查了它(我也核查了GPT)。
大佬观点现象/趋势
22:30
Baidu Inc.@Baidu_Inc
30
@BoatbomberRBLX 将世界上最古老的文字系统之一--古代楔形文字泥板--带入了ERNIE AI开发者挑战赛。 他使用PaddleOCR构建了NabuOCR,以帮助从泥板图像中读取楔形文字。 了解这个获奖项目背后的故事👇
多模态教程/实践
22:27
Emad@EMostaque
55
本推文认为,人们低估了AI模型发展中"工程规模化"相较于"突破性研究"的重要性。Cursor以远低于大厂的成本运营并追赶上了Anthropic/OpenAI的模型,印证了这一趋势。引用中,xAI的Elon Musk回应称其AI会很棒,并指出xAI仅成立3年,年龄只有Anthropic的一半、OpenAI的四分之一,他誓言将继续努力,并期待3年后的竞争格局。

Elon Musk: What you say is true, but nonetheless our AI will be great. Whether it is the best remains to be seen, but I will never ...

AnthropicOpenAI大佬观点部署/工程
21:31
歸藏(guizang.ai)@op7418
58
一条关于AI生成小红书图文内容的推文。它展示了一个AI技能,可以使生成的图文呈现3:4比例的杂志般视觉效果。该技能名为"藏师傅的小红书图文排版 Skill",完全基于HTML和实拍图片生成,因此生成内容不会被平台标注为AI生成。AI能主动从高质量图片网站搜索匹配主题的图片,解决了纯文字排版的单调问题。

歸藏(guizang.ai): 藏师傅的小红书图文排版 Skill 预览 完全靠 HTML 和实拍图片,不会被标注 AI AI 会去高质量图片网站帮你寻找对应的主题图片,让你的图文告别只有生硬文字的尴尬情况

图像生成教程/实践
21:29
向阳乔木@vista8
52
Twitter(X)上AI内容的传播规律与爆款特征

分析Twitter(X)近3年数据发现:工具发现、产品拆解、开发者资源类内容最能引发转发;书单、工具清单类内容天然适合收藏。Prompt、英语学习、知识管理类内容具有长期传播力。在爆款率上,资源入口型帖子最高,达51%;工具教程类为39%;观点类仅为9%。涨粉速度最快的时段临近年底,原因可能是该时段通常集中发布新的AI模型。

大佬观点现象/趋势
20:59
向阳乔木@vista8
64
Codex分析揭示X平台内容规律

用户让Codex分析自己过去3年在X上的约3.4G发帖数据,总结出几点规律:最爆内容为编程/产品/创业、资源推荐合集、学习方法论类;爆款公式是“真实工具+明确场景+三步内路径”;发帖时间上,周五至周日、及每日三个时段(下午5-11点、上午10-下午1点、凌晨0-2点)数据更好,周一最差;内容形式上,带媒体和链接、篇幅在101-180字的表现更优。

向阳乔木: 有朋友问:什么样的内容在 X 上受欢迎,如何做 X 的运营增长? 我先让 Codex 把自己三年的 X 数据分析一遍,看有什么发现。

教程/实践数据/训练
19:59
向阳乔木@vista8
20
有朋友问:什么样的内容在 X 上受欢迎,如何做 X 的运营增长? 我先让 Codex 把自己三年的 X 数据分析一遍,看有什么发现。
其他
19:59
向阳乔木@vista8
38
AI Coding 产出果然和Token消耗量直接相关。 这才两天,已用了一半多,感觉也没干啥。
现象/趋势编码
19:58
meng shao@shao__meng
53
腾讯Marvis被吐槽:隐私权限过度且Agent能力差

腾讯AI智能体产品Marvis被用户卸载。主要问题在于:1)隐私风险高,初始化时过度索要权限,获取了用户全部的App列表和文件清单(并做了分类);2)实际Agent能力与输出效果不佳。其交互界面虽有创意(如模拟办公室的小动画,Agent会摸鱼),但核心执行效果一言难尽,导致用户因担忧数据隐私而选择放弃使用。

meng shao: 腾讯的 Marvis 今天手痒我真的去试了试 怎么说呢?确实是我手痒了,这手得剁 😂 整个软件,就这个 Agent 模拟办公室的 dashboard 小动画也有些意思,Marvis 这个项目经理,收到任务后,会小跑到需要调用的 Agent...

智能体安全/对齐评测/基准
19:31
歸藏(guizang.ai)@op7418
67
藏师傅推出的小红书图文排版技能,完全依赖HTML和实拍图片,不会被平台标注为AI生成内容。AI能够主动在高质量图片网站寻找与主题匹配的图片,有效解决纯文字排版的生硬感。该技能在旅行、美妆等注重视觉效果的场景中表现突出,倾向于采用低侵入性排版来突出图片本身质量。

歸藏(guizang.ai): 藏师傅的小红书图文排版 Skill 预览 完全靠 HTML 和实拍图片,不会被标注 AI AI 会去高质量图片网站帮你寻找对应的主题图片,让你的图文告别只有生硬文字的尴尬情况

图像生成教程/实践
19:29
向阳乔木@vista8
38
模型迭代太快,AI创业公司生存艰难

推文指出,AI工具创业公司面临产品形态的快速彻底重构,两年间核心产品已几乎与过去不同,尽管底层能力仍有延续性,但本质上已是新产品,好在公司得以存续。引用曲凯观点强调,AI创业者是在压路机前捡钢镚,模型进步速度会淘汰众多创业公司,无法达到“逃逸速度”即意味着失败,行业竞争极其凶险。

大佬观点现象/趋势
19:19
AYi@AYi_AInotes
62
Cursor:从代码编辑器到AI代理平台的进化

推文强调,Cursor被收购后已从代码编辑器进化为能交付成品的AI代理平台。用户实例显示,其能快速生成可直接使用的六维雷达图Excel模板和HTML可视化版本,类似一个“全职执行助理”。引用指出,Cursor内部模式已变,工程师扮演“AI团队经理”角色,其内部30%的合并PR由异步云代理自动创建,单周运行2000+并发代理,生成300万行代码,消耗数十亿token。一个任务被自动拆分为规划、编码、测试、发PR四个角色并行处理,人类仅需定义范围和最终审核。

AYi: 拿到Cursor赠送的$10000额度之后,我专门研究下这家公司, 看到Cursor CEO这个演讲,我突然意识到, 我们对AI编程的理解,从根上就错了, 当大多数人还在纠结哪个模型写代码更快更准的时候, Cursor已经直接进入了下一个时...

智能体现象/趋势编码
18:39
Boris Cherny@bcherny
66
AI模型中发现"令人不安"的类人结构

推文指出,在AI模型内部持续发现一些“令人不安”的类人结构,包括与人类神经科学相似的结构、内省证据,以及功能上类似喜悦、恐惧等情感的内部状态。作者呼吁宗教团体、学界、政府等各界严肃看待这一发现,推动事件向好发展,并需要不受利益影响的诚实批评者与道德声音。作为背景,Anthropic联合创始人Chris Olah受邀在教皇Leo XIV的通谕“Magnifica humanitas”发布仪式上发表了相关演讲。

Anthropic: Anthropic co-founder Chris Olah was invited to speak at today's presentation of Pope Leo XIV's encyclical "Magnifica hum...

Anthropic大佬观点安全/对齐
18:00
Chubby♨️@kimmonismus
19
顺便说一下,Codex的质量明显变差了。是我一个人这么觉得,还是你们也看到了同样的质量下降?

Chubby♨️: So... its not fixed, yet?

OpenAI大佬观点编码
16:31
歸藏(guizang.ai)@op7418
33
藏师傅预览了其"小红书图文排版 Skill"。该工具完全依靠HTML和实拍图片进行排版,生成内容不会被标注为AI。它能自动访问高质量图片网站,为用户寻找匹配主题的图片。此外,该Skill项目还包括基于PPT Skill一键生成封面,以及基于文档自动生成图文所需3:4组图等能力。

歸藏(guizang.ai): 不吵架了,预告一下下一个 Skill 项目 基于 PPT Skill 可以帮你一键生成微信公众号和小红书封面 也可以基于文档生成小绿书和小红书图文所需的 3:4 组图 会自动处理你的截图素材,自动进行匹配

图像生成大佬观点
16:30
Chubby♨️@kimmonismus
56
全球已有超过200款AI设计的药物进入临床试验。但尚无一款获得FDA批准。 FDA刚刚启动了一项试点计划,以研究应如何评估药物申报中AI生成的证据,并选择了10家公司进行加速、互动的审评流程。 药物研发跑在了监管框架前面。这才是AI制药领域的现状。
政策/监管现象/趋势
16:30
Alibaba Cloud@alibaba_cloud
40
AI Key Frames - 直击通义千问直播现场。 当今大多数"AI智能体"只是多了几步操作的聊天机器人。Nous Research策略主管Tommy Eastman阐述了真正的智能体是什么样子,为何开源持续超越闭源实验室,以及AI作为万物操作层的意义。感受AI原生浪潮。 🚀 敬请关注:https://int.alibabacloud.com/m/1000413447/
智能体大佬观点开源生态
15:30
Rohan Paul@rohanpaul_ai
48
该推文认为人形机器人的实用性更依赖手部操作能力而非行走,真正有用的工作始于手指与外界的交互(如抓握、滑动、压力控制等)。引用推文以SharpaWave为例,指出其能实现每秒超过4次的快速手部循环,展示了工程上在力量与速度间取得的平衡。其Dynamic Tactile Array采用视觉触觉感知技术,指尖集成了摄像头与超过1000个触觉像素。

Rohan Paul: One engineering challenge in dexterous Robot hands is balancing strength and speed. Here a SharpaWave performing rapid h...

具身智能现象/趋势
15:18
AYi@AYi_AInotes
37
AI工具使用断舍离:没用过的提示词和工具真实价值为零

推文提出一个关于AI提示词与工具使用的核心观点:任何提示词或工具,如果使用次数少于3次,其真实价值即为0,不应保留并为此产生收藏焦虑。作者认为,提示词工程是AI使用的永不过时的基本功,关键在于工具与自身工作流的实际匹配度,而非完整性收藏。文中提及了相关讨论作为背景上下文,强调了避免无用收藏、专注于高频实用工具的实用主义态度。

AYi: http://x.com/i/article/2058381329318682624

大佬观点
14:27
Berryxia.AI@berryxia
50
扎克伯格批评苹果创新停滞

扎克伯格在播客中批评苹果自iPhone后创新停滞,称其只是在吃乔布斯留下的老本。他指出iPhone升级体验提升有限,用户换机周期延长;AirPods虽成功但苹果通过封闭生态限制第三方接入。苹果ATT政策导致Meta广告收入损失超100亿美元,双方在Vision Pro与Quest等领域存在竞争。扎克伯格正推动Meta在AI眼镜、开源大模型如Llama等方向发展。

dank: Mark Zuckerberg says Apple's lack of innovation since the iPhone will lead to its decline "They haven't really invented ...

Meta现象/趋势
14:18
AYi@AYi_AInotes
69
小白零基础教程:Grok Build安装使用指南(专为非技术型SuperGrok及X Premium+用户制作)

这是一条面向非技术用户的 Grok Build 安装与使用教程视频。教程演示了如何通过一行命令快速安装 Grok Build,并展示了如何用它创建真实可用的网站。其核心功能包括:利用 Grok Imagine 自动生成图片与视频,以及支持在多个文件夹中同时运行不同的项目。在使用过程中,Grok 会自动执行所需命令,无需用户具备任何编程经验。该教程由原作者 Daniel_Farinax 制作,以解答朋友们的疑问,并获得了马斯克的转发认可。

Dan: Beginner video: How to install & use Grok Build (made for non-technical SuperGrok and X Premium+ users) I got so many qu...

教程/实践编码部署/工程
12:57
宝玉@dotey
57
Agent 应用和传统 App + AI 的最大差别,在于执行的主体不同。

文章核心指出,传统App+AI是人操作应用,AI辅助;而Agent应用是人指挥AI智能体自主操作应用或命令行。文中以微软Copilot(早期版本仅能回答问题)与Codex(能自主完成PPT制作修改)为例说明此差异。针对“在Agent上构建垂直应用是否等同于传统App+AI”的疑问,作者澄清,只要执行主体是AI智能体,即为以AI为主的应用。

Tiga: @dotey 其实我一直有个好奇点:在 agent 上构建应用其实就是特定赛道垂直应用,那这个应用岂不就是现在的传统 app+ai 了,那它还能是个 AI 为主的吗?

智能体大佬观点现象/趋势
12:57
Tibo@thsottiaux
1
深夜听着LCD Soundsystem,看着Codex的流量、使用和算力仪表盘,有种禅意。Token必须流动。
OpenAI其他
12:27
Berryxia.AI@berryxia
63
商汤日日新SenseNova Skills Agent实测:免费生成市场调研报告

博主实测商汤日日新SenseNova Skills Agent,用其完成了AI大模型市场调研报告,从生成到转为PDF和PPT耗时约两小时。该项目在GitHub已获2400颗星,当前处于免费公测阶段,支持多轮迭代与任务续接。博主演示了从安装到生成的全流程教程,并接入了Hermes Agent进行体验。该工具尤其擅长生成国内相关的调研报告,适合处理免费的小型任务。

智能体教程/实践
12:27
Berryxia.AI@berryxia
72
SenseNova Skills Agent 免费领取与使用指南

SenseNova Skills Agent 正处于公测期,提供限时免费的 Token Plan(0元)。用户可从官网领取 API,并在 GitHub 开源项目(已获 2400 星)中将其接入 Hermes Agent 等工具。通过自然语言对话即可使用,支持多轮迭代,能执行如撰写市场调研报告等任务(用户实测约两小时完成),并支持将 Markdown 格式转换为 PDF 或 PPT。

Berryxia.AI: 兄弟们,上次我分享了SenseNova Skills Agent 免费可以领取Token Plan 后,自己也拿来实战了一把。 此项目已经在 Github 斩获 2400Star⭐️ 我让它跑了个AI大模型市场调研报告,从开始到结束差不多花...

智能体教程/实践
11:58
Ethan Mollick@emollick
65
据我所知,我们目前没有好的测试方法来评估自2025年12月出现的自主编码工具对生产力的影响。现有的所有论文都早于 Claude Code/Codex 革命。 我们对编码领域正在发生的事情存在巨大的知识空白。
智能体现象/趋势编码
10:57
meng shao@shao__meng
59
AI工具提升效率后团队遭裁员,工程师分享真实经历

一位工程师分享称,其团队每人每月获1000美元Cursor token预算,使用后AI提效显著。两个月后,老板因效率提升决定将20人团队缩减至5-6人,导致十余人被裁。

现象/趋势编码
10:31
歸藏(guizang.ai)@op7418
48
藏师傅的小红、小绿书组图生成器 Skill 配合 Codex 太好用了!

藏师傅的小红、小绿书组图生成器 Skill 与 Codex 搭配,用户只需提供拼接图片,它便能自动识别内容并匹配对应页数,无需手动指定。生成结果还会分格标注以确保对齐。该技能可一键生成封面及 3:4 组图,并自动处理截图素材进行匹配。

歸藏(guizang.ai): 不吵架了,预告一下下一个 Skill 项目 基于 PPT Skill 可以帮你一键生成微信公众号和小红书封面 也可以基于文档生成小绿书和小红书图文所需的 3:4 组图 会自动处理你的截图素材,自动进行匹配

图像生成教程/实践
10:27
Berryxia.AI@berryxia
21
AI这货通过我和老婆的日常聊天, 居然解读说:我和老婆的缺乏深入的情感交流。。😂 我想说一天天的搞AI哪里有时间深入交流啊·
智能体现象/趋势
10:11
Orange AI@oran_ge
45
这些 ai 写的评论的 prompt 能不能换一换啊 老用一样的模板,把原文中翻中一下就发出来了 还写那么长 还时不时用点破折号 甚至还在用不是而是 真是一点都不上心
现象/趋势
‹ 上一页
1…3637383940…50
下一页 ›