我靠,Vibe Coding 太特么上头了... 但是,更上头的是我这该死的"强迫症" 下面这个片子,本来是我已经初步剪好的一个正片视频 demo 演示,但最终还是被我干掉了。 因为我发现还有一些细节内容需要打磨和提升,真的是绝了。 这个东...
我靠,Vibe Coding 太特么上头了... 但是,更上头的是我这该死的"强迫症" 下面这个片子,本来是我已经初步剪好的一个正片视频 demo 演示,但最终还是被我干掉了。 因为我发现还有一些细节内容需要打磨和提升,真的是绝了。 这个东...
异步强化学习中,训练器每步需将完整模型权重(如1T参数checkpoint约1 TB)传输给推理引擎。TRL新增PR利用相邻RL优化步骤间约99%的bf16权重比特相同的特点,仅将变化的权重编码为稀疏safetensors文件,上传至Hugging Face Bucket并通知vLLM获取。在Qwen3-0.6B上,每步传输从1.2 GB降至20–35 MB。实验还展示了完全分离的训练场景:训练器、vLLM和Wordle环境分别位于不同机器和Hugging Face Space中,权重通过单个Hub bucket流动,无需共享集群、RDMA或VPN。
OpenAI、Thrive 与 Crete 合作,使用 Codex 构建了一个自改进的税务智能体。该智能体能够自动处理报税流程,提升工作准确性并加速整体工作流。
关联讨论 1 条X:OpenAI Developers (@OpenAIDevs)Anthropic CEO Dario Amodei曾预测AI将在数年内大幅取代白领工作,但他本人近期已转向“杰文斯悖论”观点,即自动化最终会创造更多需求。OpenAI CEO Sam Altman也承认此前的预测“大错特错”。然而,耶鲁大学预算实验室自ChatGPT推出以来的持续追踪数据显示,美国职业结构并未发生显著变化,AI曝光度高的岗位失业率也未加速增长。德意志银行为此创造了“AI冗余清洗”一词。目前,AI能力的快速增长与实际就业市场反应之间,存在着前所未有的差距。
Uber首席运营官Andrew Macdonald对当前AI应用热潮中的“tokenmaxxing”现象提出质疑。他指出,当公司高调宣称上季度25%的代码提交由AI驱动或token使用量显著增长时,这些亮眼数据并未转化为实际的产品成功。他询问资深工程负责人是否有原本搁置的项目因此得以推进,得到的答复是否定的。这与Uber CEO Dara Khosrowshahi此前描绘的乐观图景形成对比:后者曾表示90%的工程师使用AI,其中头部30%的用户生产力获得前所未有的提升,并预测未来AI智能体和GPU算力的投资回报率将超越人类工程师。
Uber CEO Dara Khosrowshahi said earlier that currently, 90% of Uber's engineers use AI, but the top 30% (power users) ar...
一份由开发者“苍老师”撰写的免费开源Codex实战指南(CodexGuide)已发布,旨在帮助新手跳过入门门槛。手册按四层结构组织:认识入口、跑通任务、建立方法、团队沉淀,详细覆盖CLI入门、桌面端安装、Plus订阅,乃至通过ChatGPT App远程指挥Mac Mini等场景。目前,该指南已收录13个可直接复刻的实战案例,例如配合Draw.io自动绘制架构图、GitHub Actions CI失败自动修复、以及在Obsidian中搭建AI知识库。
http://x.com/i/article/2059577896449331201
近期两个事件表明,前沿模型在高级抽象层面的可靠推理能力已跨越临界点。一是Anthropic发布了Claude Mythos Preview,其网络攻防能力过强,因此未公开,仅开放给合作伙伴用于防御。二是OpenAI的内部通用推理模型成功推翻了数学家Paul Erdős提出的一个猜想。两者共同显示,模型稳定处理的推理单元已从句子层级跃升至能维持核心论点、建立逻辑结构的“段落”与“整篇论证”层级,标志着能力的关键跃迁。
http://x.com/i/article/2058529613370802177
本次价格调整源于模型架构与推理框架带来的结构性成本优势。推理框架层面,对SWA的层级KV cache优化使缓存容量提升5倍,相当于缓存成本降低80%,再结合混合模型中多个Full Attention模块的缓存读取重叠,进一步降低了实际成本。模型架构层面,MiMo-V2.5-Pro实现了极端的1:7 Full:SWA稀疏比例,其预填充计算量极低,使得原始推理成本远低于行业平均。因此,输入(缓存命中)价格最高降幅达99%,输入(缓存未命中)和输出价格降幅为60%-80%。此番调整是将效率提升直接让利给开发者,而非亏损运营。
外汇市场正从纯粹依赖直觉,转向一个由速度、数据和精确性塑造的领域。在日常交易中使用自动化系统(如 AI 交易机器人),可以在市场波动中保持交易纪律,这是手动交易难以做到的。交易的每一次入场和出场都可以基于明确的规则,而非个人情绪。
Box CEO Aaron Levie认为,科技CEO们是“AI精神病”的易感人群,这或许可以解释为何他们对AI带来的生产力提升抱有近乎宗教般的信念。
OpenAI 的 Sam Altman 和 Anthropic 的 Dario Amodei 均收回了此前关于 AI 将导致大规模失业的预测。两人改变说法的时机,恰逢其各自公司计划进行十亿美元级别的首次公开募股(IPO)前夕。
Phoronix发布了NVIDIA Vera CPU的首份公开基准测试。这款ARM架构数据中心处理器拥有88个Olympus核心,专为智能体AI(Agentic AI)所需的代码执行、工具调用与数据管道设计。测试数据显示,Vera编译Linux内核耗时20秒,为测试最快。其整体性能较Intel Xeon 6980P提升约1.55倍,较AMD EPYC 9575F平均领先约10%。内存方面,Vera采用LPDDR5X,提供高达1.2 TB/s的带宽,每核内存带宽是传统x86 CPU的4倍以上,且在STREAM TRIAD测试中达到了90%的峰值带宽利用率。与上一代Grace CPU相比,Vera性能平均提升1.63倍。该处理器预计于2026年H2出货给合作伙伴。
文章探讨了将 Claude Code 作为日常开发工具的实践,重点介绍了其核心配置文件 Claude.md、技能系统、子代理功能、插件扩展以及通过 MCP(模型上下文协议)进行集成的方法,旨在提升开发者的工作流效率。
蚂蚁集团CEO韩歆毅分享了对AI智能体时代的商业思考。他指出,核心逻辑正从流量经济转向以智能体生态繁荣度为核心的网络效应。智能体间的信任需通过一次次任务结果交付来建立。同时,所有价值将实现“Token化”,Token成为价值流转的新载体。AI支付被视为未来最关键的基础设施之一,涉及为智能体构建钱包、协议与清结算网络。蚂蚁集团已将AI支付团队置于高战略地位,正大力投入这一关键基建的布局。
作者表达了对AI生成内容的厌倦情绪。这种厌倦源于与AI对话的体验,感觉像是在与一个无法真正理解人类的实体交流,回应往往机械且缺乏深度,无法满足复杂的情感和思想需求。文章在技术社区引发共鸣,反映了部分用户对当前AI交互模式的一种反思。
5月25日,面壁智能发布并开源端侧基座模型MiniCPM5-1B。该模型以1B参数在AA-Index获17.9分,超越所有4B以下开源基座模型。INT4量化后权重仅0.5GB,可在90%以上终端运行。FlagOS社区通过vLLM-plugin-FL推理插件完成跨芯片适配,覆盖英伟达、华为昇腾等8类AI芯片及ARM端侧,支持int8、bf16、fp32精度。多款芯片首token延迟低于NVIDIA H20原生基线;平头哥真武810E在长序列场景下单位算力token吞吐量达H20的93.3%和95.3%。
Goldman Sachs CEO, David M. Solomon on nytimes "A.I. won't eliminate 25% of jobs. What's more likely is that people will...
该推文介绍了guizang-social-card-skill,一款针对小红书图文常见类别进行优化的AI Skill。其亮点在于为旅行博主集成了地图组件,用户输入目的地和线路后,AI能自动在底图上标记并嵌入图片。根据引用,该Skill完全基于HTML和实拍图片生成内容,不会被平台标注为AI生成,并会主动从高质量图片网站寻找对应主题图片,以优化图文排版。
藏师傅的小红书图文排版 Skill 预览 完全靠 HTML 和实拍图片,不会被标注 AI AI 会去高质量图片网站帮你寻找对应的主题图片,让你的图文告别只有生硬文字的尴尬情况
关联讨论 1 条X:歸藏 (@op7418)DeepSWE新基准模拟了真实的长链编程任务,如定位文件、复现bug和验证修复,挑战了旧有基准的局限性。测试显示,在顶级模型上分数差异模糊的SWE-Bench,被新基准拉开了差距:GPT-5.5达到70%,而Claude Opus为54%。研究发现,使用简单的mini-swe-agent即可取得与复杂定制工具相当的成绩,表明许多高分可能源于提示词工程。该基准作者@theo评论称,这是首个与真实编码体验相符的评测。
This is the first code bench that actually aligns with how it feels to use these models coding.
DeepSeek V4-Pro宣布永久降价75%,小米MiMo V2.5降价高达99%。此次降价核心是架构革新带来的成本结构性降低。DeepSeek V4通过混合注意力架构大幅压缩了长上下文推理的KV缓存,使其在100万token时仅为V3.2的10%,单token推理FLOPs降至27%。小米MiMo团队则通过SGLang HiCache实现滑动窗口注意力,将KV缓存跨内存数据传输量减少至约1/7。这些架构优化使V4-Pro定价降至$0.87/百万输出token,MiMo V2.5-Pro约为$3/百万,两者均为拥有百万上下文窗口的前沿级模型。降价源于推理与缓存成本的实质性下降。
腾讯元宝上线高考备考辅助功能,提供考前24小时备考管家,可帮助考生规划每日学习任务、一键导出时间表格并打印,还能设置任务提醒,如“该背单词啦”“全真模考时间到”。试卷分析功能支持上传考卷,快速梳理全卷题型与分值分布,帮助考生主攻提分核心考点。此外,元宝能将历史、政治等科目知识点转化为思维导图,并生成押韵记忆口诀,辅助考前快速复习。
Google DeepMind负责人 Demis Hassabis 将其 AGI 实现时间预测提前至2029年,并称我们正处于“奇点”的初级阶段。他提出的“爱因斯坦测试”基准是:用知识截止于1911年的 AI 能否独立推导出广义相对论,目前尚无系统能接近通过。然而,业界对 AGI 的定义仍无共识,例如 OpenAI CEO Altman 预测时间为2028年,xAI CEO Musk 宣称奇点已在1月发生,而 Anthropic 则避免使用该术语。尽管定义不明,AGI 实现的时间线预测正在不断缩短。
高盛CEO David Solomon 批驳AI将消除25%工作的论点,认为人们将更高效利用时间。他以自身分析师经历为例,曾需数小时手动制作图表,如今借助工具秒级完成,但银行雇佣人数反增。工具使业务复杂度自然扩展。他反问在有Excel、邮件和Zoom的今天,谁觉得工作变少?此观点呼应OpenAI CEO Sam Altman的看法:他承认对AI冲击白领工作的预期过于悲观,因为公司仍需人类的判断、信任、品味和复杂沟通能力。
wionews: OpenAI CEO Sam Altman now says the feared AI white-collar job collapse has not arrived as fast as he expected. ...
华为技术有限公司金融系统部CTO郑俊表示,根据斯坦福最新报告,中国AI模型整体水平仅落后美国2.7%。自2025年2月以来,中国模型的调用量持续超过美国模型。主要原因有二:国内开源模型能力大幅提升,已逼近美国闭源模型水平;中国依托基础设施优势,包括算力和电力资源,使国产AI模型具备更强的价格经济性。
Palantir CEO Alex Karp批评当前流行的AI生成“低质内容”。他指出,这类内容的问题不仅在于夸大的言论,如声称将导致大量失业,更在于其核心是“软件伪装有效”——表面流畅,却无法处理权限、边缘案例、审计追踪等现实世界的复杂需求。Karp将Palantir的Foundry和Apollo平台作为对比,强调真正的软件平台是由技术团队长期构建,能够实际解决问题的系统。
作者展示了进行中的 Vibe Coding 项目,其视频 demo 演示已初步完成,但因细节“强迫症”被推翻重做,目前已修改两周。核心功能均已实现,但打磨尚未完成。项目面向文旅场景,作者表示开源与否取决于社区反馈。
测试显示,Qwen3.7-max 在 Code Arena 上的编程得分仅次于 Anthropic 模型。使用该模型通过 Rust 开发了一款磁盘恢复软件,实测运行流畅。该软件设计了三层恢复功能,并利用该模型智能重建文件名和内容。
So this seems to work and not give me a once an hour hadn't shipped alert This seems like a big feature in ChatGPT?
EAGLE团队与vLLM、TorchSpec联合发布EAGLE 3.1,旨在修复大语言模型推理过程中的投机解码算法不稳定性问题。
美光市值已突破1万亿美元,一年前其市值还仅为700亿美元。这一飞跃的核心驱动力是AI发展对高带宽内存(HBM)的迫切需求。尽管GPU备受关注,但HBM已成为确保GPU持续高效工作的关键部件。随着AI智能体的兴起,无法快速将数据送达芯片已成为新的系统瓶颈,使得内存成为AI增长背后的关键约束。行业的焦点正从单一的逻辑芯片性能,转向整体数据流能否跟上AI推理和智能体工作负载的需求。此外,瑞银将其目标价从535美元大幅上调至1625美元,认为其长期供应协议可能平滑盈利的周期性波动。