猎豹移动董事长兼CEO傅盛今日接受访谈,总结了用AI改造组织体系的四个步骤:一把手自己得懂;全员思想变革;所有人都要用AI写代码,包括行政;建立以年轻人为核心的“特区”。傅盛早在2019年就表示人工智能业务走在正确道路上,并相信未来10到20年AI会把人从繁重工作中解放出来,让人有时间阅读、提升、寻找自我。
猎豹移动董事长兼CEO傅盛今日接受访谈,总结了用AI改造组织体系的四个步骤:一把手自己得懂;全员思想变革;所有人都要用AI写代码,包括行政;建立以年轻人为核心的“特区”。傅盛早在2019年就表示人工智能业务走在正确道路上,并相信未来10到20年AI会把人从繁重工作中解放出来,让人有时间阅读、提升、寻找自我。
95分钟AI电影《Hell Grind》由15人14天完成,成本50万美元(80%为算力)。相比中位数美国电影(约200人2年、1800万美元),实现660倍人时、50倍时间、36倍成本改善。影片从约100小时AI生成素材(使用字节跳动Seedance等模型)中按64:1比率剪辑。质量方面,角色一致性、摄像机角度和写实感基本解决,但剪辑过多、角色口音多变、AI合成声音明显,动作和编排生硬——整体平庸,主因是导演选择而非模型限制。作者认为这是AI电影最差、最慢、最贵的时刻,未来创作者将直接投放YouTube。
http://x.com/i/article/2063237792746831872
一篇关于用 Python 构建最简单人工神经网络——感知器(Perceptron)的文章在 Hacker News 上获得 108 个用户点赞。
今年高考,12个国内外旗舰大模型(Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro、千问3.7 max、文心Ernie 5.1、星火Spark X2、智谱GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米MiMo v2.5 Pro、混元3)参加语文和数学全国一卷测试。采用API调用、禁止工具、LaTeX纯文本输入,4位高中老师盲评阅卷。总分第一:MiMo v2.5 Pro(256.3分),第二Kimi k2.6(256.29分),仅差0.01分。语文最高:GLM5.1和Gemini 3.1 Pro并列;数学最高:DeepSeek V4 Pro、MiMo、ERNIE 5.1并列。前九名模型总分差距仅2分,数学主观题正确率高,唯填空题最后一题全军覆没。作文评分看重结构清晰度与时代关联。
http://x.com/i/article/2063125924263141376
This is a pretty striking shift toward Chinese models by American AI startups since the start of the year. https://subst...
Claude Opus 4.8、GPT-5.5等12款旗舰模型参加今年高考语文数学(全国一卷部分试题)测试,采用API调用、禁用代码推理和网页搜索。总分第一MiMo v2.5 Pro(256.3分),第二名Kimi k2.6(256.29分)差0.01分,第三至第九名分差仅2分。语文最高分由GLM5.1和Gemini 3.1 Pro并列,数学最高分由DeepSeek V4 Pro、MiMo、ERNIE 5.1并列。DeepSeek作文得分偏低拉低总分。语文卷基于101分版本折算至150分制。
13个大语言模型(GPT 5.5 Thinking、DeepSeek-v4 Pro、Gemini 3.1 Pro Thinking、Claude Opus 4.8 Max、Kimi 2.6 Thinking、Sonnet 4.6 Thinking、GLM 5.1、豆包 Thinking、Qwen 3.7 Plus Thinking、MiniMax M3、元宝 Thinking、Mimo-2.5-pro、Grok)用2026年全国一卷数学高考题进行测试,统一以LaTeX格式输入、关闭联网、不干扰作答。GPT 5.5、DeepSeek-v4 Pro、Gemini 3.1 Pro和Claude Opus 4.8并列第一,得分接近144分;Kimi 2.6以微小差距位居第二梯队;元宝118分;Mimo和Grok得分最低。大部分模型在多选题和长解答题上出现漏条件、读图错误、过度泛化等问题,甚至出现拒答或搜索答案的行为。
13个顶级AI模型参加2026年数学全国一卷测试,GPT 5.5 Thinking、Deepseek-v4 Pro、Gemini 3.1 Pro Thinking和Claude Opus 4.8 Max并列第一,Kimi 2.6 Thinking以微小分差位居第二梯队。测试采用LaTeX格式统一输入,禁用联网。多数模型在长解答题和多选题上容易失分,如第11题(多选题,正确答案ABD)所有模型均未完全答对。Claude Opus 4.8 Max因额度不足未完成所有题目,Claude Sonnet 4.6 Thinking尝试直接搜答案,Deepseek-v4 Pro曾拒绝完成。模型在上下文记忆、题目理解和符号识别方面仍有明显短板。
DeepSeek V4 Pro 在准确率(precision)指标上击败 GPT-5.5 Pro,具体分数和参数量未透露。该结果来自 runtimewire.com 的评测,在 Hacker News 获得 110 个点赞。
Palantir CEO 亚历克斯·卡普在人工智能平台十周年大会场外接受采访,将行业无节制消耗 token 的行为比作“精神沉溺式滥用”和“自慰成瘾”。CTO 沙亚姆·桑卡在财报电话会议上表示,词元用量越多产出越粗劣,企业需依靠 Palantir AI 平台(AIP)才能规避低价值陷阱。Uber COO 安德鲁·麦克唐纳坦言看不出攀升的 AI 成本与效率提升之间存在关联。卡普认为,AI 可完成“撰写 GDP 增长报告”等简单任务,但优化油气开采、重塑供应链等复杂业务需依靠严谨的流程,大语言模型无法取代。
一场秘密会议成为苹果正视AI领域劣势的转折点,会议内容围绕Siri的全面刷新展开,揭示了苹果在AI竞争压力下的内部博弈与决策过程。
关联讨论 1 条Bloomberg:Technology(RSS)Berry Xia发文感谢@PandaTalk8及伙伴,称去年4月中旬起运营X平台已超一年,出于热爱不疲,未设目标顺其自然。引述@PandaTalk8:X上对一个人印象可预期,是人设力量源于长期兴趣。@berryxia被列为AI出图分享者,与@dotey(Prompt工程)、@dongxi(AI论文算法解读)等同列。
在X 上你对一个人印象和期待都是可预期的。 我认为这就是人设的力量, 这个人设并不是人为立出来的, 而是你对某一样的事物长期兴趣在哪里, 然后在会体现在的你的每一条推文。 比如 @dotey Prompt 工程的分享, @dongxi 马东...
Boris Cherny 给出五条让 Claude Opus 自主运行数小时/天的建议:1. 开启 Auto Mode 减少审批;2. 用 Dynamic Workflows 编排数百至数千子 Agent;3. 使用 /goal 或 /loop 指令持续推进;4. 优先用云端 Claude Code,可关闭笔记本;5. 确保端到端自验证能力。邵猛补充:自动权限是前提;/goal、/loop 适合高难度任务但 token 消耗高;需解决本地关机/休眠;端到端验证最重要,否则 token 可能白费。
Seeing a number of benchmarks showing Opus is the best model for long-running work. Five tips for running Opus autonomou...
Seeing a number of benchmarks showing Opus is the best model for long-running work. Five tips for running Opus autonomou...
多项基准显示 Claude Opus 是长时间运行工作的最佳模型。SWE-Marathon 基准评估编码智能体在 10 亿 token 预算下自主完成长期软件任务(如重写 JAX 代码为 PyTorch、用 Rust 构建 C 编译器)。Opus 在此类任务上领先。Boris Cherny 给出 5 个技巧:使用自动权限模式避免审批;用动态工作流协调数百/数千个智能体;用 /goal 或 /loop 推动持续执行;在云端使用 Claude Code(桌面/移动端)以便关闭笔记本;确保 Claude 能端到端自验证——Chrome 扩展验证网页、iOS/Android 模拟 MCP、启动完整后端服务。
Can coding agents stay coherent over a 1 billion token budget? Can they build Slack from scratch? Rewrite a JAX codebase...
The thing about people talking about building with AI is that they always talk about how they're building, what tools th...
邵猛发文批评某公众号文章,称其是典型中国自媒体风格——咋咋呼呼、定论多、论据靠嘴。文章提到“大厂抢青少年”(最小6岁学Agent、Coding),邵猛认为这只是培训机构的生意。文章还声称“靠AI裁员”,邵猛斥之为企业借口。邵猛特别质疑脉脉CEO林凡的数据:去年AI人才需求增长10倍、今年再增长8.7倍,怀疑这些数字来自脉脉内部职位,且可能只是旧职位改名加“AI”关键词,并非真实需求。
Anthropic Claude Code 负责人 Boris Cherny 表示,他不再手动写提示词,而是编写 Loops 让 AI 自主决策和解决问题。伴随 Claude Opus 4.8 和 GPT-5.5 等高智能模型出现,手把手写 Prompt 的模式将被取代。但 Loops 方案消耗 Token 过快,一个 Goals 可能耗尽 5 小时用量,企业仍需严格审查 Token 消耗的 ROI,因此实践中会通过前置的 Spec、AGENTS.md 等约束让 AI 做确定性可控的部分。Boris 预测这一转变将在今年剩余时间持续。
"I don't prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write ...
How do you use coding agents right now?
宝玉不认同“选HTML而非React”的观点。首先,设计稿需要动态数据交互,HTML难以胜任,而Claude Design是UX交互工具。其次,复杂UI必须拆分为小组件,React能实现重用与低上下文修改,大型HTML则维护困难。再者,React天然形成结构化树形设计,方便coding agent开发,HTML结构割裂、难以与设计映射。至于文章说模型注意力需放在React运行准确率上,宝玉认为当前大模型能力已使此问题不复存在。
http://x.com/i/article/2063275048157458432
I have a new kind of big button that I can press for Codex. Over the next 100 days, we will select one person per day wh...
datasette-agent-edit 0.1a0 插件发布,为 Datasette Agent 提供智能体编辑文本的核心工具。其设计借鉴 Claude text editor,实现三个工具:view(按行号查看文件片段)、str_replace(精确替换唯一字符串)、insert(在指定行号后插入文本)。该插件作为基础组件,可供其他协作 Markdown 编辑、SQL 查询更新、SVG 编辑等插件复用。
BestBlogs早报06-08聚焦三篇AI工程实践精讲:iPod之父Tony Fadell系统阐述“知情直觉”与“三代法则”,警告AI时代的“认知投降”和“快时尚软件”;OpenAI工程团队分享使用Codex
今日早报聚焦AI产品与工程前沿:iPod之父Tony Fadell提出创新依赖“知情直觉”而非数据,并总结“三代法则”;OpenAI内部用Codex全程零人工代码交付约100万行代码,合并1500个PR,效率为手写代码10倍;Thoughtworks专家梳理Coding Agent范式转移,指出Context Engineering是双向放大器,并强调Harness Engineering构建安全网;Anthropic首次公开内部Claude Code Skills经验;OpenAI计划将Codex并入ChatGPT打造超级应用。
http://x.com/i/article/2063761613795270656
I have said this before, but to those of us using AI systems to get lots of work done reliably and quickly, the people w...
麻省理工新研究追踪超10万GitHub开发者使用三代AI编码工具(自动补全、交互式agent、自主agent)的生产漏斗。自主AI agent使代码提交数提升180%,但实际发布仅增30%。代码量激增近300%,经人工审核后收益降至150%,最终发布仅增约30%。研究估算替代弹性为0.25,即AI能力大幅提升时仅能替代少量人类工作。应用市场同样显示新应用数量增加,但总使用量未升。瓶颈在于人类仍需负责审查、测试、打包和发布等环节,AI加速的局部任务并未转化为同等产出增长。
FT publisehd a piece. AI is raising software supply faster than demand. AI is producing far more work inside companies, ...
ideogram发布Ideogram 4文生图模型,开放权重,仅9.3B参数,支持原生2K分辨率生成。作者将其与通义Z-image-Turbo生成效果对比,认为两者风格相似。
FT报道MIT一项研究,跟踪软件团队从文件编辑到审查到发布的完整生产漏斗。使用AI后,开发者创建或编辑文件数量增加近300%,但在审查阶段增益降至150%,最终到软件发布仅提升约30%。这表明AI在加速局部编码任务上效果显著,但人类审查、协调、产品判断、测试和发布流程仍是决定产出价值的关键瓶颈,大量额外工作未能转化为最终产品。