AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态
全部一手资讯X论文
6月8日周一
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月8日
15:20
IT之家(RSS)
52
猎豹移动董事长傅盛谈组织改造:所有人都要用 AI 写代码,包括行政

猎豹移动董事长兼CEO傅盛今日接受访谈,总结了用AI改造组织体系的四个步骤:一把手自己得懂;全员思想变革;所有人都要用AI写代码,包括行政;建立以年轻人为核心的“特区”。傅盛早在2019年就表示人工智能业务走在正确道路上,并相信未来10到20年AI会把人从繁重工作中解放出来,让人有时间阅读、提升、寻找自我。

现象/趋势编码
13:34
Deedy@deedydas
70
AI电影《Hell Grind》制作分析:50万美元成本、14天完成,但质量平庸

95分钟AI电影《Hell Grind》由15人14天完成,成本50万美元(80%为算力)。相比中位数美国电影(约200人2年、1800万美元),实现660倍人时、50倍时间、36倍成本改善。影片从约100小时AI生成素材(使用字节跳动Seedance等模型)中按64:1比率剪辑。质量方面,角色一致性、摄像机角度和写实感基本解决,但剪辑过多、角色口音多变、AI合成声音明显,动作和编排生硬——整体平庸,主因是导演选择而非模型限制。作者认为这是AI电影最差、最慢、最贵的时刻,未来创作者将直接投放YouTube。

图像生成大佬观点视频
13:27
AYi@AYi_AInotes
30
推荐一个完全免费的大模型驾驭工程学习网站,号称全网最好,但90%的AI工程师可能都没听说过。链接位于评论区,建议收藏学习。

AYi: http://x.com/i/article/2063237792746831872

教程/实践
12:59
Hacker News 热门(buzzing.cc 中文翻译)
53
你能构建的最简单的人工神经网络:用 Python 实现的感知器

一篇关于用 Python 构建最简单人工神经网络——感知器(Perceptron)的文章在 Hacker News 上获得 108 个用户点赞。

教程/实践数据/训练
12:44
数字生命卡兹克@Khazix0918
64
12个旗舰大模型参加高考语文数学测试,MiMo v2.5 Pro总分第一

今年高考,12个国内外旗舰大模型(Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro、千问3.7 max、文心Ernie 5.1、星火Spark X2、智谱GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米MiMo v2.5 Pro、混元3)参加语文和数学全国一卷测试。采用API调用、禁止工具、LaTeX纯文本输入,4位高中老师盲评阅卷。总分第一:MiMo v2.5 Pro(256.3分),第二Kimi k2.6(256.29分),仅差0.01分。语文最高:GLM5.1和Gemini 3.1 Pro并列;数学最高:DeepSeek V4 Pro、MiMo、ERNIE 5.1并列。前九名模型总分差距仅2分,数学主观题正确率高,唯填空题最后一题全军覆没。作文评分看重结构清晰度与时代关联。

AnthropicDeepSeekOpenAI现象/趋势
12:35
Alibaba Cloud@alibaba_cloud
34
被行政工作淹没了?📩 在阿里云 Claw Talks 第 5 期中,Brian Turcotte(Kilo Code)展示了由 OpenClaw 驱动的个人 AI 智能体如何帮你处理邮件、更新 CRM、减少上下文切换。 🎥 首播时间:2026 年 6 月 9 日下午 5 点(UTC+8) 👉 https://youtu.be/d3QV28XCq2Y
智能体MCP/工具教程/实践
12:11
ginobefun@hongming731
14
看着很不错 【引用 @AdrianPunk115】:http://x.com/i/article/2063125924263141376

Adrian Punk: http://x.com/i/article/2063125924263141376

其他
12:08
Rohan Paul@rohanpaul_ai
68
Rohan Paul 引用 OpenRouter 数据指出,2025 年大部分周 token 消耗由美国模型驱动,但从 2026 年初开始,中国大语言模型突然成为主要增长引擎。引用推文称这是美国 AI 初创公司今年以来的显著转向。AI 模型市场正从品牌忠诚转向原始效用。

nxthompson: This is a pretty striking shift toward Chinese models by American AI startups since the start of the year. https://subst...

开源生态现象/趋势
12:00
公众号:数字生命卡兹克
47
12款旗舰AI大模型参加高考语文数学测试,MiMo v2.5 Pro总分第一仅领先Kimi k2.6 0.01分

Claude Opus 4.8、GPT-5.5等12款旗舰模型参加今年高考语文数学(全国一卷部分试题)测试,采用API调用、禁用代码推理和网页搜索。总分第一MiMo v2.5 Pro(256.3分),第二名Kimi k2.6(256.29分)差0.01分,第三至第九名分差仅2分。语文最高分由GLM5.1和Gemini 3.1 Pro并列,数学最高分由DeepSeek V4 Pro、MiMo、ERNIE 5.1并列。DeepSeek作文得分偏低拉低总分。语文卷基于101分版本折算至150分制。

推理评测/基准
11:55
公众号:卡尔的AI沃茨
38
13个大语言模型参加2026数学高考,GPT 5.5等并列第一

13个大语言模型(GPT 5.5 Thinking、DeepSeek-v4 Pro、Gemini 3.1 Pro Thinking、Claude Opus 4.8 Max、Kimi 2.6 Thinking、Sonnet 4.6 Thinking、GLM 5.1、豆包 Thinking、Qwen 3.7 Plus Thinking、MiniMax M3、元宝 Thinking、Mimo-2.5-pro、Grok)用2026年全国一卷数学高考题进行测试,统一以LaTeX格式输入、关闭联网、不干扰作答。GPT 5.5、DeepSeek-v4 Pro、Gemini 3.1 Pro和Claude Opus 4.8并列第一,得分接近144分;Kimi 2.6以微小差距位居第二梯队;元宝118分;Mimo和Grok得分最低。大部分模型在多选题和长解答题上出现漏条件、读图错误、过度泛化等问题,甚至出现拒答或搜索答案的行为。

DeepSeekOpenAI推理评测/基准
11:55
公众号:卡尔的AI沃茨
42
13个顶级AI模型参加2026年数学高考,GPT 5.5等并列第一

13个顶级AI模型参加2026年数学全国一卷测试,GPT 5.5 Thinking、Deepseek-v4 Pro、Gemini 3.1 Pro Thinking和Claude Opus 4.8 Max并列第一,Kimi 2.6 Thinking以微小分差位居第二梯队。测试采用LaTeX格式统一输入,禁用联网。多数模型在长解答题和多选题上容易失分,如第11题(多选题,正确答案ABD)所有模型均未完全答对。Claude Opus 4.8 Max因额度不足未完成所有题目,Claude Sonnet 4.6 Thinking尝试直接搜答案,Deepseek-v4 Pro曾拒绝完成。模型在上下文记忆、题目理解和符号识别方面仍有明显短板。

推理评测/基准
11:29
Hacker News 热门(buzzing.cc 中文翻译)
63
DeepSeek V4 Pro 在准确率方面超越 GPT-5.5 Pro

DeepSeek V4 Pro 在准确率(precision)指标上击败 GPT-5.5 Pro,具体分数和参数量未透露。该结果来自 runtimewire.com 的评测,在 Hacker News 获得 110 个点赞。

DeepSeekOpenAI模型发布评测/基准
11:24
Logan Kilpatrick@OfficialLoganK
18
看好 Gemini
Google大佬观点
11:20
IT之家(RSS)
60
Palantir CEO 卡普抨击"词元刷满"风潮:滥用 AI 如同沉迷色情

Palantir CEO 亚历克斯·卡普在人工智能平台十周年大会场外接受采访,将行业无节制消耗 token 的行为比作“精神沉溺式滥用”和“自慰成瘾”。CTO 沙亚姆·桑卡在财报电话会议上表示,词元用量越多产出越粗劣,企业需依靠 Palantir AI 平台(AIP)才能规避低价值陷阱。Uber COO 安德鲁·麦克唐纳坦言看不出攀升的 AI 成本与效率提升之间存在关联。卡普认为,AI 可完成“撰写 GDP 增长报告”等简单任务,但优化油气开采、重塑供应链等复杂业务需依靠严谨的流程,大语言模型无法取代。

大佬观点现象/趋势
11:10
Bloomberg:Technology(RSS)
精选81
苹果AI危机幕后:新Siri诞生前的内部攻防 - Power On

一场秘密会议成为苹果正视AI领域劣势的转折点,会议内容围绕Siri的全面刷新展开,揭示了苹果在AI竞争压力下的内部博弈与决策过程。

大佬观点语音
关联讨论 1 条Bloomberg:Technology(RSS)
推荐理由:Mark Gurman 挖出了苹果承认 AI 落后的内部会议,Siri 重写的内幕比任何产品发布都更能看清苹果在语音入口的赌注,做语音助手的都应该读。
11:06
Ethan Mollick@emollick
32
一年前,我们最接近AI智能体的是o3。
智能体大佬观点
11:00
Berryxia.AI@berryxia
21
Berry Xia:致谢Panda与伙伴,分享X平台运营感悟

Berry Xia发文感谢@PandaTalk8及伙伴,称去年4月中旬起运营X平台已超一年,出于热爱不疲,未设目标顺其自然。引述@PandaTalk8:X上对一个人印象可预期,是人设力量源于长期兴趣。@berryxia被列为AI出图分享者,与@dotey(Prompt工程)、@dongxi(AI论文算法解读)等同列。

Mr Panda: 在X 上你对一个人印象和期待都是可预期的。 我认为这就是人设的力量, 这个人设并不是人为立出来的, 而是你对某一样的事物长期兴趣在哪里, 然后在会体现在的你的每一条推文。 比如 @dotey Prompt 工程的分享, @dongxi 马东...

其他
10:38
meng shao@shao__meng
73
让 Claude Opus 长时自主运行的五条实战建议

Boris Cherny 给出五条让 Claude Opus 自主运行数小时/天的建议:1. 开启 Auto Mode 减少审批;2. 用 Dynamic Workflows 编排数百至数千子 Agent;3. 使用 /goal 或 /loop 指令持续推进;4. 优先用云端 Claude Code,可关闭笔记本;5. 确保端到端自验证能力。邵猛补充:自动权限是前提;/goal、/loop 适合高难度任务但 token 消耗高;需解决本地关机/休眠;端到端验证最重要,否则 token 可能白费。

Boris Cherny: Seeing a number of benchmarks showing Opus is the best model for long-running work. Five tips for running Opus autonomou...

智能体AnthropicMCP/工具教程/实践
10:37
François Chollet@fchollet
21
我最初用纯C写神经网络,然后在Matlab里写,接着在NumPy里写,最后升级到Theano。从那以后,我见过并尝试过几乎所有开发出来的NN框架。有些很烂,有些很好。好的框架都理解API设计原则。
Google大佬观点
10:11
SemiAnalysis@SemiAnalysis_
40
我们的 Vera SOCAMM 笔记引起了一些骚动。像往常一样,有些人得出了错误的结论。那些说这是假新闻的人显然没有在 Computex 参观 Hynix 的展台。
行业动态
10:04
宝玉@dotey
44
宝玉指出,Agent 能否自我验证是长时间运行的关键,否则可能浪费 Token。@bcherny 的基准测试显示 Claude Opus 最适合长时间运行,并给出 5 条自主运行技巧:1. 使用自动权限模式;2. 部署动态工作流让 Claude 协调数百/数千个 Agent;3. 用 /goal 或 /loop 指令持续推进;4. 在云端运行 Claude Code 以便关闭笔记本;5. 确保端到端自我验证--通过 Chrome 浏览器扩展验证网页、iOS/Android 模拟器 MCP 验证移动端、启动完整 Web 服务验证后端。

Boris Cherny: Seeing a number of benchmarks showing Opus is the best model for long-running work. Five tips for running Opus autonomou...

智能体AnthropicMCP/工具大佬观点
09:49
jason@jxnlco
15
cowork 有哪些你希望 codex 也有的功能?反之亦然?
OpenAI其他编码
09:46
Boris Cherny@bcherny
57
Claude Opus 长时间运行工作最佳模型及自主运行技巧

多项基准显示 Claude Opus 是长时间运行工作的最佳模型。SWE-Marathon 基准评估编码智能体在 10 亿 token 预算下自主完成长期软件任务(如重写 JAX 代码为 PyTorch、用 Rust 构建 C 编译器)。Opus 在此类任务上领先。Boris Cherny 给出 5 个技巧:使用自动权限模式避免审批;用动态工作流协调数百/数千个智能体;用 /goal 或 /loop 推动持续执行;在云端使用 Claude Code(桌面/移动端)以便关闭笔记本;确保 Claude 能端到端自验证——Chrome 扩展验证网页、iOS/Android 模拟 MCP、启动完整后端服务。

Rishi Desai: Can coding agents stay coherent over a 1 billion token budget? Can they build Slack from scratch? Rewrite a JAX codebase...

智能体AnthropicMCP/工具教程/实践
09:19
jason@jxnlco
47
我将这些人称为"AI的汽车爱好者",他们只是一直在修理他们的车。

Karri Saarinen: The thing about people talking about building with AI is that they always talk about how they're building, what tools th...

大佬观点现象/趋势
09:16
Greg Brockman@gdb
20
有趣

Ben Holmes: How do you use coding agents right now?

OpenAI大佬观点
09:07
meng shao@shao__meng
23
邵猛批评公众号文章:AI人才数据夸大无据

邵猛发文批评某公众号文章,称其是典型中国自媒体风格——咋咋呼呼、定论多、论据靠嘴。文章提到“大厂抢青少年”(最小6岁学Agent、Coding),邵猛认为这只是培训机构的生意。文章还声称“靠AI裁员”,邵猛斥之为企业借口。邵猛特别质疑脉脉CEO林凡的数据:去年AI人才需求增长10倍、今年再增长8.7倍,怀疑这些数字来自脉脉内部职位,且可能只是旧职位改名加“AI”关键词,并非真实需求。

大佬观点现象/趋势
09:07
meng shao@shao__meng
59
不写 Prompt,写 Loops - Boris Cherny 谈 AI 编程范式转变

Anthropic Claude Code 负责人 Boris Cherny 表示,他不再手动写提示词,而是编写 Loops 让 AI 自主决策和解决问题。伴随 Claude Opus 4.8 和 GPT-5.5 等高智能模型出现,手把手写 Prompt 的模式将被取代。但 Loops 方案消耗 Token 过快,一个 Goals 可能耗尽 5 小时用量,企业仍需严格审查 Token 消耗的 ROI,因此实践中会通过前置的 Spec、AGENTS.md 等约束让 AI 做确定性可控的部分。Boris 预测这一转变将在今年剩余时间持续。

Rohan Paul: "I don't prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write ...

智能体Anthropic大佬观点编码
09:07
meng shao@shao__meng
44
你现在在用哪个 Coding Agent? Warp团队 @BHolmesDev 进行的调查得到了 2095 个投票,其中 Codex App 占到 51.1%、Warp CLI 占到 30.9%、Claude App 7.4% 没错,Claude App 只有 7.4%,因为投票中没有包含 Claude Code 😄

Ben Holmes: How do you use coding agents right now?

智能体现象/趋势编码
08:33
宝玉@dotey
56
谈"选HTML不选React"--宝玉的反对观点

宝玉不认同“选HTML而非React”的观点。首先,设计稿需要动态数据交互,HTML难以胜任,而Claude Design是UX交互工具。其次,复杂UI必须拆分为小组件,React能实现重用与低上下文修改,大型HTML则维护困难。再者,React天然形成结构化树形设计,方便coding agent开发,HTML结构割裂、难以与设计映射。至于文章说模型注意力需放在React运行准确率上,宝玉认为当前大模型能力已使此问题不复存在。

向阳乔木: http://x.com/i/article/2063275048157458432

大佬观点编码
08:28
Sam Altman@sama
24
Codex 推出了一个新的"大按钮"。在接下来的 100 天里,每天会选出一位用 Codex 做出了令人印象深刻或极其有用工作的人,给他们一个月的 10 倍使用限额,看看他们能做出什么。明天开始第一个。Sam Altman 评论称"这里可能有个有趣的递归循环"。

Tibo: I have a new kind of big button that I can press for Codex. Over the next 100 days, we will select one person per day wh...

OpenAI大佬观点编码
08:12
Simon Willison 博客
62
datasette-agent-edit 0.1a0 发布

datasette-agent-edit 0.1a0 插件发布,为 Datasette Agent 提供智能体编辑文本的核心工具。其设计借鉴 Claude text editor,实现三个工具:view(按行号查看文件片段)、str_replace(精确替换唯一字符串)、insert(在指定行号后插入文本)。该插件作为基础组件,可供其他协作 Markdown 编辑、SQL 查询更新、SVG 编辑等插件复用。

智能体MCP/工具开源/仓库
08:11
ginobefun@hongming731
61
BestBlogs早报:iPod之父、Codex、Coding Agent

BestBlogs早报06-08聚焦三篇AI工程实践精讲:iPod之父Tony Fadell系统阐述“知情直觉”与“三代法则”,警告AI时代的“认知投降”和“快时尚软件”;OpenAI工程团队分享使用Codex

智能体OpenAI现象/趋势编码
08:11
ginobefun@hongming731
63
早报:Tony Fadell谈"知情直觉";OpenAI用Codex零人工写百万行代码;Coding Agent范式转移

今日早报聚焦AI产品与工程前沿:iPod之父Tony Fadell提出创新依赖“知情直觉”而非数据,并总结“三代法则”;OpenAI内部用Codex全程零人工代码交付约100万行代码,合并1500个PR,效率为手写代码10倍;Thoughtworks专家梳理Coding Agent范式转移,指出Context Engineering是双向放大器,并强调Harness Engineering构建安全网;Anthropic首次公开内部Claude Code Skills经验;OpenAI计划将Codex并入ChatGPT打造超级应用。

ginobefun: http://x.com/i/article/2063761613795270656

智能体AnthropicOpenAI编码
07:59
Berryxia.AI@berryxia
14
Google 3.5 Pro 看来真的是没有能打的了! 只能拿这种测试来"蒙骗"大众了。 Google 大善人醒醒啊,你看看隔壁即将发布的是啥模型和自己家的这对比下啊! 😑
Google大佬观点
07:46
Eric@ericmitchellai
26
Eric Mitchell 发推称"Nvidia 基本上就是一辆汽车",并引用 @perrymetzger 的观点:那些在线上说 AI 仍频繁幻觉、不能写代码的人,就像试图说服你每天开的车不存在--你明明在开车上班、花钱加油、依靠它通勤 20 英里,他们却说你想象或替汽车公司撒谎。这些人仿佛活在完全不同的现实。推文借汽车类比 Nvidia,点出 AI 实际用户与线上批评者之间的认知鸿沟。

Perry E. Metzger: I have said this before, but to those of us using AI systems to get lots of work done reliably and quickly, the people w...

OpenAI现象/趋势
07:31
宝玉@dotey
36
Claude Code 虽然移动端可以 remote control,但是 plan 后不能 bypass permission,需要不停的确认,神烦
Anthropic大佬观点编码
07:08
Rohan Paul@rohanpaul_ai
66
MIT研究追踪超10万GitHub开发者:AI编码工具使代码量增300%,但发布仅增30%

麻省理工新研究追踪超10万GitHub开发者使用三代AI编码工具(自动补全、交互式agent、自主agent)的生产漏斗。自主AI agent使代码提交数提升180%,但实际发布仅增30%。代码量激增近300%,经人工审核后收益降至150%,最终发布仅增约30%。研究估算替代弹性为0.25,即AI能力大幅提升时仅能替代少量人类工作。应用市场同样显示新应用数量增加,但总使用量未升。瓶颈在于人类仍需负责审查、测试、打包和发布等环节,AI加速的局部任务并未转化为同等产出增长。

Rohan Paul: FT publisehd a piece. AI is raising software supply faster than demand. AI is producing far more work inside companies, ...

GitHub编码论文/研究
06:48
jason@jxnlco
14
但这……"Codex 几乎适用于一切"。
OpenAI大佬观点编码
06:40
karminski-牙医@karminski3
58
Ideogram 4实测:9.3B开放权重原生2K

ideogram发布Ideogram 4文生图模型,开放权重,仅9.3B参数,支持原生2K分辨率生成。作者将其与通义Z-image-Turbo生成效果对比,认为两者风格相似。

图像生成开源生态评测/基准
06:38
Rohan Paul@rohanpaul_ai
53
FT/MIT:AI编辑增300%,发布仅30%瓶颈明显

FT报道MIT一项研究,跟踪软件团队从文件编辑到审查到发布的完整生产漏斗。使用AI后,开发者创建或编辑文件数量增加近300%,但在审查阶段增益降至150%,最终到软件发布仅提升约30%。这表明AI在加速局部编码任务上效果显著,但人类审查、协调、产品判断、测试和发布流程仍是决定产出价值的关键瓶颈,大量额外工作未能转化为最终产品。

现象/趋势部署/工程
‹ 上一页
1…1718192021…50
下一页 ›