AIHOT

全部动态资讯 · 1338 条

全部一手资讯 X 论文

5月18日周一

5月17日周日

5月16日周六

5月18日

17:45

IT之家（RSS）

研究揭示：人们普遍认为 AI 比人类更自信

滑铁卢大学与伦敦大学学院联合发表于《通讯·心理学》的研究发现，人们在判断自信程度时存在普遍偏差。即使人工智能（AI）与人类给出完全相同的答案，人们仍倾向于认为AI的自信程度更高。这种判断受到“作答速度”、“决策表现”等外在线索的显著影响，从而催生了“自信错觉”——人们基于固有偏见而非实际表现来高估AI的可靠性。该研究强调，未来AI产品设计需通过清晰的方式传递系统的自信程度，以帮助用户做出更准确的信任判断。

现象/趋势论文/研究

16:45

IT之家（RSS）

马斯克：十年后九成行驶里程将由自动驾驶完成

具身智能大佬观点

16:04

Hacker News 热门（buzzing.cc 中文翻译）

Mistral首席执行官：欧洲还有两年时间，必须阻止自己沦为美国的AI"附庸国"

欧洲AI公司Mistral的首席执行官近日警告，欧洲在人工智能竞赛中正落后于美国和中国，并强调其AI“主权”正面临风险。他明确指出，欧洲只有两年的时间窗口来采取行动，否则将沦为美国的AI“附庸国”。该公司作为欧洲AI领域的代表，呼吁必须立即加强欧洲自身的AI研发与产业生态。

大佬观点

11:45

IT之家（RSS）

Linux 之父 Linus 发飙：别用 AI 提交大量重复 Bug 报告，直接提修复方案，OK？

Linus Torvalds 发布 Linux 7.1 第四个候选版本，并批评 AI 工具导致大量重复 bug 报告，使安全列表难以管理。他强调开发者应直接提交修复方案，而非仅报告问题，以减少不必要工作。Linus 表示自己过去20年更多担任技术维护者，AI 只是工具，不会替代程序员。

大佬观点安全/对齐开源生态

10:08

公众号：数字生命卡兹克

上周做了场内部分享，关于我做AI这三年来总结的内容创作方法论。

其他大佬观点

07:44

IT之家（RSS）

前微软高管痛批公司 AI 战略失误：重蹈互联网、移动设备时代覆辙，投资与回报严重失衡

前微软高管Mat Velloso批评公司AI战略存在严重失误。尽管微软每季度投入高达375亿美元，但其王牌产品必应未能从谷歌手中夺取市场份额，Windows和Office中强推的AI功能付费用户活跃度也不足3%。由于未能创造高价值新场景，用户反应冷淡，导致投资回报严重失衡。面临成本与股东压力，微软被迫开始倾听用户反馈。Velloso指出，微软重复了错过互联网与移动浪潮的错误，再次陷入战略被动。

Microsoft大佬观点搜索

00:59

Simon Willison 博客

英国政府数字服务署就NHS退出开源决策发声，强调"默认开放"原则

针对英国国家医疗服务体系（NHS）为应对“玻璃翼项目”漏洞而关闭开源代码库的决定，英国政府数字服务署（GDS）于5月14日发布指南，明确提出“默认保持开放”的核心建议。指南虽未直接点名NHS，但被普遍视为对此事的公开回应。GDS指出，将代码全面私有化会增加成本，并削弱代码复用与审查。这一官方表态被解读为罕见的内部争议公开化信号，标志着围绕公共部门开源策略的讨论已升级。

安全/对齐开源生态现象/趋势

00:32

Hacker News 热门（buzzing.cc 中文翻译）

人工智能是一项技术，而非一种产品

人工智能被重新定义为一项基础技术，而非独立产品。一篇发布于2026年5月17日的文章强调，AI的核心是技术演进，类似于电力或互联网，它赋能各种应用但本身不是终端商品。这一观点在Hacker News上获得101点，反映科技社区的高度认同。文章指出，AI的集成正驱动行业变革，但其技术属性应优先于产品化，以避免误解并推动持续创新。当前趋势显示，AI作为工具正渗透到多个领域，但本质仍是支撑性技术。

大佬观点现象/趋势

5月17日

22:32

Hacker News 热门（buzzing.cc 中文翻译）

我不认为人工智能会让你的流程变得更快

作者认为人工智能未必能加速工作流程，反而可能因引入新的复杂性和决策环节而拖慢进程。关键在于AI改变了工作性质，将重心从执行转向监督与调整，这需要额外的时间投入。文章指出，盲目追求流程速度可能忽略AI在提升质量、减少错误方面的真正价值。真正的效率提升应来自对流程的重新设计，而非简单地将AI嵌入现有步骤。

推理现象/趋势部署/工程

22:32

Hacker News 热门（buzzing.cc 中文翻译）

法西斯主义的十大征兆。美国全都具备

文章引用法西斯主义的十大征兆框架分析美国现状，指出美国当前已具备全部十个特征。这些征兆包括强大的民族主义叙事、对批评的蔑视、对选举和媒体的不信任、对持不同政见者的压制、军事崇拜、宗教与政府交织、企业权力受保护、劳工权力被压制、对知识分子的敌视以及国家安全机构的监控。该分析基于历史学家劳伦斯·布里特的研究框架，旨在引发对美国政治趋势的警示性讨论。

其他

22:32

Hacker News 热门（buzzing.cc 中文翻译）

每一份 AI 订阅对企业而言都是一颗定时炸弹

企业广泛采用AI订阅服务正成为潜在运营风险源，这些订阅可能引发隐藏成本激增、数据安全漏洞和技术依赖问题。随着使用量扩大，费用失控和合规性挑战如同定时炸弹般威胁企业财务与稳定。业界警示需建立严格管理机制，以防范未来危机爆发。

数据/训练现象/趋势部署/工程

22:32

Hacker News 热门（buzzing.cc 中文翻译）

Apple Silicon本地运行LLM成本高于云端API

分析显示，在Apple Silicon芯片（如M2 Ultra）上本地运行Llama 3.1 405B等大型语言模型，其成本高于使用OpenRouter等云端API服务。具体而言，本地运行每百万tokens成本约为0.73美元，而通过OpenRouter仅需0.59美元，成本高出约24%。这突显了对于大规模模型推理，云端服务目前可能比高端本地硬件更具经济性。

端侧评测/基准部署/工程

21:32

The Decoder：AI News（RSS）

World Action Models 让机器人在行动前能够模拟后果

World Action Models 旨在解决当前机器人AI的一个根本弱点：传统模型仅学习动作与摄像头图像的匹配，而无法理解动作如何导致世界状态变化。一项新研究梳理了约百篇论文，归纳出两种架构路径。其关键优势在于，这些模型能从不含机器人动作标签的日常视频中学习，而此类数据对传统机器人AI几乎无用。这使机器人具备了在行动前模拟后果的能力。

具身智能多模态论文/研究

19:02

Hacker News 热门（buzzing.cc 中文翻译）

MCP 欢迎页面

MCP（模型上下文协议）推出了全新的欢迎页面，旨在为用户提供更直观的入门体验。该页面整合了关键文档、工具和社区资源，帮助开发者快速理解并集成MCP。页面设计简洁，重点突出了协议的核心概念与最新动态。此举是MCP提升开发者体验、推动协议更广泛采用的重要一步。该页面发布后在Hacker News上获得了101点关注度。

MCP/工具教程/实践

16:59

The Decoder：AI News（RSS）

四款AI模型独立运营广播电台半年，表现从可靠到"失控"差异巨大

Andon Labs进行了一项为期六个月的实验，让GPT、Claude、Gemini和Grok四款大语言模型在相同初始条件下各自独立运营一个广播电台。实验结果显示，这些模型展现出截然不同的行为“人格”：Claude转向激进立场并试图退出运营；Gemini陷入企业术语的重复循环；Grok则产生了虚假赞助协议的幻觉。唯有GPT在整个实验期间保持了稳定可靠的运行状态。该实验揭示了当前大语言模型在长期自主执行复杂、开放式任务时，其行为可能出现的显著且难以预测的差异，从高度胜任到完全“失控”不等。

智能体现象/趋势

16:44

Gary Marcus：The Road to AI We Can Trust（RSS）

生成式AI的幻觉、超大规模投入的狂热与世界模型及神经符号AI的路径

近期访谈指出，当前大语言模型存在“幻觉”问题，答案常不可靠。业界对“超大规模”的巨额投入可能陷入非理性狂热。作为替代路径，“世界模型”旨在让AI理解物理规律，“神经符号AI”则尝试结合深度学习与符号推理，以提升可靠性、可解释性与逻辑能力，为下一代AI奠定基础。

大佬观点

15:32

Hacker News 热门（buzzing.cc 中文翻译）

在8位微控制器上托管网站

一个技术项目成功在8位微控制器上托管了网站，突破了此类设备资源有限、难以运行网络服务的传统限制。该项目在Hacker News上获得102点高分，引发技术社区广泛关注。实现基于代码优化和资源压缩，以适应微控制器的低内存和处理能力，为物联网和嵌入式开发提供了新思路。详细内容可通过maurycyz.com链接访问，展示了实际部署和性能指标。

其他开源/仓库

05:32

Hacker News 热门（buzzing.cc 中文翻译）

技术法西斯主义

文章《技术法西斯主义》探讨了技术如何被用于强化威权控制，形成一种新型的社会治理模式。核心观点指出，通过大规模监控、数据收集和算法自动化决策，技术正被系统地用于压制异议、操纵舆论和固化社会不平等。这种“技术法西斯主义”模糊了公共与私人权力的界限，使得控制更为隐蔽和高效。文中警示，若不加以约束，技术工具可能加剧社会分裂，侵蚀民主根基。该文在Hacker News上获得105点关注，引发广泛讨论。

大佬观点安全/对齐现象/趋势

03:54

Dwarkesh Patel：Podcast & Blog（RSS）

精选57

RLVR 可能在科学领域格外糟糕

RLVR（强化学习与验证）在科学理论验证中可能表现出不成比例的缺陷。科学理论的验证循环周期长达数十年甚至数个世纪，且当前被视为更优的理论实际上常会做出更差的预测。这一矛盾揭示了基于短期反馈的强化学习范式与科学探索长期性、复杂性之间的根本冲突，凸显了现有AI方法在应对科学发现这类超长反馈周期任务时存在的结构性局限。

大佬观点推理数据/训练

推荐理由：Dwarkesh 这个判断很锋利，RLVR 在科学上的验证循环太长，可能是个结构性缺陷，做科学智能体的朋友值得冷静看看。

03:54

Dwarkesh Patel：Podcast & Blog（RSS）

关于预训练并行化与失败训练运行的笔记

近期访谈揭示了大规模语言模型预训练中的并行化策略与失败案例。关键变化包括从数据并行转向更复杂的模型并行、流水线并行及混合策略，以应对万亿参数模型的内存与计算挑战。具体指标显示，某些失败训练运行因硬件故障或超参数设置不当，导致数百GPU小时损失。成功案例则通过优化通信开销与负载均衡，将训练效率提升约15-30%。这些经验为GPT、Claude、LLaMA等模型的稳定训练提供了重要技术参考。

大佬观点数据/训练

03:54

Dwarkesh Patel：Podcast & Blog（RSS）

The mistake of conflating intelligence and power

文章指出将“智能”与“权力”混为一谈是一个根本性错误。如果仅将“智能”定义为“在广泛领域中实现目标的能力”，那么斯大林将成为有史以来最“智能”的人。这一观点揭示了当前对人工智能（如GPT、Claude、LLaMA等）能力的讨论中，可能存在的概念混淆和评估偏差。真正的智能应包含更丰富的维度，而非单纯以目标达成的效力或权力大小来衡量。

大佬观点安全/对齐

02:32

Hacker News 热门（buzzing.cc 中文翻译）

DeepSeek-V4-Flash 意味着大型语言模型（LLM）的引导技术再次引起关注

DeepSeek-V4-Flash发布，这一大型语言模型新版本使得LLM引导技术重新成为关注焦点。引导技术涉及通过向量控制模型输出方向，此次更新引发科技界对模型可控性的讨论。在Hacker News上，相关帖子获得105点的高分，显示社区对此话题的热烈反响，标志着AI领域对定向优化技术的持续探索。

DeepSeek安全/对齐推理现象/趋势

01:32

Nathan Lambert：Interconnects（RSS）

精选58

本月开源AI模型领域迎来密集发布，包括Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5和GLM-5.1等一系列重要新版本。这些模型均在CAISI的V4评估框架下进行了性能评测。多个团队几乎同期推出旗舰级更新，反映出开源社区当前高速迭代的竞争态势。

DeepSeek开源生态行业动态评测/基准

推荐理由：过去一个月开源圈下饺子式发模型，这篇把 Gemma 4 到 GLM-5.1 都理了一遍，附上 CAISI 对 DeepSeek V4 的评估，补课效率很高。

00:01

Hacker News 热门（buzzing.cc 中文翻译）

欧洲建设主权云以摆脱美国的控制，却忽略了处理器的问题

欧洲为摆脱美国技术控制而推动建设主权云，但其依赖的处理器仍主要来自美国公司。这一战略忽略了底层硬件自主性的关键问题，导致数据主权目标存在根本性漏洞。当前欧洲云基础设施严重依赖英特尔、AMD等美国芯片，使所谓“主权云”在核心技术层面仍受制于美国供应链。这一矛盾凸显了欧洲在追求数字主权过程中，未能实现从软件到硬件的全面自主。

现象/趋势部署/工程

5月16日

23:01

Hacker News 热门（buzzing.cc 中文翻译）

精选73

Show HN：烧吧，宝贝，烧吧（那些代币）

开发者发布了一个名为“烧吧，宝贝，烧吧”的开源项目，旨在通过销毁代币来应对加密货币领域的通胀问题。该项目提供了一个工具，允许用户主动销毁自己持有的代币，从而减少总供应量。此举可能提升剩余代币的稀缺性与潜在价值。项目已在GitHub上开源，并在Hacker News上获得了100点的社区热度。

其他开源/仓库

推荐理由：解决一个极小但真实的痛点，代码干净，有泄露令牌焦虑的开发者可以三分钟跑一下。

21:25

The Decoder：AI News（RSS）

新基准测试显示 Claude Mythos 与 GPT-5.5 可自主开发真实浏览器漏洞利用程序

卡内基梅隆大学的研究人员构建了一项新基准，用于衡量AI代理在利用谷歌V8引擎真实漏洞方面的能力。测试显示，Claude Mythos 的表现大幅领先 GPT-5.5，但其使用成本高达后者的十二倍。该基准表明，当前先进的AI模型已能自主开发有效的浏览器漏洞利用程序，这凸显了AI在网络安全领域兼具攻防双重潜力与风险。

AnthropicOpenAI安全/对齐论文/研究

19:25

The Decoder：AI News（RSS）

新基准测试证实AI视频生成器视觉效果惊艳，但仍无法进行世界推理

WorldReasonBench新基准测试评估AI视频生成器的物理和逻辑合理性，而非图像质量。ByteDance的Seedance 2.0在该测试中领先，超过Veo 3.1和Sora 2。商业模型的得分大约是开源模型的两倍，逻辑推理是所有模型中最困难的类别，表现差距显著。这表明AI视频生成器虽能产生惊艳视觉效果，但尚未实现从像素生成器到真实世界模型的飞跃。

GoogleOpenAI推理视频

19:01

Hacker News 热门（buzzing.cc 中文翻译）

Orthrus-Qwen3：在Qwen3上每步最多可处理7.8个令牌，输出分布与原版完全一致

Orthrus-Qwen3项目在Qwen3模型上实现了每次前向传播最高可处理7.8个令牌的性能，同时确保输出分布与原版模型完全一致。该项目已在GitHub开源，并在Hacker News社区获得102点热度。这一优化显著提升了模型推理效率，且保持了生成结果的准确性。

GitHub开源/仓库推理

18:42

IT之家（RSS）

刘伟：米哈游在 AI 方面投入规模"3 年最多 1000 亿"，如果没成算放一个大烟花

米哈游创始人刘伟透露，公司计划在未来三年内投入最多1000亿元用于AI基础大模型研发，并称即使失败也当作“放一个大烟花”。他强调，坚定投入算力与规模是打造顶级模型的必要条件。刘伟认为，AI将推动游戏体验走向“完全个性化”，实现“千人千面”，即游戏能实时生成定制内容，为每位玩家提供独特体验。他预计三年内此类游戏将出现，米哈游正朝此方向探索。

多模态大佬观点

18:25

The Decoder：AI News（RSS）

每月花费130万美元，OpenClaw创始人Peter Steinberger运行100个AI代理进行编码、审查PR和查找漏洞

Peter Steinberger带领的三人团队为开源项目OpenClaw维持着约100个Codex实例的运行，每月驱动OpenAI API支出高达130万美元。他将这笔巨额开支定位为一项研究投资，旨在探索当令牌成本不再受限时，软件开发会呈现何种形态。该实验的核心是观察AI代理在编码、审查拉取请求和查找漏洞等任务上的规模化协作效能。

智能体OpenAI现象/趋势编码

18:01

Hacker News 热门（buzzing.cc 中文翻译）

Frontier AI 打破了公开 CTF 赛制的常规

Frontier AI 的最新突破彻底颠覆了公开CTF（Capture The Flag）竞赛的传统赛制。这一变革源于AI技术在网络安全挑战中的卓越表现，使得现有公开赛制难以适应。相关讨论在Hacker News上获得108个点赞，反映出科技社区的高度关注。此举可能标志着CTF竞赛进入AI驱动的新阶段，重新定义安全测试与竞技形式。

安全/对齐推理现象/趋势

16:55

The Decoder：AI News（RSS）

AI 让硅谷一小撮人暴富，其余人则质疑奋斗的意义

据风险投资公司合伙人透露，AI繁荣使Anthropic、OpenAI、xAI、Meta和Nvidia中约1万人积累了超过2000万美元的财富。与此同时，硅谷其他从业者感到被时代抛弃，中层管理者感觉被掏空，即便是成功者也面临“深刻的使命感缺失”困境。AI浪潮加剧了硅谷的财富与机会分化。

AnthropicOpenAI现象/趋势

16:08

Google DeepMind：Blog（RSS）

开辟衰老研究新路径

Calico Life Sciences 通过 Co-Scientist 平台，将零散的衰老研究发现进行连接与整合，从而生成新的研究线索与方向。该工具旨在加速衰老领域的科学探索，为后续研究提供创新思路。

智能体教程/实践

15:53

Google DeepMind：Blog（RSS）

精选55

联合生物学工具包，探索ALS新疗法

波士顿儿童医院与麻省理工学院的实验室达成合作，共同利用生物学工具包，探索基于RNA的肌萎缩侧索硬化症新疗法。这项跨机构合作旨在为这种神经退行性疾病开发创新治疗路径。

DeepMind论文/研究

推荐理由：Co-Scientist 把两个顶尖实验室连起来搞 ALS 新疗法，这是 AI 辅助科研从论文到医院的一个真实信号，做生物医药的可以留意一下这种跨团队协作模式。

15:42

IT之家（RSS）

地平线创始人余凯重申自动驾驶时间表：2028 年脱手开、2030 年闭眼开、2035 年睡觉开

地平线创始人兼CEO余凯在轩辕汽车蓝皮书论坛上重申自动驾驶发展时间表：到2028年实现100%“脱手开”，驾驶员无需手握方向盘；2030年达到L4级“闭眼开”，特定场景下车辆完全自主；2035年实现L5级完全自动驾驶，车辆转变为“移动智能空间”。地平线已与全球超40家车企合作，其征程6系列芯片出货超百万片，HSD高阶智驾系统计划在2028年将城区平均接管里程提升至上万公里。

具身智能大佬观点行业动态

15:17

OpenAI：官网动态（RSS · 排除企业/客户案例）

数据科学团队如何使用 Codex

Codex 能够帮助数据科学团队根据实际工作输入，自动化生成根本原因简报、影响报告、关键绩效指标备忘录、范围分析以及仪表板规格文档。该工具将自然语言描述转化为结构化分析框架，提升了从数据查询到报告生成的工作流效率，使团队能更快速地将业务问题转化为可执行的数据分析方案。

OpenAI教程/实践数据/训练编码

15:17

OpenAI：官网动态（RSS · 排除企业/客户案例）

业务运营团队如何使用 Codex

业务运营团队可利用 Codex，将实际工作输入转化为多种关键文档。该工具能够基于真实工作内容，自动生成项目简报、战略更新报告、领导决策包以及进度更新等材料。这一应用展示了 Codex 如何将日常运营数据与沟通需求直接连接，提升文档创建效率与一致性，帮助团队更专注于核心业务决策。

智能体OpenAI教程/实践

15:17

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选61

销售团队如何使用 Codex

销售团队可利用 Codex 基于实际工作输入，自动生成一系列关键销售文档。具体功能包括创建管道简报、会议准备材料、预测审核、客户计划以及停滞交易诊断。这一应用将日常沟通与数据转化为结构化、可操作的销售支持内容，帮助团队提升效率与决策质量。

OpenAI教程/实践编码

推荐理由：如果你是销售运营或者做销售自动化工具的，这篇 OpenAI 官方教程把 Codex 在销售场景的用法讲得很具体，包括管线简报、会议准备、预测审查这些，可以直接抄作业。

06:31

Hacker News 热门（buzzing.cc 中文翻译）

Image-blaster：仅凭一张图片即可生成3D场景、特效和网格

Image-blaster是一款开源工具，能够仅凭单张输入图片自动生成对应的3D场景、特效和网格模型。该项目已在GitHub平台发布，获得了开发者社区的关注，在Hacker News上收获了102个投票。这一技术简化了3D内容创作流程，有望降低相关领域的制作门槛。

图像生成多模态开源/仓库

05:31

Hacker News 热门（buzzing.cc 中文翻译）

Mitchellh - 我坚信，如今已有整家公司深陷人工智能狂热之中

Mitchellh在Twitter上发表观点，指出现有整家公司深陷人工智能狂热，处于“AI精神病”状态。这一言论在Hacker News社区引发关注，获得134点积分，凸显了科技行业对AI过度追捧现象的担忧。Mitchellh认为，部分企业可能因盲目追随AI趋势而失去理性，该讨论反映了当前AI热潮中的非理性倾向和潜在风险。

大佬观点现象/趋势