AIHOT

全部动态一手 · 399 条

全部一手资讯 X 论文

6月8日周一

6月7日周日

6月6日周六

6月5日周五

6月4日周四

6月3日周三

6月8日

18:00

公众号：通义实验室（千问）

精选68

Agent 辅助开发，一站式打通 Qwen3-VL Android 端侧推理

通义实验室教程演示了如何用 Agent（Qoder）辅助完成 Qwen3-VL-2B 模型在 Android 端侧的全流程部署。操作包括：检查 JDK 21、NDK 27、CMake 3.18.1 等环境；创建 arm64-v8a 的 Native C++ 工程（minSdk 29、compileSdk 35）；通过 ModelScope CLI 下载约 1.4GB 的 MNN/Qwen3-VL-2B-Instruct-MNN 模型；编译开启 LLM 视觉支持（MNN_BUILD_LLM、LLM_SUPPORT_VISION）的 libMNN.so；构建 APK 并推送模型至手机私有目录。最终 App 提供图文推理页面，输出 MNN 版本（v3.5.0）、ABI 及推理指标。所有繁琐步骤均可由 Agent 自动执行。

多模态推理教程/实践端侧

推荐理由：用Agent辅助走通Qwen3-VL安卓端侧推理全流程，从环境搭建到JNI桥接一步到位。如果你在做移动端AI应用，这可能是目前最详细的实战指南，可以直接抄作业。

03:50

Hugging Face：Blog（RSS）

Amazing Digital Dentures（一个失败的项目）

受《神奇数字马戏团》启发，作者尝试用 Nemotron 30b 构建一个数字宠物，自动生成以 Three.js 实现的冒险游戏，起初作为过度工程化的待办列表，后转向纯冒险生成。长提示、技能卡及 RAG 方案均未产出可运行游戏（常出现空白屏幕）。项目最终转型为简单的 HTML 玩具制作器，能一次生成时钟、待办列表、贪吃蛇、打砖块，但俄罗斯方块等复杂项目仍会崩溃。作者正寻求新方向。

其他编码

6月7日

23:36

Gary Marcus：The Road to AI We Can Trust（RSS）

精选67

Slop、生产力，以及为何AI驱动的世界进展甚微

Gary Marcus在金融时报上看到John Burn-Murdoch的一张图表，认为它精准提炼了自己一直试图表达的观点。

大佬观点现象/趋势

推荐理由：Gary Marcus用一张图把AI的「生产力幻觉」撕了个干净，虽然他一向毒舌，但这次数据确实让我没法反驳，做AI产品和战略的可以看看这个反共识视角。

03:50

Hugging Face：Blog（RSS）

精选66

五个实验室，五个心智：用小模型构建多模型金融剧情游戏

Thousand Token Wood v2使用四个不同实验室的小模型（gpt-oss-20b、MiniCPM3-4B、Nemotron-Mini-4B及微调Qwen 0.5B）驱动金融模拟游戏的智能体。核心发现是异构服务层摩擦在于vLLM 0.22.1需CUDA工具包，而非模型本身。通过容忍性JSON解析层，添加模型只需一条配置。信息隔离确保内幕标志不在提示词中，扫描测试验证无泄露。记忆用情绪摘要截断避免淹没。微调0.5B模型实现0%自成交、100%有效报价，真相防火墙零泄露。小模型是可靠格式生成器但不可靠推理器，可通过结构化、提示词和微调弥补。

智能体Hugging Face教程/实践

推荐理由：不是那种「我用 GPT 写了个游戏」的浅显分享，真在四个小模型上跑出了博弈感，里面 vLLM 踩坑和防火墙测试方法可以直接抄作业。

00:34

Gary Marcus：The Road to AI We Can Trust（RSS）

精选69

AI 的黑色星期五

Gary Marcus 在文章中分享了对 AI 领域刚刚发生事件的看法，表达了对当前 AI 发展方向的思考。

大佬观点安全/对齐

推荐理由：Gary Marcus趁AI圈遭遇“黑周五”立刻开炮，标题就透着幸灾乐祸的犀利，不管是否同意他的立场，这篇复盘都会让你重新审视那些被狂热掩盖的信任裂缝。

6月6日

23:48

Hugging Face：Blog（RSS）

精选65

Job Searcher

Hugging Face 发布 Job Searcher，一个基于 AI 的求职搜索工具。用户上传简历并设定偏好后，系统使用教师模型 DeepSeek V4 Pro 生成 LinkedIn 搜索查询，通过 JobSpy 抓取职位，再对学生模型 Qwen3-8B（8B 参数）进行 LoRA 微调，对每个职位从技能匹配、经验相关性、教育背景、行业领域契合度和资历对齐五个维度给出评分和推理。训练在 Modal 平台单张 A100 上完成。推理部署于 Hugging Face ZeroGPU Space，使用 llama.cpp 实现流式输出。项目开源。

智能体Hugging Face教程/实践数据/训练

推荐理由：这个 hackathon 项目把教师蒸馏和 LoRA 微调 8B 模型的流程全部开源在 HF 上，做模型定制和部署的开发者能直接抄作业，尤其是推理部署踩的坑（ZeroGPU 上下文重用）很实用。

19:34

OpenRouter：Announcements（RSS）

精选58

OpenRouter 30 场 AI 大逃杀：11 个 LLM 对决，Claude 与 Grok 谁更优？

OpenRouter 展开了 30 场 AI 大逃杀式对比，涉及 11 个大语言模型，共消耗 482 美元推理费用。实验得出一个发现，该发现应改变用户阅读模型基准测试的方式。

智能体评测/基准

推荐理由：OpenRouter花了482美元让11个模型对决，结论很反直觉，下次选模型别只看基准分数，跑分高的不一定在真实场景里靠谱。

09:32

Gary Marcus：The Road to AI We Can Trust（RSS）

No， Anthropic did not call for a pause on AI development

Anthropic大佬观点安全/对齐

06:47

Hugging Face：Blog（RSS）

精选74

用Qwen2.5-3B构建多智能体经济体：工程报告

开发者用Qwen2.5-3B构建了五人森林生物多智能体经济体，每个智能体独立运行，通过vLLM部署在Modal，以Gradio为交互窗口。3B模型在100%调用中输出有效JSON，但经济判断能力弱。通过设计稀缺性（食物品种限制、易腐坏、冬季燃料危机）和优化提示词（禁止买入自产物品、给出示例）提升决策质量。15轮模拟中，蜜价从10跌至3、柴价从4涨至7、财富基尼系数从0.14扩至0.38。项目展示了小模型可靠格式化与不可靠推理之间的工程填补。

智能体Hugging Face教程/实践部署/工程

推荐理由：我觉得这是近期最诚实的小模型工程复盘，把为什么不换大模型、怎么靠提示修正推理、怎样设计系统稀缺性讲透了，比看十篇论文有实操价值。

03:34

Claude：Blog（网页）

精选76

Claude Cowork 产品指南

Anthropic 发布 Claude Cowork，一款运行在 Claude 桌面应用中的知识工作智能体。它可读写本地文件、跨 Slack 和 Google Drive 等应用协作，执行多步骤任务并生成带引用的实际交付物。核心能力包括本地文件访问、子智能体、长时间运行和定时任务。Claude Cowork 区别于对话式 AI 工具，支持用户描述目标与期望结果后自动规划执行。指南还介绍了产品矩阵（对话聊天、Claude Code 编程、Claude Cowork 跨应用知识工作）、设置要求、权限模型、七种常见工作流（如研究简报、会议准备、定期报告）以及营销和产品管理等插件。

智能体AnthropicMCP/工具教程/实践

关联讨论 1 条

推荐理由：把 Claude 从问答工具升级成能读写本地文件、跨应用交付可交付物的知识工作代理，这份官方指南给出了明确上手路径和七个真实工作流，做产品、做调研的都能直接照抄。

02:33

Claude：Blog（网页）

Anthropic销售人员用Claude Code重建团队工作流

加入Anthropic前从未写过代码的销售成员Jared Sires，利用Claude Code为销售团队开发自动化工具。他创建了内嵌于Gmail的CLAFTS（Claude Drafts），通过Claude API根据客户邮件草拟回复，每天节省2-3小时。该系统基于约4,300行代码（几乎全由Claude Code编写），从Google Drive和Anthropic公开文档提取上下文，并通过网络搜索获取最新产品信息。他还开发了CLAFTS Tones功能，通过模式匹配模仿不同人际关系下写作风格。这些工具已打包为Claude Cowork插件供整个销售团队使用。

智能体AnthropicMCP/工具教程/实践

关联讨论 1 条

00:38

Tomer Tunguz 博客（VC 分析）

精选68

AI的微型钢厂

作者通过技能蒸馏将78%的AI工作交由Mac本地模型处理，仅复杂任务发往云端。智能体自动分类任务：简单任务本地数秒完成，复杂任务路由至云端。过去一周本地处理峰值达88%。双车道设计使吞吐量提升约25%，平均任务时长从47秒降至19秒，队列等待时间从73秒降至4秒（降幅94%）。该模式类比Nucor小钢厂，每台能运行蒸馏模型的边缘设备都成为小型AI工厂，仅对那1/5困难任务支付云费用。未来几年，数以千万计的此类设备将在企业内部增殖，逐步取代现阶段云厂商账单上的大部分工作负载。

智能体大佬观点端侧

推荐理由：Tunguz 把自己 78% 的 AI 任务都挪到本地跑，吞吐量涨了 25%，延迟降了 60%。mini-mill 的类比把端侧 AI 的颠覆逻辑讲得比任何行业报告都清楚，做工作流自动化的值得细读。

6月5日

23:26

Suno：Blog（网页）

精选64

Suno Voices 使用指南：6 个技巧打造高质量人声录制

Suno Voices 面向 Web 付费用户开放。提升人声质量的 6 个技巧：在安静环境录音以减少背景噪音；先练习歌词再正式录制；不必追求完美，保留真实情感；录音时长尽量超过 1 分钟以提供更多学习素材；将人声匹配到合适的音乐流派（如民谣、流行、死亡金属、波萨诺瓦等）；敢于尝试不同风格以发现惊喜。这些技巧旨在帮助用户获得更个性化、表现力更强的声音效果。

教程/实践语音

推荐理由：Suno 官方出的 Voices 录制避坑指南，不是大新闻，但照着做能让你克隆的声音干净不少，尤其是安静环境和别怕走音那两条，做音乐的朋友可以直接收藏。

22:30

Gary Marcus：The Road to AI We Can Trust（RSS）

精选59

Sir Demis Hassabis vs Sir Demis Hassabis

DeepMind大佬观点现象/趋势

推荐理由：Gary Marcus 翻出 Hassabis 自己的话，两条 AI 时间线互相打脸，这对 DeepMind 的 AGI 叙事是个精准回击。

11:04

公众号：腾讯元宝

全网@元宝总结实录：汤道生、姚顺雨对谈AI下半场

汤道生与姚顺雨在2026AI产业应用大会上围绕AI下半场展开对谈，腾讯元宝AI录音笔提供全程完整实录。

大佬观点现象/趋势

09:28

Gary Marcus：The Road to AI We Can Trust（RSS）

Gary Marcus：无需恐慌Anthropic新博客

Anthropic发布最新博客后，推特圈热议不断。Gary Marcus在其博客中直接以“无需恐慌”为题发文，暗示不必过度反应。

Anthropic大佬观点

09:00

公众号：千问APP（阿里）

精选62

千问联合人民日报健康发布《2026 AI健康助手使用指南》

千问联合人民日报健康共同发布业内首份《2026 AI健康助手使用指南》，由北京协和医院、积水潭医院、广安门医院等20位主任医师参与审核。指南基于千问每天回应数千万次健康咨询的真实经验，将AI在健康生活中的核心价值归纳为五个角色：日常预防的健康管家、症状判断的安全守门人、就医过程的就诊小助手、读懂报告的健康档案员、康复与情绪的陪伴者。千问提醒，AI不能替代医生，出现紧急情况需直接就医。

教程/实践

推荐理由：千问和人民日报健康搞的这份指南，协和、积水潭等20位主任医师参与审核，把AI在健康咨询里能干什么梳理得很清楚，普通人有小毛病时知道怎么问、什么时候该直接去医院，实用。

06:28

OpenRouter：Announcements（RSS）

精选66

OpenRouter 翻遍 11 款 LLM 找最快的决策模型：Claude vs. Grok 领衔

OpenRouter 用总价 482 美元的推理花费，让 11 款大语言模型在 30 轮实时决策的“大逃杀”挑战中正面竞争。实验结果表明，传统的静态 benchmark 排名无法反映模型在需要即时反应的智能体任务（如自主控制机器人）中的真实表现，Claude 和 Grok 系列模型在决策速度与任务成功率上表现突出，而多项高分模型的实时调度能力未达预期。

智能体评测/基准

推荐理由：OpenRouter 让 11 个模型打了 30 局生存竞技，发现直播胜率和榜单差异很大，以后选模型不能只看跑分，得看它在压力下用谁的脑子。

05:56

Ethan Mollick：One Useful Thing（RSS）

精选73

共存与协同智能的终结

Ethan Mollick 在 One Useful Thing 博客中，以“共存与协同智能的终结”为题，并附带介绍了如何向 AI 推销一本书。

智能体大佬观点

推荐理由：Ethan Mollick 宣告「协同智能」时代结束，这个判断如果成立，所有依赖人机协作的产品设计都得重新思考。他的观点总是超前的，这篇值得点开看看。

04:53

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选61

OpenAI 发布《智能时代的生物防御》行动计划，以 AI 驱动生物韧性

OpenAI 提出一项名为“Biodefense in the Intelligence Age”的行动计划，旨在利用 AI 增强生物防御与韧性。该计划聚焦于构建 AI 驱动的生物安全能力，以应对未来可能出现的生物威胁。

OpenAI安全/对齐行业动态

推荐理由：OpenAI 第一次系统性地提出用 AI 增强生物安全韧性的路线图，不是模型发布，但对政策制定者和生物安全圈是必读文件。

01:57

Anthropic：The Institute（旗舰研究长文 · 网页）

精选82

AI加速自我构建：Anthropic研究院报告揭示趋势

Anthropic研究院报告指出，AI正加速AI开发：2021–2025年间工程师人均季度代码量提升8倍，截至2026年5月超80%合并代码由Claude生成。Claude Opus 3（2024年3月）可完成约4分钟软件任务，Claude Sonnet 3.7（2025年3月）提升至1.5小时，Claude Opus 4.6（2026年3月）可处理12小时任务。SWE-bench两年内从低个位数得分饱和；CORE-Bench约20%正确率在15个月后饱和。METR测试显示Claude Mythos Preview可连续工作至少16小时。但AI自主设定目标的能力仍存显著差距，完全自主递归自我改进尚未实现。

智能体Anthropic安全/对齐现象/趋势

关联讨论 9 条

推荐理由：Anthropic首次披露AI辅助开发的内部数据，8倍代码产出、AI自动审查bug，趋势直指完全自主AI的临界点，每个开发者和政策制定者都需要读。

01:03

Dwarkesh Patel：Podcast & Blog（RSS）

精选62

Alex Imas 和 Phil Trammell：AGI 后什么仍然稀缺？

经济学家 Alex Imas 和 Phil Trammell 指出，AGI 时代机器人数量可以快速复制增长，但人类独特技能（以芭蕾舞演员为例）的数量保持不变，揭示了即使技术大幅进步，某些稀缺资源仍不可替代。

大佬观点现象/趋势

推荐理由：Dwarkesh Patel 这次请的经济学家的访谈，把 AGI 后的稀缺性问题从哲学拉回现实。如果你在思考 AI 对就业和资产的影响，这篇比大多数技术博客更接近答案。

00:53

LMSYS：Blog（Chatbot Arena 团队）

精选77

Boson AI 与 LMSYS 发布基于 SGLang-Omni 的 Higgs Audio v3 TTS 端到端服务

Boson AI 与 LMSYS 联合推出基于 SGLang-Omni 推理框架的 Higgs Audio v3 TTS 端到端服务。该模型约 4B 参数，基于 Qwen3-4B 骨干，支持 100 种语言（内部评测覆盖 111 种），在 Seed-TTS、CV3、MiniMax-Multilingual 及 Higgs-Multilingual 零样本语音克隆任务中达到单字级 WER/CER。开发者可通过文本内控制标签实时调整情感（20+种）、风格、韵律（语速/音高/停顿）及音效。模型支持流式合成，文本未完整时即可开始生成语音并保持一致性。SGLang-Omni 专为多阶段生成模型设计，统一调度 AR 解码与轻量计算，实现低延迟推理。

开源/仓库教程/实践语音部署/工程

推荐理由：Higgs v3 把多语言和实时可控制整合进一个流式 TTS 模型，SGLang-Omni 为它搭好了多阶段推理的底座，做语音 Agent 的可以直接抄作业，这比多数论文落地快半拍。

6月4日

21:42

Hugging Face：Blog（RSS）

精选75

Nemotron 3.5 ASR：为你的语言、领域或口音进行微调

Nemotron 3.5 ASR 是一个 600M 参数的多语言流式语音识别模型，单个检查点覆盖 40 种语言-地区（含英、西、德、法、意、日、韩、中、阿拉伯等）。采用 Cache-Aware FastConformer 编码器与 RNNT 解码器，缓存内部状态避免重复计算，实现低延迟流式转录且不损失精度。模型原生输出带标点和大写的生产级文本，无需后处理。支持指定语言（target_lang=es-ES）或自动语言检测（target_lang=auto）。通过注意力上下文大小（att_context_size）可在推理时直接调节延迟-准确率权衡，范围从 80ms 到 1.12s，无需重新训练。模型以 NeMo 检查点形式发布，可用于微调以适配特定语言、领域或口音。

教程/实践语音

推荐理由：一个模型搞定40种语言的实时语音转文字，NVIDIA还给了完整微调代码和实测数据，做语音Agent和字幕的可以照着抄作业。

21:07

公众号：百度智能云（文心）

百度伐谋助力北京工业大学攻克三大科研难题

北京工业大学苗扬团队借助百度伐谋（全球首个可商用自我演化决策智能体），在三个高可靠性科研场景实现突破：空间站色谱柱构型优化中，72小时演化出新构型，归一化误差降低8.17%，体积缩小40%，分离效率提升3倍；PEM电解槽故障检测准确率从92.26%提升至95.04%，综合评分升至0.9383，建模周期从数天压缩到小时级；旋转机械故障诊断准确率从98.9055%提升至99.9877%，预测误差降至原来1%，参数量下降34%。科研人员用自然语言描述目标和约束，伐谋自动演化逼近全局最优解。

智能体教程/实践

21:00

公众号：昆仑万维（天工）

精选64

SkyClaw-v1.0 深度实测：Agent专属模型，顶尖性能表现，极致价格优势

5月26日，昆仑万维发布SkyClaw-v1.0，定位面向复杂工具使用和真实世界任务执行的高性能Agent模型，输入仅0.5元/百万token、输出4元/百万。实测显示，其从零生成番茄钟和记账本应用时，能自主用Web Audio API合成音效、用SVG手绘图表，细节处理成熟。在现有代码库修改任务中，越难的任务表现越好：单点bug修复精准，能准确诊断iOS Safari滚动问题并给出克制式修复方案。但官方未报告SWE-bench成绩，表明其优势集中在从零生成与模式匹配场景，而非大型仓库精确修改。极致低价使其在批量Agent任务与快速原型生成上性价比突出。

智能体编码评测/基准

推荐理由：这篇实测把SkyClaw的「从零生成」和「老项目修改」摊开了揉碎了测，不看广告看疗效，让我看清Agent模型的分化到底意味着什么——便宜好用但有边界，想省钱做小工具的你值得细读。