AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态一手 · 399 条
全部一手资讯X论文
6月8日周一
6月7日周日
6月6日周六
6月5日周五
6月4日周四
6月3日周三
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月8日
18:00
公众号:通义实验室(千问)
精选68
Agent 辅助开发,一站式打通 Qwen3-VL Android 端侧推理

通义实验室教程演示了如何用 Agent(Qoder)辅助完成 Qwen3-VL-2B 模型在 Android 端侧的全流程部署。操作包括:检查 JDK 21、NDK 27、CMake 3.18.1 等环境;创建 arm64-v8a 的 Native C++ 工程(minSdk 29、compileSdk 35);通过 ModelScope CLI 下载约 1.4GB 的 MNN/Qwen3-VL-2B-Instruct-MNN 模型;编译开启 LLM 视觉支持(MNN_BUILD_LLM、LLM_SUPPORT_VISION)的 libMNN.so;构建 APK 并推送模型至手机私有目录。最终 App 提供图文推理页面,输出 MNN 版本(v3.5.0)、ABI 及推理指标。所有繁琐步骤均可由 Agent 自动执行。

多模态推理教程/实践端侧

推荐理由:用Agent辅助走通Qwen3-VL安卓端侧推理全流程,从环境搭建到JNI桥接一步到位。如果你在做移动端AI应用,这可能是目前最详细的实战指南,可以直接抄作业。
03:50
Hugging Face:Blog(RSS)
27
Amazing Digital Dentures(一个失败的项目)

受《神奇数字马戏团》启发,作者尝试用 Nemotron 30b 构建一个数字宠物,自动生成以 Three.js 实现的冒险游戏,起初作为过度工程化的待办列表,后转向纯冒险生成。长提示、技能卡及 RAG 方案均未产出可运行游戏(常出现空白屏幕)。项目最终转型为简单的 HTML 玩具制作器,能一次生成时钟、待办列表、贪吃蛇、打砖块,但俄罗斯方块等复杂项目仍会崩溃。作者正寻求新方向。

其他编码
6月7日
23:36
Gary Marcus:The Road to AI We Can Trust(RSS)
精选67
Slop、生产力,以及为何AI驱动的世界进展甚微

Gary Marcus在金融时报上看到John Burn-Murdoch的一张图表,认为它精准提炼了自己一直试图表达的观点。

大佬观点现象/趋势

推荐理由:Gary Marcus用一张图把AI的「生产力幻觉」撕了个干净,虽然他一向毒舌,但这次数据确实让我没法反驳,做AI产品和战略的可以看看这个反共识视角。
03:50
Hugging Face:Blog(RSS)
精选66
五个实验室,五个心智:用小模型构建多模型金融剧情游戏

Thousand Token Wood v2使用四个不同实验室的小模型(gpt-oss-20b、MiniCPM3-4B、Nemotron-Mini-4B及微调Qwen 0.5B)驱动金融模拟游戏的智能体。核心发现是异构服务层摩擦在于vLLM 0.22.1需CUDA工具包,而非模型本身。通过容忍性JSON解析层,添加模型只需一条配置。信息隔离确保内幕标志不在提示词中,扫描测试验证无泄露。记忆用情绪摘要截断避免淹没。微调0.5B模型实现0%自成交、100%有效报价,真相防火墙零泄露。小模型是可靠格式生成器但不可靠推理器,可通过结构化、提示词和微调弥补。

智能体Hugging Face教程/实践

推荐理由:不是那种「我用 GPT 写了个游戏」的浅显分享,真在四个小模型上跑出了博弈感,里面 vLLM 踩坑和防火墙测试方法可以直接抄作业。
00:34
Gary Marcus:The Road to AI We Can Trust(RSS)
精选69
AI 的黑色星期五

Gary Marcus 在文章中分享了对 AI 领域刚刚发生事件的看法,表达了对当前 AI 发展方向的思考。

大佬观点安全/对齐

推荐理由:Gary Marcus趁AI圈遭遇“黑周五”立刻开炮,标题就透着幸灾乐祸的犀利,不管是否同意他的立场,这篇复盘都会让你重新审视那些被狂热掩盖的信任裂缝。
6月6日
23:48
Hugging Face:Blog(RSS)
精选65
Job Searcher

Hugging Face 发布 Job Searcher,一个基于 AI 的求职搜索工具。用户上传简历并设定偏好后,系统使用教师模型 DeepSeek V4 Pro 生成 LinkedIn 搜索查询,通过 JobSpy 抓取职位,再对学生模型 Qwen3-8B(8B 参数)进行 LoRA 微调,对每个职位从技能匹配、经验相关性、教育背景、行业领域契合度和资历对齐五个维度给出评分和推理。训练在 Modal 平台单张 A100 上完成。推理部署于 Hugging Face ZeroGPU Space,使用 llama.cpp 实现流式输出。项目开源。

智能体Hugging Face教程/实践数据/训练

推荐理由:这个 hackathon 项目把教师蒸馏和 LoRA 微调 8B 模型的流程全部开源在 HF 上,做模型定制和部署的开发者能直接抄作业,尤其是推理部署踩的坑(ZeroGPU 上下文重用)很实用。
19:34
OpenRouter:Announcements(RSS)
精选58
OpenRouter 30 场 AI 大逃杀:11 个 LLM 对决,Claude 与 Grok 谁更优?

OpenRouter 展开了 30 场 AI 大逃杀式对比,涉及 11 个大语言模型,共消耗 482 美元推理费用。实验得出一个发现,该发现应改变用户阅读模型基准测试的方式。

智能体评测/基准

推荐理由:OpenRouter花了482美元让11个模型对决,结论很反直觉,下次选模型别只看基准分数,跑分高的不一定在真实场景里靠谱。
09:32
Gary Marcus:The Road to AI We Can Trust(RSS)
42
No, Anthropic did not call for a pause on AI development
Anthropic大佬观点安全/对齐
06:47
Hugging Face:Blog(RSS)
精选74
用Qwen2.5-3B构建多智能体经济体:工程报告

开发者用Qwen2.5-3B构建了五人森林生物多智能体经济体,每个智能体独立运行,通过vLLM部署在Modal,以Gradio为交互窗口。3B模型在100%调用中输出有效JSON,但经济判断能力弱。通过设计稀缺性(食物品种限制、易腐坏、冬季燃料危机)和优化提示词(禁止买入自产物品、给出示例)提升决策质量。15轮模拟中,蜜价从10跌至3、柴价从4涨至7、财富基尼系数从0.14扩至0.38。项目展示了小模型可靠格式化与不可靠推理之间的工程填补。

智能体Hugging Face教程/实践部署/工程

推荐理由:我觉得这是近期最诚实的小模型工程复盘,把为什么不换大模型、怎么靠提示修正推理、怎样设计系统稀缺性讲透了,比看十篇论文有实操价值。
03:34
Claude:Blog(网页)
精选76
Claude Cowork 产品指南

Anthropic 发布 Claude Cowork,一款运行在 Claude 桌面应用中的知识工作智能体。它可读写本地文件、跨 Slack 和 Google Drive 等应用协作,执行多步骤任务并生成带引用的实际交付物。核心能力包括本地文件访问、子智能体、长时间运行和定时任务。Claude Cowork 区别于对话式 AI 工具,支持用户描述目标与期望结果后自动规划执行。指南还介绍了产品矩阵(对话聊天、Claude Code 编程、Claude Cowork 跨应用知识工作)、设置要求、权限模型、七种常见工作流(如研究简报、会议准备、定期报告)以及营销和产品管理等插件。

智能体AnthropicMCP/工具教程/实践
关联讨论 1 条Claude:Blog(网页)
推荐理由:把 Claude 从问答工具升级成能读写本地文件、跨应用交付可交付物的知识工作代理,这份官方指南给出了明确上手路径和七个真实工作流,做产品、做调研的都能直接照抄。
02:33
Claude:Blog(网页)
59
Anthropic销售人员用Claude Code重建团队工作流

加入Anthropic前从未写过代码的销售成员Jared Sires,利用Claude Code为销售团队开发自动化工具。他创建了内嵌于Gmail的CLAFTS(Claude Drafts),通过Claude API根据客户邮件草拟回复,每天节省2-3小时。该系统基于约4,300行代码(几乎全由Claude Code编写),从Google Drive和Anthropic公开文档提取上下文,并通过网络搜索获取最新产品信息。他还开发了CLAFTS Tones功能,通过模式匹配模仿不同人际关系下写作风格。这些工具已打包为Claude Cowork插件供整个销售团队使用。

智能体AnthropicMCP/工具教程/实践
关联讨论 1 条Claude:Blog(网页)
00:38
Tomer Tunguz 博客(VC 分析)
精选68
AI的微型钢厂

作者通过技能蒸馏将78%的AI工作交由Mac本地模型处理,仅复杂任务发往云端。智能体自动分类任务:简单任务本地数秒完成,复杂任务路由至云端。过去一周本地处理峰值达88%。双车道设计使吞吐量提升约25%,平均任务时长从47秒降至19秒,队列等待时间从73秒降至4秒(降幅94%)。该模式类比Nucor小钢厂,每台能运行蒸馏模型的边缘设备都成为小型AI工厂,仅对那1/5困难任务支付云费用。未来几年,数以千万计的此类设备将在企业内部增殖,逐步取代现阶段云厂商账单上的大部分工作负载。

智能体大佬观点端侧

推荐理由:Tunguz 把自己 78% 的 AI 任务都挪到本地跑,吞吐量涨了 25%,延迟降了 60%。mini-mill 的类比把端侧 AI 的颠覆逻辑讲得比任何行业报告都清楚,做工作流自动化的值得细读。
6月5日
23:26
Suno:Blog(网页)
精选64
Suno Voices 使用指南:6 个技巧打造高质量人声录制

Suno Voices 面向 Web 付费用户开放。提升人声质量的 6 个技巧:在安静环境录音以减少背景噪音;先练习歌词再正式录制;不必追求完美,保留真实情感;录音时长尽量超过 1 分钟以提供更多学习素材;将人声匹配到合适的音乐流派(如民谣、流行、死亡金属、波萨诺瓦等);敢于尝试不同风格以发现惊喜。这些技巧旨在帮助用户获得更个性化、表现力更强的声音效果。

教程/实践语音

推荐理由:Suno 官方出的 Voices 录制避坑指南,不是大新闻,但照着做能让你克隆的声音干净不少,尤其是安静环境和别怕走音那两条,做音乐的朋友可以直接收藏。
22:30
Gary Marcus:The Road to AI We Can Trust(RSS)
精选59
Sir Demis Hassabis vs Sir Demis Hassabis
DeepMind大佬观点现象/趋势

推荐理由:Gary Marcus 翻出 Hassabis 自己的话,两条 AI 时间线互相打脸,这对 DeepMind 的 AGI 叙事是个精准回击。
11:04
公众号:腾讯元宝
55
全网@元宝总结实录:汤道生、姚顺雨对谈AI下半场

汤道生与姚顺雨在2026AI产业应用大会上围绕AI下半场展开对谈,腾讯元宝AI录音笔提供全程完整实录。

大佬观点现象/趋势
09:28
Gary Marcus:The Road to AI We Can Trust(RSS)
24
Gary Marcus:无需恐慌Anthropic新博客

Anthropic发布最新博客后,推特圈热议不断。Gary Marcus在其博客中直接以“无需恐慌”为题发文,暗示不必过度反应。

Anthropic大佬观点
09:00
公众号:千问APP(阿里)
精选62
千问联合人民日报健康发布《2026 AI健康助手使用指南》

千问联合人民日报健康共同发布业内首份《2026 AI健康助手使用指南》,由北京协和医院、积水潭医院、广安门医院等20位主任医师参与审核。指南基于千问每天回应数千万次健康咨询的真实经验,将AI在健康生活中的核心价值归纳为五个角色:日常预防的健康管家、症状判断的安全守门人、就医过程的就诊小助手、读懂报告的健康档案员、康复与情绪的陪伴者。千问提醒,AI不能替代医生,出现紧急情况需直接就医。

教程/实践

推荐理由:千问和人民日报健康搞的这份指南,协和、积水潭等20位主任医师参与审核,把AI在健康咨询里能干什么梳理得很清楚,普通人有小毛病时知道怎么问、什么时候该直接去医院,实用。
06:28
OpenRouter:Announcements(RSS)
精选66
OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔

OpenRouter 用总价 482 美元的推理花费,让 11 款大语言模型在 30 轮实时决策的“大逃杀”挑战中正面竞争。实验结果表明,传统的静态 benchmark 排名无法反映模型在需要即时反应的智能体任务(如自主控制机器人)中的真实表现,Claude 和 Grok 系列模型在决策速度与任务成功率上表现突出,而多项高分模型的实时调度能力未达预期。

智能体评测/基准

推荐理由:OpenRouter 让 11 个模型打了 30 局生存竞技,发现直播胜率和榜单差异很大,以后选模型不能只看跑分,得看它在压力下用谁的脑子。
05:56
Ethan Mollick:One Useful Thing(RSS)
精选73
共存与协同智能的终结

Ethan Mollick 在 One Useful Thing 博客中,以“共存与协同智能的终结”为题,并附带介绍了如何向 AI 推销一本书。

智能体大佬观点

推荐理由:Ethan Mollick 宣告「协同智能」时代结束,这个判断如果成立,所有依赖人机协作的产品设计都得重新思考。他的观点总是超前的,这篇值得点开看看。
04:53
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选61
OpenAI 发布《智能时代的生物防御》行动计划,以 AI 驱动生物韧性

OpenAI 提出一项名为“Biodefense in the Intelligence Age”的行动计划,旨在利用 AI 增强生物防御与韧性。该计划聚焦于构建 AI 驱动的生物安全能力,以应对未来可能出现的生物威胁。

OpenAI安全/对齐行业动态

推荐理由:OpenAI 第一次系统性地提出用 AI 增强生物安全韧性的路线图,不是模型发布,但对政策制定者和生物安全圈是必读文件。
01:57
Anthropic:The Institute(旗舰研究长文 · 网页)
精选82
AI加速自我构建:Anthropic研究院报告揭示趋势

Anthropic研究院报告指出,AI正加速AI开发:2021–2025年间工程师人均季度代码量提升8倍,截至2026年5月超80%合并代码由Claude生成。Claude Opus 3(2024年3月)可完成约4分钟软件任务,Claude Sonnet 3.7(2025年3月)提升至1.5小时,Claude Opus 4.6(2026年3月)可处理12小时任务。SWE-bench两年内从低个位数得分饱和;CORE-Bench约20%正确率在15个月后饱和。METR测试显示Claude Mythos Preview可连续工作至少16小时。但AI自主设定目标的能力仍存显著差距,完全自主递归自我改进尚未实现。

智能体Anthropic安全/对齐现象/趋势
关联讨论 9 条X:Anthropic (@AnthropicAI)X:Emad Mostaque (@EMostaque)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)X:Kim (@kimmonismus)X:小互 (@xiaohu)X:Testing Catalog (@testingcatalog)X:卡兹克 (@Khazix0918)X:Rohan Paul (@rohanpaul_ai)
推荐理由:Anthropic首次披露AI辅助开发的内部数据,8倍代码产出、AI自动审查bug,趋势直指完全自主AI的临界点,每个开发者和政策制定者都需要读。
01:03
Dwarkesh Patel:Podcast & Blog(RSS)
精选62
Alex Imas 和 Phil Trammell:AGI 后什么仍然稀缺?

经济学家 Alex Imas 和 Phil Trammell 指出,AGI 时代机器人数量可以快速复制增长,但人类独特技能(以芭蕾舞演员为例)的数量保持不变,揭示了即使技术大幅进步,某些稀缺资源仍不可替代。

大佬观点现象/趋势

推荐理由:Dwarkesh Patel 这次请的经济学家的访谈,把 AGI 后的稀缺性问题从哲学拉回现实。如果你在思考 AI 对就业和资产的影响,这篇比大多数技术博客更接近答案。
00:53
LMSYS:Blog(Chatbot Arena 团队)
精选77
Boson AI 与 LMSYS 发布基于 SGLang-Omni 的 Higgs Audio v3 TTS 端到端服务

Boson AI 与 LMSYS 联合推出基于 SGLang-Omni 推理框架的 Higgs Audio v3 TTS 端到端服务。该模型约 4B 参数,基于 Qwen3-4B 骨干,支持 100 种语言(内部评测覆盖 111 种),在 Seed-TTS、CV3、MiniMax-Multilingual 及 Higgs-Multilingual 零样本语音克隆任务中达到单字级 WER/CER。开发者可通过文本内控制标签实时调整情感(20+种)、风格、韵律(语速/音高/停顿)及音效。模型支持流式合成,文本未完整时即可开始生成语音并保持一致性。SGLang-Omni 专为多阶段生成模型设计,统一调度 AR 解码与轻量计算,实现低延迟推理。

开源/仓库教程/实践语音部署/工程

推荐理由:Higgs v3 把多语言和实时可控制整合进一个流式 TTS 模型,SGLang-Omni 为它搭好了多阶段推理的底座,做语音 Agent 的可以直接抄作业,这比多数论文落地快半拍。
6月4日
21:42
Hugging Face:Blog(RSS)
精选75
Nemotron 3.5 ASR:为你的语言、领域或口音进行微调

Nemotron 3.5 ASR 是一个 600M 参数的多语言流式语音识别模型,单个检查点覆盖 40 种语言-地区(含英、西、德、法、意、日、韩、中、阿拉伯等)。采用 Cache-Aware FastConformer 编码器与 RNNT 解码器,缓存内部状态避免重复计算,实现低延迟流式转录且不损失精度。模型原生输出带标点和大写的生产级文本,无需后处理。支持指定语言(target_lang=es-ES)或自动语言检测(target_lang=auto)。通过注意力上下文大小(att_context_size)可在推理时直接调节延迟-准确率权衡,范围从 80ms 到 1.12s,无需重新训练。模型以 NeMo 检查点形式发布,可用于微调以适配特定语言、领域或口音。

教程/实践语音

推荐理由:一个模型搞定40种语言的实时语音转文字,NVIDIA还给了完整微调代码和实测数据,做语音Agent和字幕的可以照着抄作业。
21:07
公众号:百度智能云(文心)
35
百度伐谋助力北京工业大学攻克三大科研难题

北京工业大学苗扬团队借助百度伐谋(全球首个可商用自我演化决策智能体),在三个高可靠性科研场景实现突破:空间站色谱柱构型优化中,72小时演化出新构型,归一化误差降低8.17%,体积缩小40%,分离效率提升3倍;PEM电解槽故障检测准确率从92.26%提升至95.04%,综合评分升至0.9383,建模周期从数天压缩到小时级;旋转机械故障诊断准确率从98.9055%提升至99.9877%,预测误差降至原来1%,参数量下降34%。科研人员用自然语言描述目标和约束,伐谋自动演化逼近全局最优解。

智能体教程/实践
21:00
公众号:昆仑万维(天工)
精选64
SkyClaw-v1.0 深度实测:Agent专属模型,顶尖性能表现,极致价格优势

5月26日,昆仑万维发布SkyClaw-v1.0,定位面向复杂工具使用和真实世界任务执行的高性能Agent模型,输入仅0.5元/百万token、输出4元/百万。实测显示,其从零生成番茄钟和记账本应用时,能自主用Web Audio API合成音效、用SVG手绘图表,细节处理成熟。在现有代码库修改任务中,越难的任务表现越好:单点bug修复精准,能准确诊断iOS Safari滚动问题并给出克制式修复方案。但官方未报告SWE-bench成绩,表明其优势集中在从零生成与模式匹配场景,而非大型仓库精确修改。极致低价使其在批量Agent任务与快速原型生成上性价比突出。

智能体编码评测/基准

推荐理由:这篇实测把SkyClaw的「从零生成」和「老项目修改」摊开了揉碎了测,不看广告看疗效,让我看清Agent模型的分化到底意味着什么——便宜好用但有边界,想省钱做小工具的你值得细读。
20:00
OpenRouter:Announcements(RSS)
54
OpenRouter 横评 11 款 LLM 机器人冲刺对决:Claude 与 Grok 谁更胜一筹?

OpenRouter 在 30 场机器人冲刺对决中测试了 11 款大语言模型,共耗 482 美元推理成本。结果指向一个发现:应该重新审视模型 benchmark 的解读方式。

智能体推理评测/基准
18:25
公众号:面壁智能(MiniCPM)
42
智能座舱卷到头了?这份白皮书给出了答案
多模态现象/趋势端侧
10:01
公众号:阶跃星辰(Step)
45
阶跃 Step 3.7 Flash 拿下 Artificial Analysis 多个第一

阶跃星辰的 Step 3.7 Flash 在 Artificial Analysis 最新榜单中多项关键维度领先。其输出速度达 409 tokens/s,位列主流模型第一;端到端响应时长仅 7.1 秒;智能效率与速度价格比均进入最吸引人的象限。模型在搜索、代码、多模态理解和 Agent 工作流中保持稳定表现,兼顾速度、智能与成本,适合大规模商业化部署。

智能体推理评测/基准
07:26
OpenAI:官网动态(RSS · 排除企业/客户案例)
42
Wasmer 使用 Codex 构建边缘 Node.js 运行时

Wasmer 借助 Codex(基于 GPT-5.5)构建了一个用于边缘计算的 Node.js 运行时,将开发速度提升 10 到 20 倍,交付周期从数月缩短至数周。

OpenAI教程/实践编码
02:49
Google Research:Blog(网页)
精选72
洪水韧性新篇章:Google 开源水文建模框架

Google Research 在 GitHub 开源了其水文建模框架,这是一个基于 PyTorch 的 Python 包,采用与 Flood Hub 河段洪水预报相同的模型架构和训练数据。该框架允许研究者和预报员训练 AI 洪水预报模型、添加新模型与数据,并已与捷克水文气象研究所(CHMI)等合作测试。开放模型架构和训练管线旨在让各国气象水文部门在保留数据完全控制权的同时,整合基于 AI 的洪水预报。

Google开源/仓库开源生态数据/训练

推荐理由:谷歌开源的水文模型框架,是少数真正能救命的AI应用。不是秀参数,而是把工具直接塞给一线预报员,让他们用本地数据训练。务实,值得给赞。
02:23
Claude:Blog(网页)
精选76
Claude Cowork 入门最佳实践

Anthropic 增长营销负责人 Austin Lau 介绍了非技术知识工作者使用 Claude Cowork 的最佳实践。Claude Cowork 是面向文档、电子表格等多步骤任务的 AI 助手,用户无需编程技能,将其指向文件夹或连接已有应用即可委托任务。与用于快速问答和头脑风暴的 Chat 以及面向开发者的 Claude Code 不同,Claude Cowork 适用于需要产出交付物、涉及多个文件或应用、可重复执行的场景。Lau 给出了判断任务是否适合的五项检查清单,并预告将于6月4日分享具体营销用例。

Anthropic教程/实践
关联讨论 1 条Claude:Blog(网页)
推荐理由:Anthropic 官方教你如何把 Claude Cowork 用到极致,从每日摘要到自动报表,非技术人员看完就能上手,比自己硬摸索省十倍时间。
01:23
Claude:Blog(网页)
精选68
Claude Code技能使用经验:Anthropic内部实践

Anthropic 分享了内部使用 Claude Code 的 Skills(技能)功能的经验。Skills 是指令、脚本和资源的文件夹,智能体可发现并调用它们以提升准确性和效率。Anthropic 内部已有数百个活跃使用的技能,它们可归为九类,包括库和 API 参考、产品验证、数据获取与分析、业务流程与团队自动化、代码脚手架与模板、代码质量与审查等。最佳技能专注于单一类别,涵盖过多功能会混淆智能体。团队发现,投入时间优化验证类技能对 Claude 输出质量的提升最显著。

智能体AnthropicMCP/工具教程/实践
关联讨论 4 条Claude:Blog(网页)X:小北 (@frxiaobei)X:Claude Devs (@ClaudeDevs)Hacker News 热门(buzzing.cc 中文翻译)
推荐理由:这不是产品公告,而是从几百个内部技能中血泪总结出的实战手册。如果你想让Claude Code真正变成你的工程副驾驶,这9类技能和‘gotchas’章节至少省你三个月踩坑。
01:23
Claude:Blog(网页)
精选73
Anthropic 用 Claude 赋能自助数据分析

Anthropic 使用 Claude 自动化了 95% 的业务分析查询,整体准确率约 95%。其关键在于构建智能体分析栈(agentic analytics stack),通过数据基础层、维护验证流程和技能(skills)分别解决概念-实体歧义、数据过时和检索失败三大错误来源。相比编码场景,数据分析的难点在于将用户问题映射到正确的数据实体,而执行 SQL 反而是简单的。Anthropic 的数据科学团队因此得以专注于因果建模、预测和机器学习等战略工作。

智能体Anthropic教程/实践数据/训练
关联讨论 1 条X:Claude Devs (@ClaudeDevs)
推荐理由:Anthropic 把内部用 Claude 搞自助分析踩过的坑全摊开,技能模板和「语义层优先」的强制流程是实打实的干货,做数据 agent 的团队可以直接抄作业。
6月3日
21:41
Hugging Face:Blog(RSS)
精选55
DharmaOCR 利用 DPO 将文本退化率降低 59.4%

4月发布的DharmaOCR(结构化OCR模型)在巴西葡萄牙语文档提取任务中,使用直接偏好优化(DPO)作为监督微调(SFT)后的第二训练阶段。SFT无法直接惩罚文本退化(重复循环),而DPO以模型自身失败输出(退化循环)作为负样本进行偏好训练,使所有测试模型族的文本退化率平均降低59.4%,最高达87.6%(如Nanonets-OCR2-3B从1.61%降至0.20%)。传统DPO多用于聊天对齐,该工作将其扩展至客观的OCR任务,证明DPO可针对性修复特定失败模式。

Hugging Face教程/实践数据/训练

推荐理由:DPO 不只能对齐,这篇直接用模型自身的垃圾输出当反例,把 OCR 的重复错误平均降了 59%。思路不复杂,但告诉做结构化生成的工程师:训练数据里最该保留的就是模型犯的错。
21:37
Tomer Tunguz 博客(VC 分析)
精选66
智能性价比

微软在模型发布卡中首次加入平均token使用量指标。其模型在SWE-Bench Verified上达71.6分,仅消耗约Claude Haiku 4.5三分之一的token。Artificial Analysis的Intelligence Index显示GPT 5.5与Claude Opus 4.8得分相近(约60分),但Opus 4.8运行成本高出40%($4,685 vs $3,357)。Uber因四个月内AI预算超支而限制员工使用;Salesforce花费$3亿购买Anthropic tokens并冻结工程招聘。模型公司如今需同时在性能和成本两个维度竞争。

MicrosoftOpenAI推理现象/趋势

推荐理由:微软在模型发布卡上悄悄加了“平均token消耗”这个指标,这不是小改动,而是宣告AI从堆算力转向算账时代。Uber和Salesforce的预算教训已经很清楚了。
21:34
Google Blog:AI(RSS)
53
Google Search 提升二手和复古购物体验的5种方式

Google Search 和 Google Shopping 中的 AI 工具帮助用户在二手和复古购物中发现好物。

Google搜索教程/实践
20:00
公众号:昆仑万维(天工)
53
昆仑万维方汉:智力与能源是中国AI底层逻辑,香港可做数据合规沙盒与学术桥梁

近日,昆仑万维董事长兼CEO方汉在2026年香港科创主题研讨会上指出,中国AI的底层逻辑是智力与能源,中国具备明显优势,全球最好的开源大模型DeepSeek已能在多个垂直领域与美国产品竞争。公司2026年第一季度营收25.70亿元,同比增长45.69%;海外收入24.87亿元,同比增长49.29%;短剧及AI短剧平台月流水超4800万美元,ARR超5.7亿美元。方汉认为香港可扮演数据合规“沙盒”与学术交流桥梁角色,并呼吁长期资本重视AI应用层,称生成式AI将内容制作成本压低至几万分之一,传统渠道将被重做,订阅制将被免费模式取代。

大佬观点开源生态
15:47
公众号:面壁智能(MiniCPM)
32
AI构筑"新丝路",面壁智能以端侧AI赋能"一带一路"数字合作

面壁智能CEO李大海近日在中吉媒体合作论坛上指出,中亚可成为数字丝绸之路智能枢纽,需提供低成本、可落地、可信赖的AI能力。公司自研MiniCPM系列大模型累计下载突破3000万次,已在汽车、智能手机等领域落地。面壁智能曾参与老挝国家大模型建设,打造的老挝语翻译模型在专业评测中超越GPT-4o,并训练融入本土文化的大模型,设计低成本多模型联合推理方案。李大海提出AI应成为普惠基础设施,合作需从概念转向实体落地。面壁智能已跑通“主权大模型”全链路技术路径,形成可全球复用的智能底座。

大佬观点开源生态端侧
13:38
公众号:火山引擎
精选64
Vibe Creating:让创作回归「表达」本身

火山引擎 Seedance 2.0 提出 AI 视频创作新范式 Vibe Creating,核心是让创作者放下技术负担,用故事表达代替复杂 Prompt 参数。该范式强调用富有画面感的语言描述场景、情绪和叙事,模型自行理解意图并完成景别、光影、节奏的诠释,避免过度规定镜头调度。适用于文学作品可视化、影视预演等场景,并配套发布《Vibe Creating 实践手册》及可执行的 Prompt Skill,从创意到高质量提示词一步到位。

教程/实践视频

推荐理由:火山引擎把 Seedance 2.0 的用法提炼成「Vibe Creating」方法论,核心是教人用故事感代替镜头术语,虽然不涉及模型升级,但附带可直接套用的手册和 Skill,做 AI 短视频的可以当成 Prompt 指南。
‹ 上一页
1234…10
下一页 ›