AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态今日 197 条
全部一手资讯X论文
6月9日周二
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月9日
10:12
Rohan Paul@rohanpaul_ai
精选83
Elon Musk 详解 SpaceX AI1 轨道 AI 数据中心卫星方案

Elon Musk 首次详细解释 SpaceX 的 AI1 轨道 AI 数据中心卫星:峰值功率 150 kW,持续计算功率约 120 kW,相当于一个 NVIDIA GB300 机架;太阳能板效率 250 W/m²;双面散热器排热 1,400 W/m²。通过激光链路实现约 1 Tbps 互联,低轨 600–800 km 高度往返延迟 6–8 ms。由 Starship 发射,计划部署多达百万颗卫星,2027 年底前实现量产。近地目标为吉瓦级轨道 AI 算力,长期向太瓦级推进。

SpaceX: Watch @ElonMusk provide a technical update on SpaceX's capability to manufacture, launch, and operate AI satellites at s...

行业动态部署/工程
关联讨论 1 条IT之家(RSS)
推荐理由:马斯克首次详细勾勒太空 AI 数据中心的路线图,从单颗卫星的 120kW 算力到百万颗组网的 terawatt 规模,把算力痛点从土地和电力拽到轨道上,基础设施的想象力得跟着刷新了。
10:09
TechCrunch:AI(RSS)
58
苹果稳健的AI策略正显成效

苹果的新AI改进可能平息外界对其在重要行业竞赛中落后的指责,表明其慢而稳的AI押注正变得明智。

现象/趋势端侧
10:03
Berryxia.AI@berryxia
69
Tim Cook最后一次主持WWDC,9月1日交棒John Ternus,AI为核心。端侧3B模型AFM 3 Core,进阶层20B MoE仅限iPhone 17 Pro/M4设备,数据端到端加密。四大能力:个人上下文理解、世界知识检索、App Actions、屏幕感知。Siri升级连续对话/跨设备/视觉识别,上线独立App,仅英语且中国欧盟暂不可用。Image Playground支持写实生成;Xcode可选多模型;照片处理速度提升70%,AirDrop提速80%,应用启动加速30%。Agent多步任务自动化仍薄弱。

Berryxia.AI: 没有熬夜的兄弟们来看,WWDC 2026 速览! 另插一嘴,Apple真的没有特别的新东西。 一、历史性时刻 1库克谢幕:Tim Cook最后一次以CEO身份主持WWDC,9月1日将交接给硬件工程副总裁John Ternus 2基调延续:发...

多模态大佬观点端侧
10:03
Berryxia.AI@berryxia
精选75
开源工具 Tokei:在菜单栏实时监控 AI coding agent 的 token 用量与成本

Berry Xia 推荐开源工具 Tokei,这是一个 macOS 菜单栏小工具,只读本地日志、零网络调用,30 秒自动刷新,实时监控 Claude Code、Grok CLI、Aider、OpenCode 等 8 个主流 AI coding agent 的 token 用量、实时成本与性能数据,并附每日图表、周热力图和年度 Wrapped。支持私人 Git 多设备同步、价格表本地覆盖,闲置过久会提醒休息。引用推文指出,token 消耗情况可作为深度使用 AI 的面试亮点,数据全程私有,零侵入,无需任何认证。

岚叔: 快让我看看大家消耗了多少token🎉 我现在面试会问候选人的token 消耗情况,这个算是评判你深度使用AI的一个证明了 建议有刚需的朋友也保留一份,给自己简历也能增加一些亮点 当前发布的开源版本使用的是github 做的同步,全程数据都...

GitHubMCP/工具开源/仓库

推荐理由:Tokei把AI coding的成本黑洞撕开一个口子,本地零侵入,数据私有不联网,开源玩法实属良心。做开发者的,是时候正视自己烧了多少Token了。
10:00
Chubby♨️@kimmonismus
35
尽管我想亲自测试Apple Intelligence:它看起来很有前景,可能最终为数百万苹果用户提供真正的AI访问。
多模态大佬观点端侧
09:41
Ethan Mollick@emollick
58
Anthropic和OpenAI都在它们最新的"接下来是什么"AI展望中提到了减缓AI发展的可能性,但表示这需要全球协调行动,并使用尚未确定的方法。
AnthropicOpenAI大佬观点安全/对齐
09:28
AYi@AYi_AInotes
精选77
FrontierCode 基准测试:AI 编程评估新标准--维护者审核通过率最高仅 13.4%

Cognition 发布 FrontierCode 基准测试,重新定义 AI 编程评估:由 20 多位顶级开源维护者手工制作 150 个任务(每个耗时 40+ 小时),依据 3000 多条规则判断维护者是否愿意合并代码。该基准指出 SWE-Bench 等超半数通过测试的代码实为不可维护的垃圾。结果中 Claude Opus 4.8 在最高难度档获 13.4%,GPT-5.5 为 6.3%,其余模型 1%–5%。这意味着即便最强模型,近九成代码仍无法通过有经验维护者审核。

Cognition: Introducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by ...

AnthropicOpenAI编码评测/基准

推荐理由:Cognition 这个新基准把尺子从「代码能不能跑」换成了「维护者愿不愿意 merge」,直接戳破现有编码评测的泡沫。Opus 4.8 第一但只有 13.4%,真实世界的编程距离「能用」还有九成路要走,做 coding agent 的团队必读。
09:21
IT之家(RSS)
39
多地公布2026高考查分时间,教育部"阳光志愿"系统将优化升级

2026年全国高考统考科目于6月8日结束,部分省份选考科目仍在进行。海南、山东、山西、重庆、广东、湖北、江西等地已公布查分时间,多数集中在6月25日。教育部将举办“2026年全国普通高等学校招生云咨询周”,并对“阳光高考”平台及“阳光志愿”信息服务系统进行优化升级。此外,多地考场已投入使用AI智能巡查系统,通过视觉分析算法捕捉异常行为并自动标记作弊迹象,供审核员进一步确认。

行业动态部署/工程
09:21
IT之家(RSS)
精选70
两部门:到2026年底人形机器人等重点产品完成应用验证并常态部署

工信部、国资委6月8日联合发布通知,目标到2026年底,人形机器人等重点产品在代表性场景完成应用验证并开启常态部署,形成百个以上高价值场景,万台级规模落地。要求各省级地区选取不少于20个场景单元(覆盖两类领域),央企不少于10个。围绕打造实景实训空间、组建创新应用联合体、攻关作业技能、加强验证部署、强化要素保障、凝练经验等六大任务展开,鼓励“人形机器人即服务”等商业创新。

具身智能政策/监管

推荐理由:工信部和国资委联合发文,目标2026年底人形机器人万台规模落地,这不是画饼,是实打实的场景清单和验证要求,做机器人的同行该逐条对照了。
09:17
歸藏(guizang.ai)@op7418
53
昨晚苹果 WWDC 唯一的亮点就是这个灵动岛的新 Siri AI 了。 而且本地端侧模型居然只支持 17Pro 这一款设备,当然欧洲和中国还是不可用。
产品更新端侧语音
09:13
meng shao@shao__meng
68
Claude Code 上线一周年:演进与方法论回顾

Claude Code 负责人Boris Cherny与Cat Wu回顾一周年核心方法论:每次Claude犯错写入CLAUDE.md或Skill持久化规则而非口头纠正;Verification指agent亲自跑起来验证(如启动模拟器、computer use测试)。Auto Mode取代Plan Mode,用独立分类模型筛权限风险而非人工审批。Routines实现自动化运维(如监听GitHub bug自动提PR)。Context Minimalism主张最小system prompt和工具集。团队预判未来agent运行更久、成百上千并行,产品形态将巨变。

ClaudeDevs: Claude Code's first demo got two Slack reactions. One year after GA, @bcherny and @_catwu look back: verification best p...

智能体AnthropicMCP/工具大佬观点
09:13
meng shao@shao__meng
72
Cognition 推出 FrontierCode 代码评估基准:从可用到可合并

Cognition 发布 FrontierCode,含 150 个任务(来自 36 个开源仓库,每任务 40+ 小时),按难度分 Extended/Main/Diamond 三层。沿行为正确性、回归安全等六维度衡量 mergeability,指标为 Pass rate 与 Score。Diamond 子集最高分:Claude Opus 4.8 达 13.4%,GPT-5.5 为 6.3%,Gemini 3.1 Pro 4.7%;Main 子集 Opus 4.8 为 34.3%。开源最佳 Kimi K2.6 仅 3.8%。GPT-5.5 token 用量约为 Opus 四分之一,性价比更优。

Cognition: Introducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by ...

编码评测/基准
09:08
Nathan Lambert@natolambert
8
我保密地不会加入 Anthropic。
Anthropic其他
08:51
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
43
OpenAI 与 Anthropic 一样,认为可能需要暂停前沿 AI 开发,并呼吁成立国际组织协调行动,包括在必要时放缓前沿发展。主推文欢呼所有前沿 AI 公司都加入了。

Peter Wildeford🇺🇸🚀: OpenAI joins Anthropic in thinking pausing may be needed 👀 "there should be an international organization that helps [....

OpenAI安全/对齐行业动态
08:43
meng shao@shao__meng
精选75
GitHub 122K⭐的Skills推出新技能「Teach」:把工作目录变有状态学习空间

GitHub 122K⭐的Skills仓库推出新技能Teach,可将当前工作目录变为有状态学习空间。设计理念从Knowledge(概念事实)→Skills(动手操作)→Wisdom(真实判断)。工作区以文件即学习状态:MISSION.md定目标、lessons/提供课程、learning-records/记录已会内容、reference/生成速查手册。五个关键机制:Mission定方向、ZPD根据记录调整难度、Lesson一课一事+即时反馈、Learning Record记“会了什么”而非“讲了什么”、Reference形成长期可回看手册。可通过npx skills add mattpocock/skills --skill teach安装,适用于从魔方到软件基础等学习场景。

Matt Pocock: /teach is live Learn anything, from rubik's cube to vocal harmonies to software fundamentals. npx skills add mattpocock/...

GitHub开源/仓库部署/工程

推荐理由:mattpocock 这个 Teach Skill 把学东西从看文章变成写代码,用文件作为学习状态机,做开发者的可以立刻用起来,思想比同类教程工具高一个档次。
08:31
Claude@claudeai
63
最终站:东京。 快来注册,直接聆听 Claude 团队分享:http://claude.com/code-with-claude/tokyo

Claude: Code with Claude, our developer conference, returns next week. Whether you're just getting started with Claude Code or y...

Anthropic编码行业动态
08:28
AYi@AYi_AInotes
65
Demis Hassabis:AGI约2030年出现,我们站在奇点山脚

Google DeepMind CEO Demis Hassabis在Google I/O和斯坦福对谈中称,我们正站在奇点山脚,AGI约2030年出现,将进入新人类时代,社会需重视并做准备。这位一向保守的科学家此次改口引发广泛关注。

DeepMindGoogle大佬观点现象/趋势
08:21
IT之家(RSS)
47
IT早报 0609:华为余承东官宣尊界 V800;库克 WWDC 收官演讲苹果 iOS 27 发布;月之暗面寻求 20 亿美元融资;中国 AI 大模型周调用量连续六周超越美国

华为余承东官宣尊界 V800,定位超高端 MPV,轴距 3430mm,搭载 1.5T 增程器及前后双电机。苹果 WWDC26 发布 iOS 27 等新系统,库克完成 CEO 任内“最后一舞”,Siri AI 等智能功能在中国大陆暂不提供。月之暗面正寻求 20 亿美元新一轮融资,目标估值 300 亿美元,半年估值暴涨七倍。OpenRouter 数据显示中国 AI 大模型周调用量连续六周超越美国,6 月 9 日当周环比增长 27.49% 达 14.19 万亿 Token,DeepSeek-V4-Flash 蝉联榜首,MiniMax 新模型 M3 首周冲入前三。

DeepSeek端侧行业动态
08:21
IT之家(RSS)
52
停车可观影,苹果 iOS 27 为 CarPlay 带来视频播放功能

苹果在 2026 年 WWDC 公布 CarPlay 视频播放功能,仅限适配新款车辆,驻车时通过 AirPlay 投屏观看。iOS 27 允许开发者打造带视频浏览的 CarPlay 应用。AI 版 Siri 将登陆 CarPlay,需 iPhone 15 Pro 及后续机型。四项新优化包括:正在播放界面支持音频进度拖动、GPS 定位与导航准度提升、应用内新增音频迷你播放窗口、无线 CarPlay 连接稳定性改进。所有功能需升级至 iOS 27,开发者测试版今日上线,公开测试版 7 月推送,正式版 9 月面向所有适配机型。

产品更新视频语音
08:21
IT之家(RSS)
46
苹果 iOS 27 正式公布:Siri AI 与新 Apple 智能,支持 iPhone 11

苹果在 WWDC26 主题演讲上公布 iOS 27,带来 Siri AI 和新一代 Apple 智能,系统性能大幅优化且可靠性改进,支持 iPhone 11。中国用户专属更新包括节假日调休闹钟和中文输入法优化。但 Siri AI 与新一代 Apple 智能暂不在中国大陆提供。iOS 27 开发者预览版 Beta 1 今日面向全球推出,公测版 7 月上线,正式版秋季发布。

产品更新
08:17
Simon Willison 博客
61
WWDC 2026 苹果发布 Siri AI 与 Core AI 库

苹果在 WWDC 2026 推出全新 Siri AI,采用定制的 Gemini 衍生模型运行于 Private Cloud Compute,并利用视觉 LLM 从屏幕提取信息,绕开了已有应用单独集成 Apple Intelligence 的需求。同时发布 Core AI 库,集成 Meta 的 PyTorch 生态,允许开发者在苹果硬件上将 PyTorch 模型转换为 Core AI 程序运行。iOS 27 Developer Beta 已上线,但用户需通过等待列表才能使用新 Siri AI。

多模态大佬观点端侧
08:16
ginobefun@hongming731
67
BestBlogs 早报 06-09:Claude Code 自主化、循环工程、阳萌访谈

本期早报聚焦AI编程从辅助到自主Agent的拐点。Anthropic复盘Claude Code一周年:Auto Mode用路由分类模型替代人工审批,通过Claude 4.6/4.7实现数千Agent动态协作。Boris Cherny提出“循环工程”——工程师应设计自动循环系统(定时自动化、并行工作树等5模块),并警示“认知投降”风险。安克创新CEO阳萌4小时访谈阐述从“浅海”到“深海”战略、第三类公司愿景及AI原生组织变革。

智能体Anthropic现象/趋势编码
08:16
ginobefun@hongming731
57
BestBlogs 早报 · 06-09

本期早报聚焦:Claude Code一周年复盘,从辅助写代码到数千Agent协作网络,推出Auto Mode以安全分类模型替代人工审批;循环工程新范式强调工程师职责从提示Agent转向设计系统;小米MiMo与TileRT通过FP4量化和DFlash推测解码,在商用GPU上实现1万亿参数模型1000+ token/s推理;OpenAI概述AGI第三阶段愿景构建自动化AI研究员;另有安克创新创始人阳萌4小时访谈、六大Agent上下文压缩策略对比、杰弗里·辛顿谈AI失控焦虑等。

ginobefun: http://x.com/i/article/2064136850370101248

AnthropicOpenAI教程/实践现象/趋势
08:15
Bloomberg:Technology(RSS)
79
OpenAI 秘密提交 IPO 申请

OpenAI(ChatGPT 开发商)已秘密提交 IPO 申请,成为又一家通过公开市场融资以推动增长计划的 AI 公司。

OpenAI行业动态
关联讨论 10 条X:歸藏 (@op7418)OpenAI:官网动态(RSS · 排除企业/客户案例)IT之家(RSS)X:Testing Catalog (@testingcatalog)Bloomberg:Technology(RSS)X:Rohan Paul (@rohanpaul_ai)Hacker News 热门(buzzing.cc 中文翻译)TechCrunch:AI(RSS)The Verge:AI(RSS)The Decoder:AI News(RSS)
08:08
Nathan Lambert@natolambert
52
Nathan Lambert:AI领域对持续学习与样本效率的执念是错误方向

Nathan Lambert 批评 AI 领域过度关注持续学习与样本效率,认为这如同专注于弥补弱点而非最大化优势。人类大脑虽是存在性证明,但未必是 AI 最佳路径。前沿实验室实际加速推进现有开发树,对进步有利,但对安全与地缘政治影响复杂。他引用 @dwarkesh_sp 的观点:数据是进步主要驱动力,开源与后来者可通过从公开 API 蒸馏数据快速追赶前沿,而超参数、训练技巧等难以复制。他认为未来已来,AGI 研究应拥抱未知、规模化资源,而非等待不确定的科学突破。

Dwarkesh Patel: New blog post: on the million-x sample efficiency gap between AIs and humans, and whether it matters: "The reason it is ...

大佬观点数据/训练
08:03
Berryxia.AI@berryxia
精选75
Kimi Work 桌面 AI 代理上线,支持 300 个本地代理并行

Kimi Work 是一款桌面 AI 代理,支持在本地最多 300 个代理并行执行任务,已适配 macOS(Apple Silicon)和 Windows。配合 WebBridge 扩展,代理可自主在浏览器中搜索、滚动、点击、打字完成操作。内置财经场景优化,原生调用 Yahoo Finance 和世界银行数据,无需复杂 API 配置。自带记忆系统记录用户偏好和决策历史。最终自动生成 PPTX、Word、PDF、Excel 文件。

Kimi.ai: Meet Kimi Work - a local AI agent on your desktop that does the work for you. 🔹Native agent swarm: Up to 300 AI agents ...

智能体MCP/工具产品更新端侧
关联讨论 2 条X:Kimi.ai (@Kimi_Moonshot)公众号:月之暗面(Kimi)
推荐理由:Kimi 这次把 300 个本地 agent 塞进桌面,外加浏览器操控和财经数据直连,让「AI 秘书团」从概念变成了一件能立刻上手的事,做桌面自动化的值得试试。
08:03
Berryxia.AI@berryxia
61
Google NotebookLM 大更新:智能体能力 + 更强推理

Google NotebookLM 迎来重大升级,在聊天中注入智能体(agentic)能力、更先进的推理逻辑以及一整套新输出格式。它可自主拆解复杂多步研究任务,逐步推理并生成结果;能主动从网络挖掘新资料,但最终答案严格基于用户批准过的来源,大幅减少幻觉。这让人机协作从“对话”升级为“搭档”。该更新已面向 Google AI Ultra 订阅用户逐步推送。

NotebookLM: Introducing a more powerful NotebookLM 🚀 Massive upgrades deliver agentic capabilities in chat, more advanced reasoning...

智能体Google产品更新搜索
08:03
Berryxia.AI@berryxia
14
Siri AI Demo 和豆包手机比比?😂
其他语音
08:03
Berryxia.AI@berryxia
67
WWDC 2026 速览:Tim Cook 谢幕,AI 双轨模型与 Siri 大升级

Tim Cook 最后一次以 CEO 身份主持 WWDC,AI 成绝对核心。苹果推出双轨模型:基础层 3B 端侧 AFM 3 Core,进阶层 20B MoE 仅限 iPhone 17 Pro/M4 设备。四大 AI 能力:个人上下文理解、世界知识检索、App Actions、屏幕感知。Siri 升级支持连续对话、跨设备同步、视觉识别及独立 App,仅限英语,中国/欧盟暂不可用。应用生态:Safari 智能标签分组、密码自动更新、来电识别、快捷指令自然语言生成。影像:Image Playground 写实生成与空间重构。开发者工具:Xcode 支持多模型,Core AI Framework 开放本地部署。遗留问题:中国区功能缺失,Agent 多步自动化能力薄弱。

多模态端侧行业动态
08:03
Berryxia.AI@berryxia
74
Kimi Code升级:一行安装+视频上下文+插件系统

Kimi Code 开源 coding agent 迎来重大升级:一行 CLI 命令安装、零配置、秒启动;支持拖拽视频作为编码上下文,可参考视频生成 .cube LUT 文件或把屏幕录像转成可运行代码;插件系统上线,可一键拉取股票、财报、学术论文;支持 ACP 协议,对接 JetBrains、Zed,并提供自定义 hooks 扩展工作流。配合 Kimi K2.6 模型使用,视频推理能力大幅增强。

Kimi Developers: Kimi Code, our open-source coding agent, just got a major upgrade! 🔹One-line CLI install, zero setup, fast startup 🔹Dr...

智能体GitHub产品更新编码
08:00
Chubby♨️@kimmonismus
83
OpenAI 秘密提交 IPO 申请,上市时间未定

OpenAI 已秘密提交 S-1 文件(IPO 申请),预计消息将泄露故主动披露。OpenAI 尚未决定上市时间,可能继续维持私有一段时间,因其部分计划在私有状态下更易推进。此举紧随 Anthropic 提交保密 S-1 之后,两大前沿 AI 公司展开 IPO 竞赛:先上市者可能定义整个板块的公开市场预期,迟入者则面临以此为基准的估值对比。

OpenAI Newsroom: We recently submitted a confidential S-1. We expect it to leak so we're just announcing it. We have not decided on timin...

AnthropicOpenAI现象/趋势行业动态
关联讨论 10 条X:歸藏 (@op7418)OpenAI:官网动态(RSS · 排除企业/客户案例)IT之家(RSS)X:Testing Catalog (@testingcatalog)Bloomberg:Technology(RSS)X:Rohan Paul (@rohanpaul_ai)Hacker News 热门(buzzing.cc 中文翻译)TechCrunch:AI(RSS)The Verge:AI(RSS)The Decoder:AI News(RSS)
08:00
HuggingFace Daily Papers(社区热门论文)
45
WebChallenger:不依赖模型规模、通过架构设计提升自主网页导航的智能体框架

WebChallenger 围绕核心模块 PageMem(从 DOM 确定性构建的带摘要语义层次页面结构)设计三种机制:分而治之的观测管线(让智能体扫读摘要、仅提取任务相关区域细节)、轻量级网站探索与记忆系统(遍历一次网站即可复用页面与元素行为地图)、以及将多步交互压缩为单步智能体动作的工作流。使用未经微调的开源模型,在 WebArena 上达 56.3%、VisualWebArena 48.7%、Online-Mind2Web 51.0%、WorkArena 70.9%,接近前沿闭源系统但成本极低。代码已开源。

智能体GitHub开源/仓库论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
基于累积FLOPs的计算感知对抗鲁棒性评估框架

提出基于累积FLOPs的计算感知评估框架,以计算压力替代固定查询预算,引入风险-计算曲线和两项总结指标。在三个系列、四个训练/对齐阶段的十个模型上,使用梯度、迭代优化和模板三种攻击策略在两个越狱鲁棒性基准上测试发现:对齐训练对计算空间鲁棒性呈非单调影响;模型规模扩大降低梯度攻击效果但对低成本模板攻击影响有限;梯度攻击可跨模型迁移;单个模型内不同危害类别间计算成本差异约5倍;安全对齐的RL增加整体攻击成本,但部分类别仍较易攻破。框架已开源。

安全/对齐开源生态
08:00
HuggingFace Daily Papers(社区热门论文)
69
Flash-GMM:面向可扩展软聚类的内存高效内核

Flash-GMM 是一个基于 Triton 的融合内核,可在单次 GPU pass 中高效计算大规模高斯混合模型(GMM)。它无需在 GPU 内存中实例化完整责任矩阵,相比现有实现实现 20 倍加速,并支持在单设备上训练比之前大 100 倍以上的数据集。将 Flash-GMM 集成到 IVF 粗量化器中用于近似最近邻搜索(ANN)后,软 GMM 聚类可替代 k-means,利用 GMM 责任矩阵将边界向量分配到多个簇。该方法达到固定召回目标时所需距离计算减少 1.7 倍,或在同等计算成本下召回@10 提升 2–12。该内核已作为开源项目发布。

搜索数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
IDEAL:深度对齐使离散表示自编码器更优

基于预训练视觉基础模型(VFM)的表示自编码器(RAE)在图像生成中构建语义丰富的潜空间,但重建质量受限于深层特征丢失细节。IDEAL框架通过联合对齐量化token与浅层和深层VFM特征,使离散视觉token同时保留视觉保真度和丰富语义。在ImageNet上,IDEAL达到0.61 rFID,比之前最优方法提升0.28;用于自回归图像生成时取得1.89 gFID,创下新SOTA。

图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
N-GRPO:嵌入级语义邻居混合用于增强策略优化

针对token级采样易产生冗余轨迹、嵌入级随机噪声破坏语义一致性的问题,N-GRPO将语义邻居混合(Semantic Neighbor Mixing)机制集成到GRPO框架中。该方法通过混合锚点token及其最近语义邻居的嵌入构造输入表示,在注入多样性的同时保持局部语义流形。在DeepSeek-R1-Distill-Qwen系列不同规模模型上的实验表明,N-GRPO在数学推理基准上持续优于强基线,并在分布外任务上展现稳健泛化能力。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
ComBench:面向奥林匹克级组合数学的推理与构造基准

ComBench是一个面向奥林匹克级组合数学的基准,包含100个人工标注的竞赛级别问题,分为分析型(侧重严谨数学论证)和构造型(需要明确构造及正确性证明)。评估结合评分指南的证明评分与确定性构造验证,揭示证明质量与构造有效性的差异。前沿模型在该基准上远未饱和:最强模型整体平均分65.4%,Best@4达75.3%。Kimi-K2.6在分析型证明评分上落后于GPT-5.5,但在构造型Best@4上反超;存在性和构造类问题对所有代表性模型始终最难。

arXiv推理论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
69
DeNovoSWE: 扩展长周期环境以从零生成完整仓库

DeNovoSWE 是一个大规模完整仓库生成数据集,包含4,818个高质量实例,每个实例要求从文档生成完整仓库。该数据集通过沙盒智能体工作流自动构建,无需人工标注,采用分治与批评修复策略以及难度感知轨迹过滤保证质量。微调 Qwen3-30B-A3B 后,在 BeyondSWE-Doc2Repo 基准上的得分从5.8%提升至47.2%。

数据/训练编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选82
i1:面向强文生图模型的简单且完全开源配方

i1 是一个 3B 参数的文本到图像扩散模型,仅使用公开数据集训练。在 GenEval、DPG、PRISM、CVTG-2K 和 LongText 五个基准上,i1 性能与领先模型相当,平均比最佳现有完全开源模型高 29.5 个百分点。研究基于 300 余项控制实验(超 700K TPU v6e 小时),发现等权重混合 curated 数据集是强默认配置、更大文本编码器适配器以极少参数提升性能。i1 的检查点、训练与推理代码及数据处理流程已全部开源。

arXiv图像生成多模态开源生态

推荐理由:i1 是第一个用全公开数据、完全开源代码/权重/数据管线打造的 3B 模型,直接把全开放模型的性能拉到可与闭源竞争,对做文生图研究的同行是个扎实起点。
08:00
HuggingFace Daily Papers(社区热门论文)
精选78
Embodied-R1.5:通过具身基础模型演化物理智能

Embodied-R1.5是一个统一具身基础模型,将具身认知、任务规划、纠错与指向能力整合在单一架构中。基于三条自动化数据构建流水线,团队搭建超过150亿模型token的数据系统,并设计多任务平衡强化学习方案以缓解异构任务冲突。其Planner-Grounder-Corrector闭环框架使模型能在长周期任务中自主执行并自我纠正。仅8B参数的Embodied-R1.5在24个具身VLM基准中的16个上达到SOTA,超越Gemini-Robotics-ER-1.5与GPT-5.4,并可微调为VLA,在4个操作任务基准上领先π_{0.5}等模型。零样本真实机器人实验验证了其指令遵循、可操作物体判别、铰接物体操控与长周期复杂任务中的泛化能力。模型权重、数据集、训练代码及评估框架EmbodiedEvalKit已开源。

arXiv具身智能开源生态论文/研究

推荐理由:仅8B参数就在24项具身视觉语言基准上赢过GPT-5.4和Gemini-Robotics,还把模型权重、训练代码全开源了,做具身智能的团队不跟进就是犯罪。
‹ 上一页
1…3940414243…50
下一页 ›