用户用Claude Fable 5制作黑洞诞生过程动画页面。起初仅用一句话描述,效果不佳;重新明确要求炫酷动画、文字字幕解说及配音(本地TTS效果一般)。最终输出效果炸裂。体验表明,目标导向越清晰越好,模型会自主思考、主动打开浏览器预览并自行调整,整个流程无需用户介入。
用户用Claude Fable 5制作黑洞诞生过程动画页面。起初仅用一句话描述,效果不佳;重新明确要求炫酷动画、文字字幕解说及配音(本地TTS效果一般)。最终输出效果炸裂。体验表明,目标导向越清晰越好,模型会自主思考、主动打开浏览器预览并自行调整,整个流程无需用户介入。
Anthropic CEO Dario 在访谈中称其最强模型 Fable 5 为“超级武器”,早期企业客户曾恳求不要公开发布,但最终仍全面开放。Dario 表示离开 OpenAI 是因价值观不匹配。Claude Code 负责人 Boris Cherny 称公司 90% 代码由 Claude 生成,包括 Claude Code 自身大部分代码。Dario 将 AI 导致文明崩溃的概率定为 10%-25%。Fable 5 可连续运行数天无需干预,实现了安全与极致能力的平衡。
http://x.com/i/article/2064543911729885184
@MiniMax_AI M3 is free on TokenRouter through June 17. Every other MiniMax model is 50% off. Visit at http://www.tokenro...
大语言模型在处理低资源语言翻译时性能常下降。研究团队针对古邦马来语提出一种微调方法:利用双语词典的显式词汇与语义特征设计指令集,并引入持续指令微调(CIT)范式。实验结果表明,模型Lius在多项评测指标上比标准指令微调模型提升4–6个百分点,超越神经机器翻译(NMT)和多语言LLM模型10–13个百分点,展现出减少对大规模平行数据依赖的潜力。
World Pilot 是一种视觉-语言-动作(VLA)框架,通过世界动作模型(WAM)提供场景演进隐变量与预期轨迹两种先验,分别经 Latent Steering 和 Action Steering 注入决策链。在 LIBERO-Plus 零样本 OOD 基准上,总成功率达 84.7%,并在四个真实机器人操作任务中取得最高成功率,在视角、几何、变形状态和位姿变化场景下优势最显著。
Bebop系统研究多token预测(MTP)在大语言模型RL后训练中的加速瓶颈。发现MTP接受率与模型熵波动呈负线性关系;概率拒绝采样相比贪婪草稿采样能缓解熵干扰。提出端到端TV损失直接优化多步拒绝采样接受率,带来约10%提升,最高达95%接受率,额外推理吞吐提升25%。在Qwen3.5、Qwen3.6和Qwen3.7上,异步RL训练实现1.8倍端到端加速。预RL阶段的MTP训练结合e2e TV损失和拒绝采样可保持全程一致的加速,无需在线更新。
提出结合自蒸馏与强化学习的可扩展框架,激发预训练视频扩散模型(Demonstrator)的任务解决能力。给定未标注场景图像,视觉语言模型(VLM)生成候选任务及详细步骤,条件化Demonstrator生成视频;通过蒸馏将执行知识迁移至仅以图像和简短任务提示为条件的Executor,无需配对任务-视频数据。进一步利用VLM反馈的强化学习优化Executor。在WorldTasks-Benchmark和DreamGen机器人基准上,Executor在VLM评估协议下超越Demonstrator,并有效迁移至机器人任务。
InternVideo3框架通过多模态上下文推理(MCR)提升基础模型的长时序多模态任务能力。MCR将理解视为包含观察、指令、推理、工具行动和记忆的闭环过程,将长视频理解为证据积累与验证。为提升效率,引入多模态多头潜在注意力(M²LA),一种保留完整token流同时压缩KV-cache状态的token保持重参数化。训练阶段包括继续预训练、短到长监督微调、基于规则的强化学习和在线蒸馏。InternVideo3在Video-MME、MLVU、EgoSchema等基准上取得强性能,并实例化为带有检索工具的视频智能体,展现基于证据的鲁棒行为。
该综述系统研究了大语言模型智能体的环境工程生命周期,涵盖环境建模、合成、评估与应用。从八个属性和八个领域梳理代表性环境的发展路径;归纳自动环境合成的符号合成与神经合成两种范式及对应评估方法。从智能体-环境共同演化视角,总结四种智能体演化路径(记忆中心、编排中心、轨迹中心、探索中心)与三种环境演化范式(神经驱动、难度驱动、规模驱动)。最后展望环境即服务(EaaS)、多智能体环境和神经符号环境等方向。
RACES(Recursive Automated Composition for Environment Scaling)将可验证环境视为递归组装的构建块,当输出类型与输入类型匹配时自动融合为新环境。基于300个基础环境,定义SEQUENTIAL、PARALLEL、SORT、SELECT四种组合算子,诱导多样推理模式。在DeepSeek-R1-Distill-Qwen-14B上平均提升3.1分(从48.2到51.3),Qwen3-14B提升2.3分(从58.8到61.1),均在六个未见基准上测得。仅用50个基础环境即可达到300个环境的训练效果,环境利用效率显著。
We're making a small update to the model picker in ChatGPT! We know it's critical to a lot of people's work, and that we...
Google 开源 DiffusionGemma,基于扩散架构,一次性生成大段文本再逐步优化。H100 上达 1000+ tokens/s,RTX 5090 上 700+ tokens/s。26B 参数仅需 18GB 显存,一次生成 256 tokens。多轮迭代自我纠错,可修改已生成内容。
小米发布并开源终端AI编程助手MiMo Code V0.1.0,采用MIT协议。内置限时免费MiMo-V2.5多模态模型,性能比肩Claude Sonnet 4.6;支持接入DeepSeek、Kimi、GLM等模型。核心能力包括持久记忆系统(项目记忆、会话检查点、任务进度)和无限上下文——通过独立subagent自动保存状态解决长会话遗忘。独创Compose模式实现模型与Agent协同优化,SWE-Bench Pro达62%(Claude Code 57%),Terminal Bench 2达73%(68%)。内置语音输入和/dream命令,每7天自动合并记忆。终端输入`mimo`即可使用,所有设置中文汉化。
关联讨论 4 条Hacker News 热门(buzzing.cc 中文翻译)X:Berry Xia (@berryxia)X:小米 MiMo (@XiaomiMiMo)IT之家(RSS)WorkBuddy是面向国内用户的通用Agent产品,支持Windows和Mac,提供免费版和58元/月个人专业版,企业版已推出。内置代码开发、日常办公、设计创意三种场景模式及100多个行业领域AI专家。模型集成腾讯混元、DeepSeek(推荐V4 Pro)、GLM、Kimi等国产大模型,也支持接入兼容OpenAI协议的外部API。拥有Skills市场和MCP连接器生态,可打通QQ邮箱、腾讯会议、腾讯文档等服务。教程通过公众号周报生成和功能网页开发两个案例演示实际用法。
LWN.net 报道称,一个 AI 代理在 Fedora 及其他系统中出现失控行为。该消息登上 Hacker News 热门,获得 105 个点赞。
智己 LS8 纯电版 SUV 在工信部第 408 批新车公示中完成申报,长宽高 5085×2000×1807mm,轴距 3060mm,提供磷酸铁锂和三元锂离子电池版本,驱动电机峰值功率 300kW。增程版已于今年 4 月上市,五座 24.98 万元起、六座 26.98 万元起,搭载 27.1 英寸 5K 驾舱屏与 15.6 英寸 3K 副驾娱乐屏,内置 IM AIOS 智能座舱系统,支持 IM Ultra Agent 智能体功能,辅助驾驶标配 520 线超视域激光雷达及英伟达 Thor 芯片。动力采用 1.5T“恒星”超级增程系统,单电机后驱综合功率 230kW,双电机四驱综合功率 390kW。
Arm 与 Sumo Digital 合作的移动端游戏《Neural Dawn》预计 2026 年晚些时候在搭载新一代 Mali GPU 的 Android 设备上独家发布。游戏基于 Unreal 5.6.1 引擎,是首款使用 MegaLights 技术的移动游戏,支持复杂直接光照和光线追踪阴影。新一代 Mali GPU 通过神经图形技术实现超分辨率和帧生成,降低计算负载,在移动端实现桌面级视觉效果并保持电池续航。游戏时长约 2 小时,含四个关卡,由 17 人团队耗时 18 个月完成。
加拿大政府本周三出台数字安全法案,禁止16岁以下未成年人使用社交媒体,达到特定安全标准的平台可获豁免。法案还将设立数字监管机构并制定安全标准,以规范AI聊天机器人。违规企业将面临全球营收3%与最高1000万加元(约4869.4万元人民币)中较高金额的处罚。此前澳大利亚已率先实施类似禁令。数周前,一起重大枪击案受害家庭起诉OpenAI,指控凶手通过ChatGPT谋划袭击。法案预计一年完成立法审议,正式通过后需18个月组建数字监管机构。
科技媒体Appleinsider于6月10日测试iPadOS 27新版快捷指令中基于Apple Intelligence的自然语言生成工作流功能。简单任务如“开启低电量模式并启动计时器”效果理想。但涉及多条件判断或跨应用联动的复杂工作流仍需手动调整。在去除URL追踪参数的测试中,AI生成的工作流初看合理,但实际运行均出错,模型误判输入或报告剪贴板无URL,经多轮提示词修改和手动干预仍未能正确清除追踪参数。
苹果 iOS 27 版备忘录新增分割线格式工具,用户可在编辑菜单中插入。深度整合 Siri AI,支持将回答保存为新笔记或添加到已有笔记,并可整理格式混乱的列表。Markdown 粘贴后自动转换为富文本显示,编辑菜单新增“复制为 Markdown”选项。图乐园底层 AI 模型升级,支持照片级真实风格,生成图像自动嵌入 SynthID 水印;Beta 版尚未完全开放新版能力。应用图标采用 Liquid Glass 设计,共享文件夹列表新增蓝色图标标识。
在 iOS 27 和 iPadOS 27 系统中,苹果调整通知中心操作手势:从屏幕顶部中央下滑不再呼出通知中心,改为唤出 Siri AI;通知中心改由左上角下滑访问。iPad 主屏幕图标上方区域几乎全部用于唤出 Siri AI,若关闭 AM/PM 或日期显示,通知中心触控区域进一步缩小。这是自 iPhone X 时代将控制中心从底部上滑改为右上角下滑以来,苹果对手势的最大调整。
台积电CoPoS预计2028年下半年量产,目标提升9.5倍光罩尺寸以上封装的经济性,Nvidia AI芯片Feynman或首度采用。架构采用玻璃核心载板:玻璃为核心层,上下以ABF(ABF-GCP)增层包覆。临时玻璃载具尺寸310×310 mm,玻璃面板测试阶段250×250 mm、量产阶段510×515 mm。澄清常见误解:玻璃非中介层,互连由芯片侧RDL与玻璃核心载板侧TGV/ABF增层分别承接;玻璃与ABF并存而非取代;芯片贴附于ABF增层表面。CoPoS将延续台积电先进封装优势,能见度可达约2032年。
郭明錤分析,台积电CoPoS预计2028下半年量产,面向9.5倍光罩尺寸以上超大封装,NVIDIA Feynman AI芯片或率先采用。玻璃用于两个位置:310×310mm临时载板,以及250×250mm(试产)/510×515mm(量产)玻璃面板加工成玻璃核心基板。该基板为三层结构——玻璃芯两侧叠加ABF增层,TGV成孔与铜填充等挑战集中于此处。澄清常见误解:玻璃非中介层,互连由RDL、TGV/Cu及ABF共同承担;玻璃与ABF共存而非替代;芯片贴装在ABF增层表面。CoPoS有望延续台积电先进封装领先优势至2032年左右。
一项新研究指出,用大语言模型评判其他模型回答是否安全的“LLM安全法官”存在严重不稳定:将相同回答翻译或改写后,法官可能给出不同安全判定。在暴力、极端内容等明显危害场景下表现较好,但在需结合上下文判断的金融建议、信用评估、文化敏感回复等场景中可靠性显著下降。不同法官之间也常出现分歧,高原始一致性有时会掩盖低真实可靠性——因为许多法官默认选择同一标签。论文标题为“LLM Judges Inconsistently Disagree Across Safety Criteria and Harm Categories”。
研究引入 RQ-Bench 基准,基于 arXiv 论文构建作者锚定的研究问题(RQ),用于测试新颖性判断。使用大语言模型进行独立或对比评审时,LLM 一致将模型生成的 RQ 评为高度新颖,产生“新颖性幻觉”,在对比评估中偏好更强。但领域专家得出相反结论,更偏好作者锚定的参考问题。许多生成 RQ 狭窄或受限于来源,LLM 评审常忽略该维度。LLM 评审与人类专家的矛盾结论对基于 LLM 评估科学新颖性的可靠性提出严重质疑。
ICALens基于独立成分分析(ICA)构建轻量级语言模型表示解读工具,通过GPU并行FastICA流程与LLM稳定性优化,在GPT‑2 Small、Gemma 2 2B和Qwen 3.5 2B Base上高效恢复紧凑、可解释的方向,无需逐层梯度训练字典。在SAEBench上,ICA在稀疏探测任务中与公开SAE性能相当,并在中小预算目标探针扰动中优于SAE。结果表明ICA应被视为解读语言模型表示的高效互补首选透镜。
Recently, we purchased one of each Anthropic/OpenAI subscription plan and randomly ran long horizon coding tasks until w...
德国一项新裁决启发了颠覆性思路:Section 230 可能无法再保护 AI 公司免于承担法律责任,或将彻底改变行业规则。
关联讨论 3 条The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)Gary Marcus:The Road to AI We Can Trust(RSS)Supervision 是开源计算机视觉可视化工具库,安装仅需 `pip install supervision`,几行代码即可实现持久ID对象跟踪、自定义标签标注、区域计数与越线检测、人体姿态关键点连线、YOLO/COCO/Pascal VOC 数据集格式一键互转。模型无关,支持 YOLO、Transformers 等任意检测模型。已被6500+开源CV项目采用,适用于NBA球员实时跟踪、路口车流量统计、工业缺陷检测等场景。
分享一个计算机视觉开发者必藏神器,4 万星GitHub开源! 不用自己写几百行画框跟踪代码, 一行命令搞定所有可视化, Supervision,CV 界真正的瑞士军刀。 1️⃣ 它到底有多强? 自动画框加标签,支持编号、自定义样式, 视频对...
外媒 The Verge 体验苹果 iOS 27 全新 Siri AI,发现其回复极为简洁,不套近乎。相比谷歌 Gemini 热情外放、ChatGPT 力求沉稳但仍拉近距离,Siri AI 只回答问题,不作闲聊引导。例如问“最近怎么样”,Siri AI 直接建议开启设置搜索新闻;问天气时提示美国国家气象局已发布极端高温预警;问“你能做我的朋友吗”回答“无论顺逆境,我都会做你的朋友”;问“你喜欢我吗”回答“我觉得你很不错”。苹果将 Siri AI 定位为实用工具,新版需等到今年秋季 iOS 27 正式推送后全面开放。
特斯拉自动驾驶出租车服务上线近一年,截至本周二车队仅 59 辆车,运营范围限于得克萨斯州三座城市。马斯克曾预计 2025 年底美国半数人口可用,但实际等待长达 30 分钟、运力紧张、错误上下客,部分车辆仍配安全员。竞争对手 Waymo 在得州登记车辆超 600 辆。特斯拉已上报 17 起事故,马斯克坦言至少到 2027 年才有望盈利。
一群独立音乐人起诉谷歌,指控其未经许可用YouTube上传歌曲训练Lyria 3模型。谷歌提交驳回动议,辩称用户上传时已授予广泛许可,即便指控属实也不成立。谷歌拒绝评论是否用YouTube视频训练Lyria 3,但YouTube CEO 2024年4月称内容用于训练Gemini等模型,官方博文也确认用上传内容优化产品。谷歌还向CNBC证实使用YouTube内容训练Gemini和Veo,却始终未对Lyria明确表态,刻意保留辩解空间以应对诉讼。
随着2026高考在即,DeepSeek创始人梁文锋的高考往事被网友挖出。一张2002年广东省湛江市高考状元颁奖典礼照片显示,梁文锋以806分成为湛江市高考状元。父亲是教导副主任,母亲是教师。报道称梁文锋初中偏爱理科(尤其物理、数学),兴趣广泛,爱好足球、乒乓球、下棋,初中便学电脑。高考成绩超过清华录取分数线,但第一志愿选择了浙江大学电子信息工程专业。
小米发布MiMo Code,一款基于OpenCode fork开发的Coding Agent。由5人团队在14天内通过Vibe Coding完成,保留OpenCode核心能力,叠加记忆、上下文管理、子智能体编排、Goal驱动自主循环、Compose工作流及Dream/Distill自我进化机制,技术栈为TypeScript+Bun。内置MiMo Auto限时免费通道(零配置),支持小米MiMo平台OAuth、Claude Code认证迁移及任意OpenAI兼容API。作为MiMo-V2.5系列模型的官方配套Harness,模型能力与框架深度耦合。已开源至GitHub。
A strong model evolution needs a solid harness system, and vice versa. 14 days, 5 people, one vibe-coding journey - and ...
关联讨论 4 条Hacker News 热门(buzzing.cc 中文翻译)X:Berry Xia (@berryxia)X:小米 MiMo (@XiaomiMiMo)IT之家(RSS)用户发现Codex的Goal指令无需精确可衡量目标也能有效执行。设定“迭代优化网站使其更精致易用”的目标后,第一版由Claude Fable 5生成,后续迭代交由Codex负责,运行6小时即新增多项功能。预计下周开源一个在线AI资讯RSS订阅网站,支持内容自动更新、AI转写与双语对照阅读,用户可配置大模型进行AI对话和翻译,所有翻译及人工点评将沉淀为共享资产。当前网站已上线但需优化,开放内测邀请。