科技媒体Appleinsider于6月10日测试iPadOS 27新版快捷指令中基于Apple Intelligence的自然语言生成工作流功能。简单任务如“开启低电量模式并启动计时器”效果理想。但涉及多条件判断或跨应用联动的复杂工作流仍需手动调整。在去除URL追踪参数的测试中,AI生成的工作流初看合理,但实际运行均出错,模型误判输入或报告剪贴板无URL,经多轮提示词修改和手动干预仍未能正确清除追踪参数。
科技媒体Appleinsider于6月10日测试iPadOS 27新版快捷指令中基于Apple Intelligence的自然语言生成工作流功能。简单任务如“开启低电量模式并启动计时器”效果理想。但涉及多条件判断或跨应用联动的复杂工作流仍需手动调整。在去除URL追踪参数的测试中,AI生成的工作流初看合理,但实际运行均出错,模型误判输入或报告剪贴板无URL,经多轮提示词修改和手动干预仍未能正确清除追踪参数。
苹果 iOS 27 版备忘录新增分割线格式工具,用户可在编辑菜单中插入。深度整合 Siri AI,支持将回答保存为新笔记或添加到已有笔记,并可整理格式混乱的列表。Markdown 粘贴后自动转换为富文本显示,编辑菜单新增“复制为 Markdown”选项。图乐园底层 AI 模型升级,支持照片级真实风格,生成图像自动嵌入 SynthID 水印;Beta 版尚未完全开放新版能力。应用图标采用 Liquid Glass 设计,共享文件夹列表新增蓝色图标标识。
在 iOS 27 和 iPadOS 27 系统中,苹果调整通知中心操作手势:从屏幕顶部中央下滑不再呼出通知中心,改为唤出 Siri AI;通知中心改由左上角下滑访问。iPad 主屏幕图标上方区域几乎全部用于唤出 Siri AI,若关闭 AM/PM 或日期显示,通知中心触控区域进一步缩小。这是自 iPhone X 时代将控制中心从底部上滑改为右上角下滑以来,苹果对手势的最大调整。
台积电CoPoS预计2028年下半年量产,目标提升9.5倍光罩尺寸以上封装的经济性,Nvidia AI芯片Feynman或首度采用。架构采用玻璃核心载板:玻璃为核心层,上下以ABF(ABF-GCP)增层包覆。临时玻璃载具尺寸310×310 mm,玻璃面板测试阶段250×250 mm、量产阶段510×515 mm。澄清常见误解:玻璃非中介层,互连由芯片侧RDL与玻璃核心载板侧TGV/ABF增层分别承接;玻璃与ABF并存而非取代;芯片贴附于ABF增层表面。CoPoS将延续台积电先进封装优势,能见度可达约2032年。
郭明錤分析,台积电CoPoS预计2028下半年量产,面向9.5倍光罩尺寸以上超大封装,NVIDIA Feynman AI芯片或率先采用。玻璃用于两个位置:310×310mm临时载板,以及250×250mm(试产)/510×515mm(量产)玻璃面板加工成玻璃核心基板。该基板为三层结构——玻璃芯两侧叠加ABF增层,TGV成孔与铜填充等挑战集中于此处。澄清常见误解:玻璃非中介层,互连由RDL、TGV/Cu及ABF共同承担;玻璃与ABF共存而非替代;芯片贴装在ABF增层表面。CoPoS有望延续台积电先进封装领先优势至2032年左右。
一项新研究指出,用大语言模型评判其他模型回答是否安全的“LLM安全法官”存在严重不稳定:将相同回答翻译或改写后,法官可能给出不同安全判定。在暴力、极端内容等明显危害场景下表现较好,但在需结合上下文判断的金融建议、信用评估、文化敏感回复等场景中可靠性显著下降。不同法官之间也常出现分歧,高原始一致性有时会掩盖低真实可靠性——因为许多法官默认选择同一标签。论文标题为“LLM Judges Inconsistently Disagree Across Safety Criteria and Harm Categories”。
研究引入 RQ-Bench 基准,基于 arXiv 论文构建作者锚定的研究问题(RQ),用于测试新颖性判断。使用大语言模型进行独立或对比评审时,LLM 一致将模型生成的 RQ 评为高度新颖,产生“新颖性幻觉”,在对比评估中偏好更强。但领域专家得出相反结论,更偏好作者锚定的参考问题。许多生成 RQ 狭窄或受限于来源,LLM 评审常忽略该维度。LLM 评审与人类专家的矛盾结论对基于 LLM 评估科学新颖性的可靠性提出严重质疑。
ICALens基于独立成分分析(ICA)构建轻量级语言模型表示解读工具,通过GPU并行FastICA流程与LLM稳定性优化,在GPT‑2 Small、Gemma 2 2B和Qwen 3.5 2B Base上高效恢复紧凑、可解释的方向,无需逐层梯度训练字典。在SAEBench上,ICA在稀疏探测任务中与公开SAE性能相当,并在中小预算目标探针扰动中优于SAE。结果表明ICA应被视为解读语言模型表示的高效互补首选透镜。
Recently, we purchased one of each Anthropic/OpenAI subscription plan and randomly ran long horizon coding tasks until w...
德国一项新裁决启发了颠覆性思路:Section 230 可能无法再保护 AI 公司免于承担法律责任,或将彻底改变行业规则。
关联讨论 3 条The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)Gary Marcus:The Road to AI We Can Trust(RSS)Supervision 是开源计算机视觉可视化工具库,安装仅需 `pip install supervision`,几行代码即可实现持久ID对象跟踪、自定义标签标注、区域计数与越线检测、人体姿态关键点连线、YOLO/COCO/Pascal VOC 数据集格式一键互转。模型无关,支持 YOLO、Transformers 等任意检测模型。已被6500+开源CV项目采用,适用于NBA球员实时跟踪、路口车流量统计、工业缺陷检测等场景。
分享一个计算机视觉开发者必藏神器,4 万星GitHub开源! 不用自己写几百行画框跟踪代码, 一行命令搞定所有可视化, Supervision,CV 界真正的瑞士军刀。 1️⃣ 它到底有多强? 自动画框加标签,支持编号、自定义样式, 视频对...
外媒 The Verge 体验苹果 iOS 27 全新 Siri AI,发现其回复极为简洁,不套近乎。相比谷歌 Gemini 热情外放、ChatGPT 力求沉稳但仍拉近距离,Siri AI 只回答问题,不作闲聊引导。例如问“最近怎么样”,Siri AI 直接建议开启设置搜索新闻;问天气时提示美国国家气象局已发布极端高温预警;问“你能做我的朋友吗”回答“无论顺逆境,我都会做你的朋友”;问“你喜欢我吗”回答“我觉得你很不错”。苹果将 Siri AI 定位为实用工具,新版需等到今年秋季 iOS 27 正式推送后全面开放。
特斯拉自动驾驶出租车服务上线近一年,截至本周二车队仅 59 辆车,运营范围限于得克萨斯州三座城市。马斯克曾预计 2025 年底美国半数人口可用,但实际等待长达 30 分钟、运力紧张、错误上下客,部分车辆仍配安全员。竞争对手 Waymo 在得州登记车辆超 600 辆。特斯拉已上报 17 起事故,马斯克坦言至少到 2027 年才有望盈利。
一群独立音乐人起诉谷歌,指控其未经许可用YouTube上传歌曲训练Lyria 3模型。谷歌提交驳回动议,辩称用户上传时已授予广泛许可,即便指控属实也不成立。谷歌拒绝评论是否用YouTube视频训练Lyria 3,但YouTube CEO 2024年4月称内容用于训练Gemini等模型,官方博文也确认用上传内容优化产品。谷歌还向CNBC证实使用YouTube内容训练Gemini和Veo,却始终未对Lyria明确表态,刻意保留辩解空间以应对诉讼。
随着2026高考在即,DeepSeek创始人梁文锋的高考往事被网友挖出。一张2002年广东省湛江市高考状元颁奖典礼照片显示,梁文锋以806分成为湛江市高考状元。父亲是教导副主任,母亲是教师。报道称梁文锋初中偏爱理科(尤其物理、数学),兴趣广泛,爱好足球、乒乓球、下棋,初中便学电脑。高考成绩超过清华录取分数线,但第一志愿选择了浙江大学电子信息工程专业。
小米发布MiMo Code,一款基于OpenCode fork开发的Coding Agent。由5人团队在14天内通过Vibe Coding完成,保留OpenCode核心能力,叠加记忆、上下文管理、子智能体编排、Goal驱动自主循环、Compose工作流及Dream/Distill自我进化机制,技术栈为TypeScript+Bun。内置MiMo Auto限时免费通道(零配置),支持小米MiMo平台OAuth、Claude Code认证迁移及任意OpenAI兼容API。作为MiMo-V2.5系列模型的官方配套Harness,模型能力与框架深度耦合。已开源至GitHub。
A strong model evolution needs a solid harness system, and vice versa. 14 days, 5 people, one vibe-coding journey - and ...
关联讨论 5 条Hacker News 热门(buzzing.cc 中文翻译)X:Berry Xia (@berryxia)X:小米 MiMo (@XiaomiMiMo)IT之家(RSS)公众号:小米 MiMo用户发现Codex的Goal指令无需精确可衡量目标也能有效执行。设定“迭代优化网站使其更精致易用”的目标后,第一版由Claude Fable 5生成,后续迭代交由Codex负责,运行6小时即新增多项功能。预计下周开源一个在线AI资讯RSS订阅网站,支持内容自动更新、AI转写与双语对照阅读,用户可配置大模型进行AI对话和翻译,所有翻译及人工点评将沉淀为共享资产。当前网站已上线但需优化,开放内测邀请。
Meet DiffusionGemma! An experimental open model that explores a fast approach to text generation, released under an Apac...
关联讨论 8 条X:Sundar Pichai (@sundarpichai)Google Developers Blog(RSS)Google DeepMind:Blog(RSS)X:Google AI for Developers (@googleaidevs)X:Google DeepMind (@GoogleDeepMind)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)MarkTechPost(RSS)网络安全研究人员对Anthropic公司Fable项目所采取的安全防护措施表示不满。该话题源于TechCrunch的一篇报道,并在Hacker News上引发讨论,目前获得164个点赞。原文未详细说明具体不满原因,但标题直接点明研究人员对Fable项目的护栏(guardrails)存在异议。
mlx-vlm v0.6.3 is here 🚀 Day-0 support for TWO new models from our partners we work closely with: 🔥 @GoogleDeepMind Di...
Career update: I've joined @OpenAI to lead Cyber with @michaelaiello. Why I joined, and what we'll be building: It's cle...
一篇新论文提出“Agents’ Last Exam”基准,测试 AI 智能体完成真实专家工作的能力。任务来自工程、金融、医学、法律、媒体、科学等 55 个数字工作领域的实际项目,要求智能体使用文件、浏览器、命令行、桌面软件等常规工具产出可交付成果。评测采用自动检查或严格评分标准。结果显示,当前最强智能体在最难任务层级的平均完全通过率仅 2.6%,远低于其基准测试分数所暗示的水平。论文指出,基准成功尚未转化为广泛的职场能力。
Dario Amodei just published a super long blog, calling for an urgent policy overhaul because he thinks frontier AI is mo...
关联讨论 4 条X:Dario Amodei (@DarioAmodei)Dario Amodei:Blog(网页)X:Anthropic (@AnthropicAI)X:Kim (@kimmonismus)Simon Willison 撰写《Agentic Engineering Patterns》指南(2026年2月起连载),阐述专业工程师如何用 Claude Code、Codex 等 coding agent 获得可靠可维护结果。核心区分:Agentic Engineering ≠ Vibe Coding。关键判断:写代码变便宜了,写好代码并没有。五大原则:定义边界(人的工作:定目标、给工具、验结果、把经验写回 harness)、接受新约束、囤积可复用解法、质量应上升而非下降、严守反模式(绝不自审 PR)。实操:Git 作 agent 时间机器、Subagent 省上下文、三层测试防线、线性代码导读消除认知债。
@jakedahn I've been writing a whole guide! https://simonwillison.net/guides/agentic-engineering-patterns/
Claude Fable 5 通过纯提示驱动,端到端生成 4K Launch 视频。从 17 个 Sony S-Log3 4K take(约 25GB)出发,流程包括:Whisper 逐词转录、Claude 作为子 agent 选片输出 JSON 编辑决策列表 (EDL)、FFmpeg 拼接粗剪、手写 7 个自定义 .cube LUT 颜色分级、通过 Remotion + Figma MCP 将 11 张设计 PNG 转为 React 组件并实现代码↔Figma 往返迭代。最终渲染 3840×2160@24fps、4334 帧、653MB 成品,全程未打开视频编辑器。
Lots of people asked how I used Fable to edit its own launch video so I made a video about that! TLDR it wrote a lot of ...
Anthropic CEO Dario Amodei 发新文,放弃自愿透明立场,主张对高风险模型实施强制第三方测试、政府有权叫停部署。他指出四年前模型写不出连贯代码,如今 Claude 已承担大公司大部分编程工作,强调“已经晚了一年”。以 Mythos 搅乱网络安全为例,预测威胁蔓延至生物与自动化研发。此举引发争议:支持者称其直面风险;反对者指责其拉护城河——仅对 10^25 算力模型强制测试,全球仅三四家公司能负担,且时间点恰在 Claude 新模型 Fable 5 发布后。文章标志 AI 安全从技术问题转向政治与公共政策问题。
Today I'm publishing a new essay, Policy on the AI Exponential. AI is progressing extremely fast-much faster than the po...
一名PM让Cursor agent给87个ClickUp任务打标签后去开会,90分钟后回来发现agent陷入循环,消耗13亿token,账单1382美元。Cursor CEO@mntruell主动联系用户全额退款,承诺增加支出控制与自动异常检测功能,并将bug修复纳入产品路线图。原作者称赞Cursor不推诿不甩锅,把事故转化为品牌资产净增长。
BREAKING: Cursor just charged us $1,400 in 90 minutes. Our PM asked it to tag 87 ClickUp tasks. He went into a meeting. ...
Anthropic 昨日推出最强 AI 模型 Claude Fable 5(Mythos 级),其在生物学领域能力突出,但为防范生物武器风险,设置极为保守的安全限制,导致模型拒绝回答“细胞膜”“线粒体”等大量基础生物问题,仅“什么是癌症”等极少数问题获回复,被拒提问转由 Claude Opus 4.8 解答。化学、网络安全类问题接纳度较高。Anthropic 表示此防护策略为临时取舍,未来计划面向生物专业群体推出解除限制的 Mythos 级模型。
6月10日,国际汽车开放系统架构组织(AUTOSAR)宣布,中国自主研发的智能驾驶操作系统成为全球智能驾驶系统公共代码库的核心基线,系中国汽车基础软件技术首次进入全球行业标准。该系统可统筹调配车辆芯片算力,保障智能驾驶功能稳定运转,全球车企可将其作为基础参考。目前,该操作系统装车量已突破2500万套,应用于300多款车型。AUTOSAR主席托马斯·儒平表示,该方案展现了中国合作伙伴在全球生态中的引领力与担当。
苹果在 WWDC 2026 公布其最高端端侧 AI 模型,需 12GB 统一内存,用于提升 Siri 语音表现力与全系统听写精度。该模型仅适配 iPhone Air、iPhone 17 Pro / Pro Max,以及搭载 M4 及后续芯片的 iPad、M3 及后续芯片的 Mac、M5 芯片的 Vision Pro。标准版 iPhone 17(8GB 内存)无法使用这两项功能,但其他 Siri AI 功能(如个性化语境识别、屏幕感知、网络检索等)仍对 8GB 设备开放。iOS 27 开发者测试版已上线,公开测试版下月推送,正式版秋季更新。
苹果在 WWDC 2026 推出 CarPlay“路线共享”功能,支持导航应用以路段坐标数组向车辆传递路线并实时更新,解决特斯拉 FSD 因无法获知 CarPlay 目的地导致的自动变道失效问题。反向操作也支持:特斯拉可根据能耗选充电站,回传途经点至 iPhone 更新路线。另新增视频浏览应用,支持 AirPlay 视频串流,驾驶时自动切换纯音频。
datasette-agent 0.2a0 新增两个核心功能。工具可通过 `ToolContext` 对象的 `await context.ask_user(...)` 向用户提问,支持 yes/no、多选(`options=[...]`)或自由文本(`free_text=True`)。问题未回答时 agent 挂起,问题以表单形式渲染在聊天界面并持久化到内部数据库,服务器重启后对话可继续。工具应在执行副作用前调用 `ask_user()`,回答后从头重放。另一内置工具 `save_query` 允许 agent 将 SQL 保存为 Datasette 存储查询,但必须经人工批准——显示完整 SQL 及提议的名称、数据库和可见性,用户确认后才会存储。`ask_user` 功能基于作者昨日用 Claude Fable 5 构建的新 LLM alpha 实现。
Anthropic CEO Dario Amodei 发布万字政策长文,以《魔戒》树须比喻AI与政策的时间错位,提出五领域行动框架(安全审计、失业保障、下游监管、权力平衡、国际治理)。OpenAI确认秘密提交S-1招股书,估值超8500亿美元,月收入20亿美元,周活跃用户9亿;与估值9650亿美元的Anthropic、SpaceX开启万亿级IPO竞速。MIT与宾夕法尼亚大学追踪10万开发者发现:AI编程工具使代码行数暴增17.3倍,实际发布的软件版本仅增长30%。
OpenAI秘密提交S-1招股书,估值超8500亿美元,月收入20亿美元,ChatGPT周活突破9亿;Anthropic于6月1日提交IPO申请,
http://x.com/i/article/2064862052729176064
Anthropic 发布数据保留政策,要求对其 Fable 和 Mythos 产品或模型执行 30 天数据保留。该政策源自 support.claude.com 支持页面,并在 Hacker News 上获得 108 个点赞。具体内容指相关数据将被保留 30 天,适用于 Fable 和 Mythos。详细规定及影响范围可查阅官方文档。
DeepSeek 的相关说明在 Hacker News 上获得 100 个 HN Points,发布于 6 月 10 日。