推文表达了对 Codex 工具的喜爱。用户提到让朋友用 Codex 撰写新书推荐语,并分享了自己的使用数据:已不间断连续使用 11 天,单次最长任务时长为 8 小时。推文最后邀请其他用户在 Codex 个人资料中查看并分享自己的 Token 使用统计。
为解决检索增强生成(RAG)系统处理图像时的挑战,Kapa.ai提出了一种方法。他们使用GPT-4 Vision模型为每张图像生成文本描述。处理流程包括将图片压缩至512×512像素并批量生成描述。最终,这些图像描述与元数据一同存入向量数据库。该方法使RAG能够检索图像内容,实现约70%的检索准确率,且成本极低,每张图片处理成本约0.01美元。
OpenAI将Codex从编码工具升级为生产力平台,新增六大角色插件并集成62个应用,还推出Codex Sites功能。关键数据显示,Codex周活达500万,企业收入周环比增长50%,GPT-5.6即将发布,ChatGPT月活已突破10亿。微软在Build 2026大会上发布完整智能体栈,推出自研推理模型MAI-Thinking-1(35B参数,256k上下文),其在编码盲测中超越Claude Sonnet 4.6。同时,微软发布了Agent 365、GitHub Copilot桌面应用、Microsoft IQ上下文层,并公布了专为智能体设计的硬件项目Solara。
FluxMem是一种新型AI智能体记忆系统,其核心思想是将记忆视为一个动态连接的网络,而非静态存储。它将事实、过往任务经历与可复用技能作为图中的节点进行存储。执行任务时,FluxMem先收集可能有用的记忆,再根据任务反馈动态修正记忆间的连接关系。此外,系统能将反复成功的任务路径转化为可复用技能。测试显示,该系统在LoCoMo基准上平均准确率达95.06,并在GAIA基准上结合Kimi K2取得了12.73分的性能提升,优于现有记忆系统。
加州大学系统内部,不同高校对在校园中使用人工智能工具采取了差异化的态度和政策。部分学校可能持开放或谨慎接纳的态度,而另一些则可能实施了更严格的限制。这种内部的政策分歧反映了在人工智能快速发展的背景下,学术机构在平衡创新应用与学术规范、伦理考量时面临的复杂局面。
Claude Code团队工程总监Fiona Fung提出,AI时代软件工程瓶颈从“写代码太贵”转移至验证、评审与安全。团队采用JIT规划,先做原型再补文档;遇到重复工作追问“能否自动化”,形成肌肉记忆。代码评审中Claude承担60-70%风格检查与漏洞捕捉,人类聚焦法律、安全与产品判断。角色边界模糊,PM写代码、工程师用Claude起草文案,招聘看重品味与判断力而非代码产出速度。
本教程详细介绍了如何在 Google Colab 环境中,使用 QLoRA 和 DPO 方法对 LFM2 模型进行微调。内容涵盖了使用 TRL 和 PEFT 库进行监督微调、DPO 对齐以及适配器合并的完整分步编码过程。
该内容源自@mvanhorn的分享,介绍了“智能体工程”如何重塑软件开发。其核心是从“人主导编码”转向“人主导方向、智能体执行”,中心从IDE变为终端与计划文件。方法论遵循Research → Plan → Work循环,核心是让plan.md约束智能体行为。分享者总结了22条实战技巧,涵盖规划、并行执行、输入方式、远程控制等方面,并列出了完整的工具栈。
http://x.com/i/article/2061440101411102721
真人真事!到底谁的错?
在2026 AI创新论坛上,商汤联合创始人兼首席科学家指出,模型架构优化能显著降低单位智能的计算成本,并主张中国AI生态应通过应用与模型创新来驱动芯片发展。其最新多模态模型SenseNova U1基于自研Neo-Unify架构,实践了这一理念,在信息图生成任务中实现了显著更低的计算成本,并同时适配了多种中国芯片。商汤强调将继续开发真正解决用户问题、创造商业价值的AI解决方案。
商汤联合创始人兼首席科学家在2026 AI创新论坛指出,模型架构优化能显著降低单位智能所需的算力。其新发布的多模态模型SenseNova U1基于自研Neo-Unify架构,实践了这一理念,在生成信息图时实现了显著更低的计算成本,并已适配多款中国芯片。商汤强调持续通过应用与模型创新推动芯片发展,以创造商业价值与长期竞争力。
开源项目 BigSet 允许用户用自然语言描述数据需求,从实时网络中构建并定期刷新结构化数据集。研发团队负责人邵猛在实际工作中使用它,自动生成了一份 B2B SaaS 产品清单,内容涵盖产品分类、免费方案说明及官方定价页面链接,省去了逐一查找官网的繁琐工作。该项目已在 GitHub 上开源。
What if you and your agent had all the data that always stays fresh? Structured, on demand, never stale. Introducing Big...
天风国际分析师郭明錤评论称,英伟达 RTX Spark 的核心看点在于黄仁勋提出的“重新发明 PC”口号及端侧 AI 智能体工作流概念。该概念涵盖操作系统、云端与本地大语言模型切换等要素,但并非英伟达原创。他指出,RTX Spark 在未来 2 年内仍是笔记本电脑中的利基市场产品,目标人群是对端侧 AI 算力有需求的重度用户。要真正实现智能体工作流,需依赖 CUDA Toolkit 公开支持 Windows Arm64 及微软 Windows 本机 AI 智能体架构正式商用等软件生态支持。苹果在 WWDC 上对设备端 AI 智能体工作流的回应也将是另一观察重点。
Anthropic 为 Claude Code 推出动态工作流,允许模型为每个任务自主生成 JavaScript 编排脚本,动态选择模型并启动多个子智能体在独立环境中并行执行,以解决单一上下文窗口处理复杂任务的限制。同时,GitHub 在 Microsoft Build 上发布了以智能体为核心的 Copilot 桌面应用,提供统一视图、协作面板和自动化流程,旨在管理并行 Agent 开发。文章披露,GitHub 平台每月提交量已突破 14 亿次。
Anthropic 详解 Claude Code 的动态工作流,其能为每个任务即时生成专属编排脚本,旨在解决智能体懒惰与目标漂移问题。GitHub 发布 Copilot 桌面应用,为每个智能体提供独立的 worktree,其月代码提交量已突破 14 亿 tokens。此外,有观点指出大模型是史上首个“认知引擎”,工程师角色正从编写代码升级为设计能自我纠偏的 AI 系统。
微软发布了MAI-Thinking-1与MAI-Code-1-Flash两款新大语言模型。MAI-Thinking-1为35B参数的推理模型,目前向部分早期合作伙伴开放,官方称其在盲测中优于Sonnet 4.6。MAI-Code-1-Flash为5B参数模型,专为GitHub Copilot和VS Code优化,将逐步向VS Code的Copilot个人用户推出。两款模型均强调使用清洁、商业授权的数据从零开始进行端到端训练,未使用第三方模型进行蒸馏。
Playing around a bit with Krea's K2 Large image model. I love how expressive it feels, and the variability you get with ...
推文指出 Claude Opus 4.7 与 4.8 的发布效果不佳,价格提升但性能无明显改进甚至下降。作者认为 Claude 模型已停滞 4 个月,即使内部拥有 Mythos 等开发工具,模型进步速度依然未显著加快,仍维持约半年一次重大更新的节奏。
Workflows are the biggest upgrade to Claude Code's capabilities since skills and subagents. I dove deep into it with @si...
My review of Claude Opus 4.8: We should worry less about being turned into paper clips & more about being annoyed to dea...
Mai-1 thinking: Mid size model, 45b active parameter, MoE, side by side with sonnet 4.6 0 distillation "Microsoft's firs...
作者因不满Gmail过度“智能”的分类、过滤及对用户选择的“纠正”,决定迁移到Fastmail。他指出Gmail将邮件强制归入促销、社交等分类且难以关闭,干扰了工作流程;同时其垃圾邮件过滤过于激进,错误屏蔽重要邮件。作者体验Fastmail后,认为其提供了更安静、可控的邮件管理环境,能按自身习惯组织邮件,不再被平台的“AI”预设所困扰,从而提升了效率。
微星(MSI)推出了MSI Claw 8 EX AI Plus掌机,搭载Intel芯片,该产品被视为正在推动掌机市场向前发展的设备。