1模型发布/更新
Mistral AI推出旗舰模型Mistral Medium 3.5,这是一个128B参数的密集模型,拥有256K上下文窗口,在SWE-Bench Verified上获得77.6%的分数。该模型现作为Vibe和Le Chat的默认引擎,并驱动两项新功能:Vibe远程编程智能体可将编码任务移至云端异步并行执行,用户可通过CLI或Le Chat启动并在完成后接收通知;Le Chat的新工作模式则是一个由该模型驱动的智能体,能处理研究、分析和跨工具操作等多步骤复杂任务。这些更新旨在将开发者从本地线性任务中解放出来,提升工作效率。
NVIDIA 发布了 Nemotron 3 Nano Omni 模型,这是一个专为处理长上下文多模态任务设计的轻量级模型。该模型能够同时理解并处理文档、音频和视频数据,旨在赋能新一代多模态智能体。其核心变化在于将长上下文能力与多模态理解结合到一个小型化模型中,提升了在复杂跨模态场景下的处理效率与应用灵活性。
SenseNova-U1在ModelScope开源发布,采用Apache 2.0协议。该模型基于NEO-Unify架构,摒弃了传统视觉编码器与VAE,将语言与视觉作为统一的复合信号进行端到端处理。其核心特点在于一个模型同时覆盖文生图、图像编辑、交错生成与视觉问答等多模态任务。模型采用8B密集参数与A3B混合专家系统组合,在开源理解与生成基准测试中达到SOTA性能。
@poolsideai 的首批公开基础模型刚刚在 OpenRouter 上发布! Laguna M.1 和 Laguna XS.2。专为智能体编码和长周期工作从头构建。限时免费 ⬇️
AntLingAGI与SGLang团队合作,正式推出Ling-2.6-flash(亦称Elephant-alpha)即时指令模型,并在SGLang平台上实现了首发支持。该模型总参数量达104B,但活跃参数仅7.4B,专为低延迟的智能体工作流优化,能够实现即时响应。它在编码、文档处理和智能体任务中展现出极高的token效率,所用token数量显著减少。尽管活跃参数较少,其模型质量仍与当前SOTA水平相当,兼具速度与执行力,适合需要快速响应的生产级智能体应用。团队强调,快速且稳定的推理是提升用户体验的关键。
inclusionAI发布了Ling-2.6-flash模型。该模型是其开源语言模型系列的最新成员,旨在通过开源与开放科学推动人工智能的进步与民主化。此次发布延续了团队降低AI技术使用门槛、促进更广泛社区参与开发的使命。
inclusionAI 团队发布了 Ling-2.6-flash-fp8 模型,致力于通过开源与开放科学推动人工智能的发展与普及。该版本采用 FP8 精度优化,显著提升了推理效率并降低了计算资源消耗,是其在推进技术民主化进程中的最新实践。
inclusionAI团队宣布推出Ling-2.6-flash-int4模型,作为其通过开源与开放科学推动人工智能技术进步与普及的重要举措。该版本延续了团队降低AI应用门槛、促进技术民主化的核心使命,以轻量化技术方案进一步优化模型性能与部署效率。
2产品发布/更新
Cognition公司推出Devin for Terminal,将云端AI编程助手Devin的能力打包为本地命令行Agent。其核心差异化在于“本地至云端无缝交接”设计:当任务超出本机能力时,可将同一会话无缝移交至云端Devin的虚拟机环境执行,用户可离线等待结果。该工具复用现有云端基础设施作为后端,支持多模型路由,可灵活选用Anthropic、OpenAI、Google及自研SWE-1.6等模型,并允许会话中实时切换。团队还使用Rust自研了高速终端渲染库,强调终端形式不变但内部工作范式已革新。
Anthropic推出Claude for Creative Work,这是一套连接器工具,可实现Claude与Blender、Autodesk、Adobe等主流创意软件的直接集成。这些连接器允许Claude访问各平台功能,例如在Adobe系列中调用50多款应用,在Autodesk Fusion中通过对话创建3D模型,或在Blender中通过自然语言操作Python API。创意工作者可利用Claude加速软件学习、编写脚本插件、桥接多工具工作流以及自动化批量处理等重复任务。该系列工具基于MCP标准,并已与多所艺术设计院校合作,旨在推动创意计算教育。
微软开源了前沿语音人工智能项目VibeVoice,该项目已在GitHub上发布。VibeVoice能够生成高度自然、富有表现力的语音,支持多种语言和情感语调,显著提升了合成语音的真实感与感染力。其开源策略旨在推动语音AI领域的协作与创新,降低开发门槛。该项目在技术社区获得关注,在Hacker News上获得了103个投票点数。
Claude Code 现在可以在长时间任务完成或需要您输入时,向您的手机发送推送通知。 离开终端吧,完成后我们会通知您。
NVIDIA Nemotron™ 3 Nano Omni 已在 OpenRouter 上线。 这是一个用于智能体工作流的开源 30B-A3B 多模态模型:文本、图像、视频和音频输入 → 文本输出,拥有 256k 上下文窗口和高效的 MoE 架构,适用于计算机使用、文档和音视频推理。
Anthropic发布《企业级Claude Cowork部署指南》,旨在帮助非技术岗位员工规模化应用AI。该指南基于内部团队及Thomson Reuters等客户实践,提供了从试点到全面推广的完整路径。核心内容包括一个五级成熟度模型、试点用例评估方法以及为期六个月的组织级部署路线图。Claude Cowork作为桌面应用,能深度集成本地文件、Slack、Google Drive及浏览器,并结合Claude for Excel/PPT实现跨文档工作流,适用于金融、法律、销售等多行业的生产场景。
3行业动态
埃隆·马斯克在美国加州法院起诉OpenAI及其CEO萨姆·奥特曼,指控其将最初的非营利组织转变为营利性商业实体,构成背叛。马斯克要求法院撤销2019年的营利性转型,恢复非营利地位,罢免奥特曼等管理层,并索赔高达1340亿美元。他认为此案关乎公共原则,若此类转型无后果将危及全美慈善机构信任。OpenAI则反驳称该诉讼是“无根据的、出于嫉妒的竞争攻击”。此案结果可能为使命驱动型科技公司的结构与融资设立重要法律先例。
OpenAI 2025年未能实现ChatGPT的内部营收和周活用户突破10亿的目标,主要面临谷歌Gemini和Anthropic的竞争。尽管近期融资1220亿美元,但其高达1.4万亿美元的数据中心支出承诺带来巨大财务压力,到2030年或需2070亿美元新融资。公司内部对算力支出和IPO时间表存在分歧,同时还需应对马斯克的巨额索赔诉讼。尽管有GPT-5.5表现优异等利好,但平衡巨额支出与营收增长仍是其IPO的核心挑战。
欧盟委员会初步认定,谷歌在安卓系统中给予其AI助手Gemini系统级优先待遇,限制了第三方AI服务调用系统功能、屏幕上下文、本地数据和硬件的能力。为此,欧盟要求谷歌开放安卓的AI相关权限,允许第三方AI工具通过唤醒词或按键启动、读取屏幕内容、访问本地数据并控制已安装应用,同时为开发者提供必要的硬件访问以支持本地模型运行。欧盟将在收集反馈后,最晚于7月27日公布最终决定。若谷歌未按要求调整,可能面临最高相当于其全球年收入10%的罚款。
OpenAI的GPT系列模型、代码生成模型Codex以及托管智能体现已正式上线亚马逊云科技。企业用户可直接在AWS环境中集成并调用这些AI服务,基于自身云基础设施构建安全、可控的定制化人工智能应用。此次合作将OpenAI的前沿模型能力与企业级云环境的安全性和可扩展性相结合,为企业部署生成式AI与自动化智能体提供了新的平台选择。
谷歌已与五角大楼签署协议,允许其AI模型用于机密工作及“任何合法的政府目的”,此举无视了超600名员工的反对,并逆转了其2018年因员工抗议退出Project Maven的立场。协议条款看似比OpenAI的同类合约更为宽松,虽声明AI“不拟用于”大规模监控或无人监督的自主武器,但法律专家指出该措辞缺乏约束力。协议还要求谷歌应政府要求调整AI安全过滤器。这与Anthropic因拒绝在类似用途上妥协而被五角大楼列为供应链风险形成对比。
4论文研究
研究指出,当前GUI智能体的核心瓶颈在于系统设计,而非模型能力,表现为假性成功和死循环等问题。VLAA-GUI框架通过三个模块应对:STOP验证器确保任务真正完成,RECOVER循环中断器打破重复操作,SEARCH代理直接获取外部知识。在OSWorld基准测试中,该框架助力Opus 4.6模型取得77.5%的成功率,首次超越人类水平(72.4%);在WindowsAgentArena上,结合Gemini 3.1 Flash也以61.0%创下新纪录。这表明,精心的系统设计与强大的模型能力同等重要。
LMSYS团队针对SGLang中的强化学习工作负载,提出了一种基于RDMA的点对点权重更新机制,作为传统NCCL广播方法的补充。该设计利用源端CPU引擎副本和Mooncake TransferEngine进行P2P RDMA传输,将拥有1T参数的Kimi-K2模型的权重传输时间从53秒大幅缩短至7.2秒,提速7倍。其代价是每个训练等级需在CPU内存中额外占用一个32G的推理引擎副本。此优化最大限度地减少了网络冗余,允许推理服务器更快恢复rollout过程,且兼容所有主流开源模型。
阿里巴巴达摩院联合广东省人民医院等机构,研发出肠癌筛查AI模型DAMO COCA。该模型基于平扫CT影像,采用两阶段深度学习架构,在国际上首次实现了无需肠道准备、患者“无感”的肠癌机会性筛查。在回顾2.7万人影像的试验中,模型精准识别出5例漏诊肠癌,敏感性达86.6%,特异性高达99.8%。与10名影像科医生相比,其敏感性显著高出20.4%,并能辅助医生将敏感性提升14.5%。相关成果已发表于顶级期刊《肿瘤学年鉴》。
Anthropic团队开发了BioMysteryBench生物信息学基准测试,用于评估Claude在分析真实数据集、解决开放式研究问题上的能力。测试发现,Claude的生物学科学能力正快速迭代,当前模型表现已与人类专家相当,最新模型甚至解决了部分专家小组未能破解的问题,且有时策略迥异。该基准旨在应对科学评估的固有挑战,如生物学研究中存在多种合理的“正确”方法,以及研究决策的高度主观性。
研究团队提出LaDiR推理框架,将连续潜在表征的表达能力与潜在扩散模型的迭代优化能力相结合,以增强现有大语言模型的推理性能。该框架首先构建一个结构化的潜在推理空间,通过扩散过程对潜在状态进行迭代细化,使模型能够全局性地重新审视和修正推理路径中的早期内容。这种方法突破了传统自回归解码在整体优化和多样化解决方案探索方面的限制,提升了链式思维生成的质量与效率。
5技巧与观点
多数人编写的CLAUDE.md冗长无效,常因添加过多人格指令导致Claude仍会猜错命令或重写文件。有效的CLAUDE.md应是精炼的项目技术简报,控制在60-80行内。核心在于认识到Claude的注意力是稀缺资源,系统提示已占用部分容量。正确结构应包含:明确的关键命令、简洁的架构地图、强调禁止事项的硬性规则、清晰的工作流偏好,并避免重复AI已记忆的内容。这本质上是LLM时代的注意力经济学,通过具体、负向的规则能显著提升输出精准度。一份好的CLAUDE.md能随项目积累价值,节省沟通成本并固化工程规范。
风险投资人Jerry Neumann认为,生成式AI是现有ICT技术浪潮的终章,而非新开端。他以微处理器和集装箱运输为例:微处理器早期存在低成本“无需许可的发明”窗口期,催生了苹果等新贵;而集装箱运输技术透明、缺乏壁垒,导致完全竞争,主要使下游使用者(如宜家、沃尔玛)获益。Neumann指出,当前AI实验权集中于少数大公司,属于“有许可的发明”,缺乏颠覆性创新环境,因此大多数AI投资者可能面临亏损。
AI销售策略正从询问软件预算转向三个核心问题:软件总预算、劳动力总预算,以及客户期望三年后两者的比例。这一转变将销售对话提升至战略层面。当前数据显示,销售、支持和工程部门的人力与软件成本比分别为10:1、4:1和最高25:1,高比率意味着巨大的AI替代潜力。新的销售流程分为两步:先切入现有软件预算,再拓展至AI所释放的劳动力预算,最终目标是重新定义企业对成本结构的认知。
我们研究了市场上Opus 4.7的数据,发现成本增加了12-27%,但短提示除外,实际上短提示的成本效益更高。 完整文章:https://openrouter.ai/announcements/opus-47-tokenizer-analysis
自去年秋季推出实证研究辅助(ERA)工具以来,谷歌研究团队已将其应用于多个科学领域以解决实际问题。在流行病学中,它助力流感与新冠预测;在宇宙学里,协助分析星系数据以探究暗能量;在大气监测方面,提升了二氧化碳排放的追踪精度;在神经科学领域,则用于解析大脑活动数据。这些实践表明,ERA能帮助科学家生成专家级的实证软件,其成果超越了黑箱模型,可发现兼具可解释性与机制准确性的解决方案,从而有效加速科学发现进程。