T5Gemma 是基于 Gemma 的编码器-解码器大语言模型新系列,采用双向编码器与自回归解码器架构,适用于翻译、摘要等序列到序列任务。
T5Gemma 是基于 Gemma 的编码器-解码器大语言模型新系列,采用双向编码器与自回归解码器架构,适用于翻译、摘要等序列到序列任务。
谷歌 MedGemma 系列新增多模态模型,专为健康 AI 开发设计。作为该系列迄今最强的开源版本,新模型具备更强大的医疗场景理解能力,为开发者提供先进的医疗人工智能技术支持,助力构建更精准的健康医疗解决方案。
Gemini 2.5 Flash-Lite 结束预览,达到生产级可用状态。这款高性价比模型在轻量体积下提供高质量输出,支持 100 万 token 超长上下文和多模态能力。
关联讨论 1 条Google DeepMind:Blog(RSS)与导演 Darren Aronofsky、Eliza McNitt 及超 200 人团队合作,采用 Veo AI 视频生成与真人实景拍摄结合的方式制作电影《ANCESTRA》。
AlphaEarth Foundations 新AI模型整合PB级地球观测数据,生成统一数据表示,以前所未有的精度革新全球测绘与监测。
美团 LongCat-Video 项目秉持开源与开放科学理念,致力于推进并普及人工智能技术。该项目通过开放源代码的方式,旨在降低 AI 技术应用门槛,打破技术壁垒,促进视频领域人工智能技术的广泛传播与创新发展,体现了推动 AI 技术民主化与开源生态建设的长期愿景。
该研究提出了一种名为“自对抗流”的新方法,旨在驯化大规模少步训练。该方法通过引入一种内部对抗机制来优化流模型在有限训练步数下的性能,有望解决大模型训练中计算成本高昂的挑战。相关工作已被顶级机器学习会议ICLR 2026接收。
集成 Deep Think 的 Gemini 高级版本在国际数学奥林匹克(IMO)中达到金牌水平。IMO 自1959年起每年举办,是全球最顶尖的青年数学家竞赛,各国派出6名精英学生角逐代数、组合、几何和数论领域的6道极难题目。
关联讨论 1 条Google DeepMind:Blog(RSS)利用人工智能技术,科学家能够从海量宇宙数据中提取深层信息,突破传统观测局限,揭示隐藏规律,从而以前所未有的深度感知和理解宇宙,持续拓展人类认知边界。
美团开源全模态模型LongCat-Flash-Omni,采用5600亿参数MoE架构(激活270亿),支持128K上下文与实时音视频交互。模型基于快捷连接MoE与零计算专家,配备轻量级编解码器及分块特征交错机制,通过课程式渐进训练提升效率。在OmniBench、WorldSense等基准测试中超越Qwen3-Omni与Gemini-2.5-Pro,在文档理解、语音识别及GUI控制等任务中达到领先水平。
关联讨论 1 条美团 LongCat:HuggingFace 新模型正在强化 Frontier Safety Framework(FSF),旨在识别并降低先进 AI 模型的严重风险。
CodeMender 是一款面向代码安全的 AI 智能体,利用先进 AI 技术自动修复关键软件漏洞。
关联讨论 1 条X:Demis Hassabis (@demishassabis)与Commonwealth Fusion Systems (CFS)建立合作,将AI技术引入下一代聚变能源领域,致力于让清洁、安全、无限的聚变能源更快成为现实。
Gemma 3 系列新增 270M 参数模型,仅 2.7 亿参数,定位紧凑型超高效 AI 专业工具。
关联讨论 1 条Google DeepMind:Blog(RSS)Gemini 应用原生图像编辑功能迎来重大升级,用户现可通过更新后的工具以全新方式变换图像,获得更强大的创意编辑能力。
VaultGemma 基于差分隐私技术从头训练,是目前能力最强的隐私保护大语言模型,在严格隐私约束下实现了顶尖性能。
Gemini 2.5 Computer Use 模型基于 Gemini 2.5 Pro 构建,专门用于驱动能与用户界面交互的 agent,现已通过 API 以预览版形式提供。
Veo 3.1 正式发布,带来重大功能更新。此次升级为用户提供更强大的高级创意控制能力,让创作过程更加灵活高效,满足多样化的创意需求。
企业AI团队常将原型卡在生产环节,主要瓶颈在于缺乏一套系统来跟踪模型输出变化、复现结果、监控真实使用数据、运行领域特定评估、私有增量微调模型以及满足安全合规的部署。Mistral AI Studio 作为生产级AI平台,基于 Mistral 运营大规模系统的经验而构建,为团队提供构建、评估和运行AI所需的基础设施。其核心功能包括:用于数据驱动闭环的可观测性、基于 Temporal 的有状态智能体运行时,以及用于模型和提示词版本管理的 AI 注册表。
关联讨论 1 条Mistral AI:News(网页)美团 LongCat 团队发布 LongCat-Flash-Omni 开源项目,致力于通过开源和开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 技术应用门槛,打破技术壁垒,但目前尚未披露具体模型架构、性能基准、参数规模及应用场景等详细技术规格。
OpenRouter 在公告中提出问题:是否应将提供隐式缓存(implicit caching)的供应商视为“ZDR”?
OpenRouter 向客户提问:是否应将提供隐式缓存的供应商视为“ZDR”(零数据保留)?该公告未提供更多背景或结论。
文章探讨了AI服务提供商采用的隐式缓存技术是否应被视为零数据保留策略。隐式缓存指服务商为提高响应速度与效率,在系统内部临时存储用户提示词与生成结果,而非明确告知用户。这引发了数据隐私与透明度争议,关键问题在于这种未声明的缓存行为是否违背了用户对数据立即删除的预期。客户需评估该技术是否满足其数据保留要求,尤其在处理敏感信息时。
AI基础设施建设正面临晶圆厂资本支出过剩的风险,同时算力扩张带来每周1吉瓦的能源消耗压力。文章指出,在长周期基础设施竞赛中,中国凭借产业链整合优势占据有利地位。分析涵盖了AI基建中的产能过剩隐忧、电力瓶颈挑战,以及地缘政治背景下的技术长跑格局,揭示了算力军备竞赛背后的资本与能源约束。
关联讨论 2 条Dwarkesh Patel:Podcast & Blog(RSS)X:Rohan Paul (@rohanpaul_ai)SGLang现已集成KTransformers后端,为DeepSeek-V3等稀疏MoE模型提供CPU/GPU混合推理加速。该技术采用Intel AMX优化内核,使单路Xeon算力达21.3 TFLOPS,较PyTorch原生实现快3.9倍;通过NUMA感知张量并行和CUDA Graph调度,双路服务器解码吞吐量提升63%,GPU内核启动开销从20%降至接近零;专家延迟机制支持跨层重排计算以重叠CPU与GPU执行,在精度变化低于0.5%的情况下使解码吞吐量再提高1.45倍。
Seed3D 1.0 基础模型支持从单张图像直接生成具备准确几何、对齐纹理与真实物理材质的 3D 资产,可直接集成至物理引擎用于机器人操作与仿真训练,无需复杂配置。该系统解决了现有世界仿真器在内容多样性与物理准确性之间的权衡难题,并支持将物体组合为连贯场景,实现可扩展的仿真就绪内容创作。
OpenRouter 推出 Exacto,旨在回答同一个大语言模型在不同 AI 服务供应商上是否表现不同的问题。该工具帮助用户量化供应商间的性能差异,为模型部署选择提供参考。
OpenRouter 发布 Exacto 功能,旨在解决同一模型在不同 AI 提供商之间的表现差异问题。该工具帮助用户识别并评估不同部署环境下的模型输出质量变化。
同一AI模型在不同服务提供商上的性能表现可能存在显著差异。为了量化这种“提供商方差”,研究团队推出了Exacto评估平台。该平台通过标准化测试揭示,即使是相同的模型(如GPT-4、Claude或LLaMA),在不同云服务或API提供商处运行时,其输出质量、响应速度和稳定性都可能产生高达30%的波动。这一发现对企业和开发者的模型部署策略具有直接影响,强调在选择服务商时需进行针对性性能基准测试。
Claude Code引入沙盒化技术,通过文件系统与网络双重隔离来增强安全性,并大幅减少权限提示。内部测试显示,该技术将权限提示安全地降低了84%。新推出的沙盒运行时(作为开源研究预览版)允许开发者自定义目录和网络访问权限,使Claude能在限定范围内自主运行命令。同时,网页版Claude Code在云端隔离沙盒中运行,即使遭遇提示注入或代码入侵,也能有效保护Git密钥等敏感凭证不被泄露,从而提升开发安全性与效率。
关联讨论 4 条Anthropic:Engineering(事故复盘 + 工程实践 · 网页)X:宝玉 (@dotey)X:Claude Devs (@ClaudeDevs)X:Berry Xia (@berryxia)Anthropic 推出网页版 Claude Code,以研究预览形式向 Pro、Max 及企业用户开放。用户可直接在浏览器中分配编码任务,无需本地终端,支持并行处理多个 GitHub 仓库的开发工作,并自动创建 PR 和变更摘要。该服务基于云端隔离沙盒运行,具备网络和文件系统限制,同时登陆 iOS 应用支持移动编码。云会话与现有 Claude Code 使用共享速率限制。
关联讨论 4 条Claude:Blog(网页)X:Thariq (@trq212)X:宝玉 (@dotey)X:Claude Devs (@ClaudeDevs)meituan-longcat 发布开源项目 LongCat-Audio-Codec,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在促进音频编解码技术的开放获取,推动行业技术进步与开放生态建设。
Midjourney 启动第二轮高分辨率风格排名活动,改为单图排名模式以学习细节特征、改进风格系统。同期正在新增 TV 功能。