1模型发布/更新
OpenAI发布迄今最智能的GPT-5.5模型,其核心突破在于强大的智能体能力,能自主规划并执行多步骤复杂任务,在代码、研究及跨工具操作等场景表现卓越。相比前代,完成相同任务所需的Token消耗显著减少,成本降至1/35,每兆瓦Token输出量提升50倍。模型在多项基准测试中领先,例如在Terminal-Bench 2.0准确率达82.7%。该模型已向Plus、Pro用户开放,API输入定价为每百万Token 5美元起。英伟达已在内部部署,将调试时间从数天缩短至数小时。
针对智能体任务中Token消耗快速增长的问题,Ling-2.6-flash模型正式发布。该模型采用混合线性架构等技术进行系统性优化,旨在实现更高推理效率和更低使用成本。其推理速度在4卡H20条件下最快可达340 tokens/s,在Artificial Analysis评测中仅消耗约对比模型1/10的Tokens。模型在多个Agent相关基准测试中达到同尺寸SOTA水平,保持了强大的任务执行与工具调用能力。
2产品发布/更新
LiteRT 是一个生产就绪的框架,旨在帮助移动开发者充分发挥神经处理单元(NPU)的效能,以突破传统 CPU 或 GPU 在性能与电池续航上的瓶颈。该框架通过提供统一的 API 来屏蔽底层硬件复杂性,已成功助力 Google Meet、Epic Games 等行业领先者高效部署复杂的 AI 模型,实现实时视频处理、动画生成与语音识别等高级功能。此外,平台还提供基准测试工具并具备跨平台兼容性,能够支持 AI 应用无缝部署于移动设备、AI PC 及工业物联网硬件等多种终端。
Claude 代码工具发布 v2.1.119 版本,带来多项功能优化与问题修复。主要更新包括:用户配置现持久化至本地文件;新增 `prUrlTemplate` 设置以自定义 PR 徽章链接;`--from-pr` 命令扩展支持 GitLab、Bitbucket 等多个平台。工具权限与交互行为在多处实现统一,例如 `--print` 模式现在遵从代理的前置元数据定义。界面体验获得改进,如斜杠命令建议会高亮匹配字符,长描述自动换行。此外,本次更新修复了大量已知问题,涉及粘贴格式错乱、工具意外隐藏、MCP 服务器连接失败、权限模式行为异常及界面显示错误等。
该项目是微软 Copilot Studio 中“增强型任务完成”功能的展示站点与可部署示例。它包含两个智能体,通过两个内联 MCP 连接器串联了 9 个工具,服务于电子商务客户服务场景。整个方案完全运行在 Power Platform 内,无需外部服务器,连接器使用内联 C# 脚本实现。仓库提供了由 Astro 构建的展示站点、可直接导入 Power Platform 的解决方案包,以及一个可选的 Gradio 前端界面,用于直观展示智能体的推理与工具调用过程。具体部署步骤请参阅项目内的详细说明文档。
3行业动态
OpenAI推出迄今最智能的GPT-5.5模型,其速度更快、能力更强,专为处理跨工具的复杂任务而构建。该模型在编程、学术研究与数据分析等领域表现出显著提升,能够高效整合多工具工作流,旨在应对更高阶的专业需求。
xAI发布旗舰语音模型Grok Voice Think Fast 1.0,专为客服、销售等领域的复杂多步骤工作流打造。该模型在τ-voice Bench全双工语音排行榜位列第一,能在电话音频、噪音、口音及频繁打断等真实苛刻条件下稳定运行,并原生支持25种以上语言。其核心优势包括精准的数据录入与复述、实时后台推理不增加延迟,并能通过思考避免错误回答。目前该模型已应用于Starlink的销售与客服,实现了20%的电话销售转化率和70%的客服自主解决率,能跨数百个工作流调用28种工具处理硬件故障排查、换货等高风险任务。
OpenAI发起了一项名为“GPT-5.5 Bio Bug Bounty”的红队挑战赛,旨在发现针对生物安全风险的通用越狱漏洞。该挑战聚焦于评估和增强模型在生物安全领域的防护能力,成功发现有效漏洞的研究人员最高可获得25,000美元的奖励。此举旨在通过众包安全测试,提前识别并修复高级语言模型可能被滥用于生物风险的关键缺陷。
澳大利亚国民银行在评估多款AI编程助手后,将6000名开发人员统一迁移至Cursor。此举显著提升了开发效率,使遗留系统现代化项目进度比预期快了三倍,例如将一个单体架构重构为微服务。银行选择Cursor主要基于其模型灵活性、对复杂代码库的准确理解以及可扩展性。目前,NAB正将Cursor推广至技术部门超万名员工,并为不同职能设置了定制化培训路径,以全面提升组织生产力。
小米MiMo团队推出端到端语音识别模型MiMo-V2.5-ASR。该模型通过大规模中期训练、高质量监督微调和新型强化学习算法,在多个维度实现显著提升:原生支持吴语、粤语等中文方言;无需语言标签即可准确转录中英文码切换内容;能高精度识别中英文歌曲歌词;在强噪声、远场等复杂声学环境下保持鲁棒性;可准确转录多人重叠对话;在知识密集型内容(如古典诗词、专业术语)识别上表现优异;并能根据韵律和语义原生生成标点,直接产出可用的转录文本。模型已在Hugging Face平台开源。
文章提供了使用 Codex 的完整工作流程指引。内容包括如何设置 Codex 工作区、创建线程与项目、管理文件,以及通过分步指导开始完成任务。这些操作指南旨在帮助用户快速上手并高效利用 Codex 平台进行开发工作。
4论文研究
vision🍌 现已发布 https://vision-banana.github.io/ 如果你像我一样进入计算机视觉领域,从像素级标注任务(如分割、边缘、深度或表面法线)开始,看到这些结果时你可能会有同感——某些重大的转变已悄然发生,这将永久改变我们处理这些问题的方式 🧵
本文介绍了利用Geneformer这一预训练基础AI模型,在数据有限条件下发现疾病治疗靶点的流程。该模型基于大规模单细胞转录组数据训练,通过零样本推理、微调及计算机模拟扰动分析,将基因表达数据转化为排序编码,并评估表型可分性。模拟基因扰动后,通过量化细胞状态嵌入变化来优先筛选候选靶点。整个分析流程可在标准GPU工作站上2天内完成,仅需中等Python编程经验。该协议为微调与模拟扰动提供了一个通用框架,是scGPT、scFoundation等模型的替代方案。
澳大利亚研究人员于2025年12月发布AI生成的“2026年Momentum 100”新兴技术榜单。强化学习位列榜首,区块链技术紧随其后,3D打印、软体机器人、增强现实及组学技术亦居前列。该榜单源于开放数据集Cosmos 1.0,研究团队利用Wikipedia2Vec语言模型分析数万篇维基百科页面,通过嵌入向量和超链接构建技术关联图谱,最终从约2.3万项技术概念中筛选出增长最快的100项。榜单可按技术存续时间、页面浏览趋势等指标动态筛选,旨在为政策与投资提供年度参考。
研究团队开源了论文《Monitoring Monitorability》中的数据集与代码,并分享了一种针对噪声主导干预评估实例的新过滤策略。这一举措旨在提升AI系统监控能力的评估透明度与可复现性,为社区提供了可直接使用的工具和方法。新提出的过滤策略能有效识别并处理评估过程中噪声干扰严重的实例,有望提高评估结果的准确性与可靠性。
流匹配作为一种新兴的生成式人工智能训练范式,为生物信息学与计算生物学提供了强大的数据驱动框架。它能够高效学习高维数据分布间的映射关系,适用于小分子、蛋白质、DNA/RNA等生物分子建模及其相互作用分析,以及在单细胞/多细胞层面进行表型分析与成像。该技术正推动基于AI的虚拟细胞开发,相关开源方法与代码库已通过GitHub等平台公开。未来,基于流的生成建模有望在生物分子相互作用预测、疾病状态转换等复杂生物问题中发挥关键作用。
5技巧与观点
本文介绍在 Chrome 扩展中集成 Transformers.js 库的具体方法,涵盖从环境配置、模型加载到前后端通信的关键步骤。通过示例代码演示了如何利用该库在扩展中实现本地机器学习推理,同时处理扩展权限限制与安全策略。文中还对比了 Web Worker 与 Service Worker 两种部署方案,并提供了性能优化建议,帮助开发者在浏览器扩展环境中高效运行 Transformer 模型。
Hugging Face 公开了其面向后训练实习岗位的家庭作业挑战。该挑战现已开放,供所有申请者尝试完成。这为有意向的实习生候选人提供了一个实践机会,以展示其在模型后训练阶段的相关技能与理解。