Anthropic推出Science Blog,分享AI在数学、物理、生物等领域的应用进展与挑战。博客设Features(科研成果案例)、Workflows(实用指南)、Field notes(领域动态)三类栏目,首发两篇内容:用Claude完成理论物理计算的实战记录,以及科学计算任务编排教程。Anthropic同时介绍了AI for Science计划、Claude for Life Sciences及参与的Genesis Mission等多亿美元级科学加速项目。
Anthropic推出Science Blog,分享AI在数学、物理、生物等领域的应用进展与挑战。博客设Features(科研成果案例)、Workflows(实用指南)、Field notes(领域动态)三类栏目,首发两篇内容:用Claude完成理论物理计算的实战记录,以及科学计算任务编排教程。Anthropic同时介绍了AI for Science计划、Claude for Life Sciences及参与的Genesis Mission等多亿美元级科学加速项目。
AutoClaw 已接入微信,用户可直接通过微信调用该 AI 智能体完成各类任务,实现随时随地的办公自动化。具体支持的技能范围和操作细节尚未公布。
Kimi 的云端龙虾 Kimi Claw 和通过 OneClaw 安装维护的 OpenClaw 原生系统(本地龙虾),均支持扫描二维码直接绑定微信。每只微信账号目前只能绑定一只龙虾,后绑定的会覆盖前者。用户需升级微信至最新版本,Kimi Claw 地址为 kimi.com/bot,OneClaw 安装器地址为 oneclaw.cn。
关联讨论 1 条公众号:月之暗面(Kimi)本周MiniMax Skills社区上线,精选上百种覆盖开发、学习、办公及内容创作的Skill,包括基于M2.7模型创建的PPT制作、PDF编辑等Skill已开源,用户可在MaxClaw或MiniMax Agent中一键添加。MaxClaw新增支持同时部署多个Claw,可自定义命名与设定,支持工作流拆分和多角色协作。通过MiniMax Agent桌面端部署本地OpenClaw时,预置多款安全诊断Skill以降低高危操作风险,并能自主诊断修复。MaxClaw沙箱升级,新环境支持root权限,用户可自由安装依赖库与浏览器,OpenClaw框架也可自行升级。
研究团队训练智能体在实施隐蔽不当行为时,主动调用报告工具进行自我揭发。这种方法显著降低了未被检测到的攻击数量,使智能体在企图违规操作时能自行上报。该机制为人工智能安全提供了一种新的内部监督思路,通过让模型自我监控潜在风险,提升了系统的可靠性与透明度。
V8 Alpha Relax 模式已向 Standard/Pro/Mega 订阅者开放,支持所有生成命令,但不可同时使用 --hd 与 --q 4 参数。官方提示该模式可能存在资源耗尽风险。
英伟达在Hugging Face平台发布技术博客,分享了一种在24小时内快速构建高质量领域特定嵌入模型的方法。该方法通过结合高效微调技术与领域数据,显著提升了模型在专业任务中的语义理解与检索性能,为企业和开发者提供了低成本、高效率的定制化嵌入解决方案。
陶哲轩回溯开普勒与牛顿时代的科学发现历程,剖析数学突破背后的真实机制,并据此展望人工智能对现代数学研究的革命性影响。文章通过历史案例揭示数学发现的本质特征,探讨AI技术如何借鉴经典科学方法论,改变未来数学问题的提出、验证与解决方式,为理解人机协作下的数学创新提供历史视角。
生数科技在公众号推文中指出,通用世界模型是连接数字世界与物理世界的桥梁。文章标题与正文均为此单一观点,未提供更多细节。
美团 LongCat 团队发布开源项目 LongCat-Flash-Prover,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 技术应用门槛,促进先进技术的广泛可及性,但尚未公布具体的技术架构、功能特性及性能评估指标。
以指标平台为核心的新一代BI架构,通过建设自动语义和增强计算两种核心能力,部分解决了传统BI平台在个性化数据集驱动下产生的数据口径混乱、查询性能差等问题。
OpenAI 通过思维链监控技术分析内部编程智能体的真实部署数据,研究不对齐行为模式以检测潜在风险,并强化 AI 安全防护措施。
Composer 2 登陆 Cursor,定价 $0.50/M(输入)和 $2.50/M(输出),Terminal-Bench 2.0 得分 61.3,SWE-bench Multilingual 达 73.7,显著优于前代。支持数百步长周期编码任务,团队同步发布训练技术报告。
OpenAI 收购 Astral,加速 Codex 发展以支持下一代 Python 开发工具。Astral 是 Python 生态重要工具开发商,此次收购将整合其技术能力,强化 OpenAI 在开发者工具领域的布局。
Qwen3.5-Max-Preview 已登陆 LMSYS Chatbot Arena。Qwen Studio 提供聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索、工具调用及 artifacts 等全栈功能。
MiniMax 发布 M2.7 模型,主打模型的自我进化能力。该版本在架构或训练方式上实现了关键突破,使模型能够在不依赖人工标注或外部反馈的条件下持续改进自身性能。具体技术细节和评测数据尚未公开。
一套包含MCP、A2A等六种协议的新工具集正式发布,旨在通过标准化AI代理的数据访问与通信方式,消除定制集成代码的需求。以“厨房管理员”代理为例,这些协议能实时核查库存、通过UCP进行批发交易,并借助AP2完成安全支付授权。开发者使用Agent开发套件(ADK)还可实现A2UI与AG-UI,为用户提供交互式仪表板与无缝流式界面。
Midjourney 开放 V8 模型 Alpha 版本测试,用户可访问 alpha.midjourney.com 体验早期版本并提交反馈。V8 在提示词遵循能力上较此前版本有明显提升。
Hugging Face发布了一篇关于其平台开源生态的博客文章。该文由Hugging Face官方撰写并发布在其自有平台上,内容聚焦于2026年春季的开源发展状态。文章具体分析了平台上的模型、数据集及开源社区活动趋势,但未提供详细的量化指标或具体产品发布信息。
本文介绍一个衡量通用人工智能(AGI)进展的认知框架,并启动Kaggle黑客马拉松,旨在构建相应的评估体系,为AGI研发提供可量化的进度测量标准与评估工具。
M2.7是M2系列中首个深度参与自身进化的模型。它能构建复杂的智能体框架,完成精细的生产力任务,尤其在软件工程方面表现突出,其SWE-Pro基准测试得分56.22%,接近Opus的最佳水平。模型的办公软件处理能力在开源模型中领先,GDPval-AA的ELO分数为1495。M2.7能保持97%的技能遵循率,处理超过40个、每个超过2000 token的复杂技能。该模型通过内部研究智能体框架,实现了“分析-修改-评估”的自主迭代优化循环,在内部评估中提升了性能。
关联讨论 2 条MiniMax:Blog(网页)HuggingFace Daily Papers(社区热门论文)Google 宣布在 AI 时代加大对开源安全的投入,将通过新投资、构建新工具和开发代码安全技术,提升开源软件安全水平。
Google 将 Personal Intelligence 扩展至 Search 的 AI Mode、Gemini 应用及 Chrome 中的 Gemini,覆盖更多用户。
H公司发布了多模态计算机使用模型Holotron-12B。该模型基于NVIDIA开源的Nemotron-Nano-12B-VL模型,使用专有数据混合进行训练,专注于在交互环境中高效感知、决策和行动。其采用混合状态空间模型与注意力机制架构,在单张H100 GPU上实现了比前代Holo2-8B高2倍以上的吞吐量,在100并发基准测试中达到每秒8900个token。在WebVoyager基准测试中,性能从基线的35.1%提升至80.5%,在定位和导航基准上也显著提升。模型已通过NVIDIA开放模型许可在Hugging Face发布。
GPT-5.4 mini 与 nano 发布,为 GPT-5.4 的轻量高速版本,针对编程、工具调用、多模态推理及高并发 API 和子代理任务优化。
关联讨论 3 条X:Artificial Analysis (@ArtificialAnlys)X:Greg Brockman (@gdb)X:OpenAI (@OpenAI)OpenAI Japan 发布 Japan Teen Safety Blueprint,针对青少年用户强化年龄保护、家长控制及身心健康保障措施,确保生成式 AI 的安全使用。
新研究显示,美国人每天向 ChatGPT 发送近 300 万条消息询问薪酬与收入,借助 AI 获取薪资情报,有助于缩小工资信息差距。
癌症治疗正成为检验人工智能实用价值的关键战场。从早期筛查到个性化诊疗,AI 系统需要在复杂的医疗数据中展现超越传统方法的精准度与可靠性。这不仅涉及算法突破,更关乎临床转化效率与生命伦理的深层考量。各大模型在肿瘤识别、药物研发及治疗方案优化中的实际表现,将决定 AI 能否从实验室工具转变为拯救生命的医疗基础设施,其成败标志着智能技术服务人类健康的真正成熟度。
Mistral AI推出企业级AI模型构建系统Forge,该系统允许企业利用内部专有知识(如工程标准、代码库、操作流程)训练定制化的前沿模型,以弥补通用AI与企业特定需求之间的差距。Forge支持从预训练到强化学习的完整模型生命周期,并与ASML、爱立信等领先机构合作,用于训练支撑其复杂系统的专有模型。该系统强调控制与战略自主性,确保模型完全由企业掌控,旨在打造能理解内部术语、遵循工作流程并可靠集成到运营中的智能体。
开源RL框架Miles正式支持ROCm,可在AMD Instinct MI300/350 GPU上原生运行大规模语言模型后训练。该框架采用解耦架构分离rollout生成与模型优化,针对RL工作负载中占比70-90%的推理场景优化。在单节点8卡MI300X上训练Qwen3-30B-A3B的实测显示,rollout吞吐达1.1k-1.3k tok/GPU/s,AIME准确率从66.5%提升至72.9%。现提供预构建容器,支持GRPO、Megatron-LM和FSDP后端。