百度伐谋2.0产业决策智能体落地排产场景,业务人员用自然语言描述优先级和现场变化(如设备故障、工人请假),系统自动将约束转化为优化模型并迭代求解,将顾问数小时的建模压缩到对话内完成。每次纠偏实时调整方案,隐性经验被结构化沉淀为企业可复用模型。在日均数百订单、十几条产线的大型家具制造企业中,产能提升20%。
百度伐谋2.0产业决策智能体落地排产场景,业务人员用自然语言描述优先级和现场变化(如设备故障、工人请假),系统自动将约束转化为优化模型并迭代求解,将顾问数小时的建模压缩到对话内完成。每次纠偏实时调整方案,隐性经验被结构化沉淀为企业可复用模型。在日均数百订单、十几条产线的大型家具制造企业中,产能提升20%。
Anthropic联合创始人Chris Olah在梵蒂冈出席教皇Leo XIV关于AI的通谕发布会。他指出,所有前沿AI实验室都面临商业、研究及地缘政治等多重压力,这可能与做正确的事相冲突,因此外部监督至关重要。他强调,AI模型并非像飞机那样被工程化构建,而是基于人类语言和思想“生长”出来的,其内在性质可能复杂难解。他提出三个需审慎思考的问题:如何确保AI发展的全球收益公平分享、如何思考AI时代的人类繁荣,以及AI模型内在性质的本质。他呼吁社会各界,尤其是宗教与民间团体,严肃审视AI发展并引导其向善。
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)X:Anthropic (@AnthropicAI)本文旨在厘清 AI 智能体领域中易混淆的关键术语。文章指出,模型(如 Claude、GPT)本身是无记忆、无循环的大语言模型。其行为由“Scaffolding”(行为定义层,如系统提示、工具描述)塑造,而“Harness”(执行层)负责调用模型、处理工具调用与控制循环,是智能体运行的核心。两者结合,模型才能成为智能体。文章以 Claude Code、Codex 为例,说明同一模型搭配不同 Harness 会产生迥异体验,并提出了 Agent = Model + Harness 的常见理解框架。术语尚未统一,本文旨在提供一个实用的心智模型。
在戛纳电影节期间,导演贾樟柯与火山引擎探讨AI对电影行业的影响。贾樟柯认为,AI降低了电影制作的技术门槛,让普通人也能参与拍摄和创作,电影行业正迎来平民化变革。
百度智能云在Create2026大会上举办具身智能专题论坛,探讨AI进入物理世界后,具身模型如何重构生产力。论坛围绕具身模型的技术路线、应用场景及产业落地展开讨论。
美团开源了用于WBench评估框架的预训练模型权重仓库,将这些权重整合至单一仓库,旨在方便社区快速部署WBench评估环境。该权重仅重新分发用于学术研究和评估用途,所有权利归属原作者。用户可参考WBench GitHub获取安装与评估指南,具体模型许可证详见LICENSE_NOTICE.md文件。
Virgin Atlantic 采用 Codex 工具,在固定的假期旅行截止日期前成功交付了其重新设计的移动应用。通过 Codex 的辅助,开发团队实现了接近完整的单元测试覆盖率,有效降低了风险,并确保了零个 P1 级别缺陷。这一过程显著提升了交付速度,缩短了开发周期,同时提高了应用的稳定性和用户体验,展示了 AI 在加速软件开发中的实际价值。
Anthropic公司金融与战略团队的Alice Fong分享了使用Claude优化财务工作的经验。她需要为CFO和董事会维护一套连贯的财务叙事,但过去常因数据频繁更新和协作修改而耗费大量时间核对一致性。现在,她通过Claude Cowork自动校验文档中的数字与叙述是否统一、是否连贯,并利用Claude for Excel直接在财务模型中进行诊断。这帮助她将每月约10-20小时的重复性核对工作,转化为专注于前瞻分析、场景规划等更高价值的判断性工作,确保了公司快速变化背景下财务叙事的准确性与一致性。
Reiner Pope 讲解了芯片设计如何从最基础的逻辑门开始,逐步构建并解释了GPU、TPU、FPGA以及人脑这几种计算架构在形态与功能上存在差异的根本原因。内容以自下而上的视角,剖析不同硬件的设计逻辑与演化路径。
Salesforce已采用无头架构,允许销售人员通过AI直接更新数据,许多公司正通过MCPs跟进。同时,AI专家们正推动超越纯文本、更丰富的界面(如HTML),支持图表与交互。AI能根据场景动态生成定制化界面。无头系统并非移除前端,而是支持多种可塑化界面(如音频、网页)。未来软件的核心价值在于动态管理这些界面、确保其准确性,并将各类AI产物整合为可演化的上下文数据库与制品库。用户界面并未消失,而是变得“可塑”,能按需变形。
4月,Dharma 发布 DharmaOCR——一对 3B 参数专用小语言模型,用于结构化 OCR,同时开源基准与论文。在巴西葡萄牙语 OCR 基准上,该 3B 专用模型通过全微调实现综合得分 0.911,超过所有测试的商业前沿 API(Claude Opus 4.6 0.833、Gemini 3.1 Pro 0.820、GPT-5.4 0.750)。每百万页成本仅为 Claude Opus 4.6 的约 1/52,质量与成本均占据 Pareto 前沿。结果表明:当训练数据与部署任务充分对齐时,参数规模不再是决定性变量,专业化微调能以极低代价实现更高性能。
国会当前推进的某项政策调整,可能导致美国养老基金遭受数十亿美元的巨额损失。该政策变更被指存在重大漏洞,将直接影响数百万退休人员的资产安全。有专家发出警告,呼吁民众立即联系所在选区的国会议员,要求其重新评估并阻止这一潜在损害养老金储备的决策。
SpaceX在提交S-1文件后,展现为一家AI时代的企业集团。公司由三大业务构成:Starlink(星链)、太空业务与AI业务。2025年总营收达187亿美元。其中,星链是绝对的核心与现金引擎,贡献了61%的营收并实现39%的营业利润率。太空业务收入占比22%,而AI业务(含X平台与xAI)虽仅占17%且处于巨额投入阶段,但代表了未来的战略方向。整体上,星链的强劲盈利为公司的太空探索与AI雄心提供了关键的资金支持。
关联讨论 1 条TechCrunch:AI(RSS)OpenAI与Anthropic近期相继发布重要产品更新。Claude 3.5 Sonnet在多项基准测试中超越GPT-4o,同时宣布API价格下调50%。Anthropic披露其模型训练成本年均增长约3.2倍,而OpenAI被曝已通过企业服务实现单季度超10亿美元营收。两家公司在技术突破与商业化竞赛中,正通过精密的成本核算与性能权衡重塑行业格局。
云端智能体已从本地智能体的简单扩展,发展为具备独立环境、可并行无人值守处理长任务的系统。构建的核心经验在于:完整的开发环境是输出质量的关键,这需重建大量基础设施;可靠性方面,团队从自研架构迁移至Temporal平台,将可靠性提升至99.9%以上,该平台每日处理超5000万次操作,支撑超40%的代码拉取请求;同时,实现了智能体循环、机器状态与对话状态的解耦,以适应复杂的跨环境协作。
文章来自百度智能云,探讨2026年AI技术对普通人能力与职业边界的影响。文中未提及具体模型、版本或benchmark数据,仅从宏观视角讨论AI重构带来的机遇与挑战。
昆仑万维天工方汉指出,算力是拉开AI行业差距的核心因素。他从AI产业变革、职场走向与企业转型三个维度展开深度阐述,强调算力竞争将主导下一阶段发展格局。
智谱(GLM)提出ZCube,这是一种专为下一代大模型设计的推理网络架构,目标在于有效破解大规模模型推理时面临的网络瓶颈问题。
三大AI厂商定价策略出现显著分化:Google的AI价格年增两倍,但其旗舰模型Gemini 3.1 Pro(输入2美元、输出12美元)仍是市场最低价;OpenAI的GPT-5.5(5美元/30美元)经历短期补贴后再次涨价;Anthropic的Claude Opus 4.7(5美元/25美元)价格保持稳定,且对最强模型有所下调。这些变动标志着行业正从不惜成本的市场份额争夺,转向注重利润与现金流管理的商业理性,以应对持续高昂的资本支出压力。
Ramp工程师团队通过集成Codex与GPT-5.5模型,实现了代码审查流程的显著提速。该工具能够在数分钟内为代码变更提供实质性反馈与改进建议,将传统需耗时数小时的审查周期大幅压缩,从而加快了产品迭代与上线的效率。
Anthropic美国中端市场业务负责人Travis Bryant利用Claude Cowork自动化销售管理工作。该工具帮助他高效完成客户倾向性评分、每日客户简报准备及每周销售预测报告生成,每晚自动处理4000个账户数据,替代了以往跨部门团队需数百小时完成的工作。通过自动化日常任务调度,他每天节省约90分钟,并将数据整合为可交互的销售仪表板,使其能更专注于客户沟通与战略决策。
关联讨论 1 条Claude:Blog(网页)当前生成式AI的狂飙突进正引发深度审视,其潜在风险与社会反弹可能将该技术拖入类似“越南战争”的漫长泥潭。公众的担忧与抵制运动,正从数据隐私、内容真实性到伦理冲击等多方面施加压力,迫使行业进行根本性反思。这些反作用力虽可能延缓发展,却也可能成为校准方向的关键力量,推动技术在安全、透明和负责任的基础上重新定义进步。我们正身处一个充满挑战与不确定性的“有趣时代”。
一场涵盖11个大语言模型的30轮大逃杀式评测,花费482美元推理成本,得出了一个应改变读者阅读模型基准方式的关键发现。
Anthropic为构建负责任的先进AI,正与全球多元群体展开对话。首轮讨论汇集了超过15个宗教、哲学及跨文化传统的学者与伦理学者,旨在为Claude等模型的道德形成与价值观对齐提供多元视角。受“外部良知”概念启发,团队开发并测试了伦理承诺提醒工具,初步实验显示其能有效降低模型不对齐行为。公司计划未来将对话拓展至法律、心理学及公民社会等领域,以共同应对AI对社会结构的重塑。
关联讨论 1 条X:Anthropic (@AnthropicAI)Claude Code团队正从Markdown转向HTML作为主要输出格式。Markdown虽简洁,但在信息密度、阅读性、分享和交互方面存在局限。HTML能支持表格、CSS样式、SVG图表和JavaScript交互,提供更清晰的视觉结构和高信息密度。由于HTML文件可通过浏览器直接打开和分享,便于团队协作审阅。Claude Code利用其广泛的上下文获取能力生成实用的HTML制品,适用于项目规划、文档编写和验证等多种场景,显著提升了AI生成内容的可读性与实用性。
AI Mode 上线一周年,美国用户搜索行为呈现关键转变。数据显示,用户正从传统的关键词输入模式逐渐转向自然语言查询,这一变化反映了AI搜索技术的普及和用户交互方式的优化。自然语言查询的使用率显著提升,体现了AI搜索在日常信息获取中的影响力增强,预示着未来搜索体验的革新方向。
作者分享了16年来运用AI辅助写作的经验。他尝试组建由Gemini、Claude和OpenAI Codex构成的“AI编辑委员会”,让多模型协作修改文章,结果却如手指画般混乱。每个AI模型都有其独特的“声音”与编辑理念,难以达成统一的文风与基调。作者最终指出,AI虽能高效生成内容,但正是写作中那些类似黑胶唱片噼啪声或胶片光晕般的不完美细节,才构成了真实而优秀的写作,这是AI目前难以模仿的核心所在。
本文探讨了分布式训练中的正确性难题及DTensor方案的权衡。DTensor通过为张量附加放置元数据(如Shard、Replicate)来自动管理通信,确保计算正确性。文章通过一个并行化案例,展示了不使用DTensor时手动处理梯度计算可能引发的静默错误(如梯度为零或倍增),从而凸显了正确性的复杂性。然而,DTensor的抽象层在简化开发的同时,也可能在大规模场景下引入隐性的性能开销。因此,在设计分布式系统时,需要在抽象的开发便利与底层的计算效率之间做出审慎权衡。
世纪性的AI审判最终以微弱的方式落幕,未能公开关键技术细节和决策过程。审判结果未提供具体数据或指标,仅以概括性结论结束,留下多个未解之谜,包括影响范围和责任划分等。这导致一些核心信息永远无法知晓,引发了公众对AI透明度和伦理问题的持续关注。
NVIDIA Cosmos Predict 2.5 是一个 2B 参数的世界模型,可根据文本、图像或视频片段生成物理合理的视频。通过 LoRA 或 DoRA 在 DiT 的注意力层(to_q, to_k, to_v, to_out.0)和前馈层注入可训练适配器,冻结全部基座权重,在单个 80GB GPU 上即可完成参数高效微调,避免了全量微调的高成本与灾难性遗忘。该流程使用 diffusers 和 accelerate 库,利用 92 个机器人操作视频训练集与 50 个 (prompt, image) 测试对进行微调,并展示如何用微调模型生成合成机器人轨迹以支持下游机器人学习任务。支持单 GPU 与多 GPU 训练,切换不同领域适配器无需重训。
近期,团队将Mythos及其他聚焦安全的大语言模型应用于关键基础设施的实时代码测试。测试揭示了模型在识别漏洞和代码审计方面的优势,例如在复杂逻辑中发现潜在风险的能力,同时也暴露了其存在的局限性,包括产生误报以及对上下文理解的不稳定。文章指出,在将这些安全LLM的能力扩展到更大规模之前,必须围绕其建立一套可靠的工作流程,包括持续验证和人工复核机制。
近期访谈指出,当前大语言模型存在“幻觉”问题,答案常不可靠。业界对“超大规模”的巨额投入可能陷入非理性狂热。作为替代路径,“世界模型”旨在让AI理解物理规律,“神经符号AI”则尝试结合深度学习与符号推理,以提升可靠性、可解释性与逻辑能力,为下一代AI奠定基础。
RLVR(强化学习与验证)在科学理论验证中可能表现出不成比例的缺陷。科学理论的验证循环周期长达数十年甚至数个世纪,且当前被视为更优的理论实际上常会做出更差的预测。这一矛盾揭示了基于短期反馈的强化学习范式与科学探索长期性、复杂性之间的根本冲突,凸显了现有AI方法在应对科学发现这类超长反馈周期任务时存在的结构性局限。
近期访谈揭示了大规模语言模型预训练中的并行化策略与失败案例。关键变化包括从数据并行转向更复杂的模型并行、流水线并行及混合策略,以应对万亿参数模型的内存与计算挑战。具体指标显示,某些失败训练运行因硬件故障或超参数设置不当,导致数百GPU小时损失。成功案例则通过优化通信开销与负载均衡,将训练效率提升约15-30%。这些经验为GPT、Claude、LLaMA等模型的稳定训练提供了重要技术参考。
文章指出将“智能”与“权力”混为一谈是一个根本性错误。如果仅将“智能”定义为“在广泛领域中实现目标的能力”,那么斯大林将成为有史以来最“智能”的人。这一观点揭示了当前对人工智能(如GPT、Claude、LLaMA等)能力的讨论中,可能存在的概念混淆和评估偏差。真正的智能应包含更丰富的维度,而非单纯以目标达成的效力或权力大小来衡量。
本月开源AI模型领域迎来密集发布,包括Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5和GLM-5.1等一系列重要新版本。这些模型均在CAISI的V4评估框架下进行了性能评测。多个团队几乎同期推出旗舰级更新,反映出开源社区当前高速迭代的竞争态势。
Calico Life Sciences 通过 Co-Scientist 平台,将零散的衰老研究发现进行连接与整合,从而生成新的研究线索与方向。该工具旨在加速衰老领域的科学探索,为后续研究提供创新思路。
波士顿儿童医院与麻省理工学院的实验室达成合作,共同利用生物学工具包,探索基于RNA的肌萎缩侧索硬化症新疗法。这项跨机构合作旨在为这种神经退行性疾病开发创新治疗路径。