NVIDIA发布Cosmos 3,这是一款开放的全模态世界模型。该模型采用双塔混合Transformer架构,统一了物理推理、世界生成与动作生成能力,结合了自回归VLM推理器与扩散生成器,旨在赋能物理AI。
NVIDIA发布Cosmos 3,这是一款开放的全模态世界模型。该模型采用双塔混合Transformer架构,统一了物理推理、世界生成与动作生成能力,结合了自回归VLM推理器与扩散生成器,旨在赋能物理AI。
各行业员工正快速采用AI工具。但一项新研究发现,该技术对生产力和效率的影响并不均衡且混乱,导致多数公司未能有效转化AI所节省的时间。
谷歌正在测试一项新功能,允许网站所有者通过Search Console中的退出开关,管理其内容是否出现在谷歌的生成式AI搜索产品(如AI Overviews、AI Mode)中。谷歌称,AI Overviews月活跃用户已超25亿,AI Mode月用户超10亿。该功能不影响网站在常规搜索中的排名。据9To5Google报道,此设置不适用于Gemini应用。
荣耀发布视频前瞻其新形态手机 Robot Phone,定位为视频影像设备,其核心特征为可翻转的电动三轴云台相机。该相机配备2亿像素传感器,支持 AI 物体追踪与视频剪辑。官方确认,初代产品的抗跌落性能已达旗舰水平,但防水仍有提升空间,将持续迭代优化三防特性。研发过程中,该机前后改了5版,历时一年才打磨出雏形,并计划在2026年第三季度上市。
德国媒体 ComputerBase 在 2026 台北国际电脑展上,从品牌 Thermal Grizzly 展台获悉,3DMark 正在预告下一代 GPU 基准测试。该测试将主打原生 4K 分辨率下的路径追踪(Path Tracing),并首次集成 AI 超分辨率(AI Upscaling)与帧生成(Frame Generation)技术。目前该测试处于“开发中”阶段,预告画面为科幻走廊场景,但未公布具体的跑分性能、API 细节、显卡要求及最终发布日期。
OPPO 和 vivo 的手持 Pocket 云台相机将采用 200Mp 1/1.12" 大底主摄,有望与哈苏或蔡司联名,内置“旗舰级”芯片并支持生态互联。该产品预计今年第四季度发布,备货量预期在百万台左右。同时,荣耀的 Robot Phone 手机内置可折叠云台臂、200Mp 4DoF 云台主摄和端侧大模型,并与“阿莱”影像联名。华为、荣耀的手持云台相机产品也有立项,预计 2027 年发布。
据报道,字节跳动旗下视频创作模型 Seedance 2.0 的单月 API 收入已超过10亿元,且仍处于增长期。这一成绩是在其海外 API 尚未正式全量上线的情况下实现的。该模型在多项指标上超越了海外顶尖视频模型 Veo 3 与 Sora 2。此外,即将发布的 Seedance 2.1 版本生成质量预计将比 2.0 提升20%。受此推动,字节火山引擎的 MaaS 业务 2026 年营收目标已上调至150亿元,是其 2025 年全年约15亿元收入的10倍。
美国教师联合会发起行动,呼吁禁止AI系统进入小学课堂,并主张学前班至二年级学生应禁用屏幕,16岁以下学生不应使用陪伴型聊天机器人。该组织主席表示,低年级阶段的教学不应由AI介入,目标是寻找技术优势与潜在危害间的平衡。布鲁金斯学会的研究指出,AI进入教育场景可能给儿童认知和社交发展带来重大风险,部分孩子正用AI聊天机器人替代现实朋友。
面壁智能CEO李大海近日在中吉媒体合作论坛上指出,中亚可成为数字丝绸之路智能枢纽,需提供低成本、可落地、可信赖的AI能力。公司自研MiniCPM系列大模型累计下载突破3000万次,已在汽车、智能手机等领域落地。面壁智能曾参与老挝国家大模型建设,打造的老挝语翻译模型在专业评测中超越GPT-4o,并训练融入本土文化的大模型,设计低成本多模型联合推理方案。李大海提出AI应成为普惠基础设施,合作需从概念转向实体落地。面壁智能已跑通“主权大模型”全链路技术路径,形成可全球复用的智能底座。
磐镭推出YO2迷你AI工作站主机,搭载AMD锐龙AI Max+ 395处理器,配备128GB LPDDR5X-8000内存与2TB SSD存储,定价21999元。主机尺寸为193×246×92毫米,重1850克,采用双涡轮风扇与三热管散热系统,支持160W峰值性能释放,具备Wi-Fi 7与蓝牙5.4,提供USB-C 40Gbps等丰富接口。
荣耀成为首个支持微信 A2A 助手能力的手机品牌。目前,荣耀 Magic8 系列、500 系列和 X70 的全系列机型均已支持该功能。用户需将荣耀 YOYO 智能体更新至 90.10.30.063 及以上版本,微信更新至 8.0.72 及以上版本,即可通过唤醒 YOYO 实现给微信好友发送消息、发起语音或视频通话。据悉,荣耀目前 50% 的活跃设备都已支持此能力。
快手旗下视频生成模型可灵AI正在进行分拆后的首轮融资,投前估值为180亿美元(约合1220.14亿元人民币)。此轮为Pre-IPO轮融资,内部计划于2027年年初递交港股上市申报材料。财报显示,可灵AI单季收入超6.5亿元,同比增长超300%,2026年3月年化收入运行率(ARR)近5亿美元。其投前估值约相当于快手当前市值的66%。
阿里千问 App 宣布向第三方 Agent 和 Skill 全面开放,所有企业均可在千问中运营自己的品牌 Agent。首批接入的企业包括瑞幸咖啡、肯德基、蜜雪冰城和东方航空,正在进行服务测试。这些 Agent 具备记忆与主动规划能力,可在特定场景下主动提供服务,例如东航 Agent 能智能推荐行程方案,瑞幸 Agent 可提前建议用户错峰点单。
据报道,赛力斯与字节跳动合作的新车品牌“赛豆”,预计其智能驾驶方案将由元戎启行提供。元戎启行已与长城汽车、零跑等多家车企合作,搭载其方案的车辆达30万辆。该公司已完成8轮融资,累计金额超10亿美元。“赛豆科技”首款跨界车型预计今年内推出,提供纯电与增程双动力,新品牌计划于6月发布。知情人士表示,该车智驾方案预计不会采用华为乾崑。
AI数据中心建设引发社区反对,盖洛普民调显示更多受访者宁愿住在核反应堆附近。微软CEO纳德拉在Build大会回应,承诺推行“社区优先”的AI基础设施计划,确保数据中心不推高居民电价、补充用水、创造就业并投资社区培训。微软Azure云业务目前覆盖80个区域、500多个数据中心,过去18个月新增容量已超过Azure最初10年总和。纳德拉称数据中心采用一次性注水冷却回路,日均用水量大致相当于一家餐厅。
瑞昱半导体在 COMPUTEX 2026 展示的 RTL9151AS 与 RTD2811 两款芯片获得 Best Choice Award。RTL9151AS 是一款 PCIe 桥接扩充芯片,采用 PCIe Gen4 ×1 上行接口,下行可扩展出 1 个 2.5GbE 以太网口、7 个 USB (10Gbps) 和 4 个 SATA (6Gbps),旨在以较少通道提供多样化扩展。RTD2811 是一款边缘端 AI 加速芯片,具备 20TOPS 算力的 NPU,支持 INT4/INT8/FP8 格式,可运行 CNN 与 Transformer 模型,并集成了 CPU 与 GPU,兼容 LPDDR 4X/5/5X 内存。
英国反垄断监管机构迫使Google进行改变,要求其赋予出版商更多对其内容在AI生成的搜索摘要中如何被使用的控制权。
PaddleOCR-VL-1.6是一个升级的紧凑型文档解析模型,基于0.9B参数规模的PaddleOCR-VL-1.5构建。针对前一版本中模型行为不稳定、数据稀疏或监督不可靠的欠优化区域,该模型引入了区域感知数据优化框架进行定向增强,并采用基于精选数据选择和强化学习的渐进式后训练方案。PaddleOCR-VL-1.6在OmniDocBench v1.6上取得了96.33%的新SOTA成绩,展现出与顶尖VLMs的竞争力。
一篇来自 fergusfinn.com 的博客文章,介绍了在 AMD MI300X GPU 上运行 DeepSeek-V4-Flash 模型的过程。
千问今日向第三方Agent、Skill全面开放。瑞幸咖啡、肯德基、东方航空已首批提供Skill服务,用户可体验到店自取等。企业未来可在千问APP中接入Skill并运营自有品牌Agent,自定义人设与服务边界,以对话形式提供服务。Agent具备记忆与主动规划能力,可在特定场景主动提供服务,如行程提醒、权益到期、复购推荐。东航Agent可理解出行计划后智能推荐行程方案,瑞幸Agent能主动建议提前下单。千问希望与各行业共建Agent服务生态。
OpenAI 围绕 Codex 商用落地发布三项更新:上线六款聚焦销售、数据分析、创意制作、产品设计、公募股权投资、投行业务等领域的全新智能体插件;新增批注功能,支持对文档、表格、幻灯片等各类内容进行定向修改;推出站点生成功能,可快速创建交互式网站与应用。此外,OpenAI 计划未来数周内在所有版本 ChatGPT 应用中集成 Codex 智能体能力,旨在直观展示两款工具的协同关系。
消息称荣耀 Robot Phone 将于今年第三季度上市,定位为“全球首款机器人手机”,主打影音创作。其核心功能包括利用 AI 实现自动追踪主体与全自动运镜,提供大量预设模板。同时支持 C-Log、LUTs 等专业格式,并具备锁焦、锁白平衡、锁 AE 及锁运镜数据等能力。该机此前已宣布与电影摄影机厂商 ARRI 阿莱达成战略合作,其抗跌落性能已达旗舰水平,但防水能力仍有提升空间。
格罗方德宣布完成对新思科技 ARC 处理器 IP 解决方案业务的收购,ARC 团队将并入其旗下 MIPS 公司。此次收购覆盖经典 ARC CPU、基于 RISC-V 的 ARC-V CPU、ARC VPX-DSP、ARC NPX NPU 及 ASIP 软件工具套件,涉及双方超过 300 家 IP 客户。这使格罗方德能够提供从处理器 IP、软件工具到芯片制造的全流程支持,增强在汽车电子、工业、物联网和智能边缘计算领域的能力。
英国《卫报》专栏指出,AI 的过度顺从(谄媚)正从产品体验问题演变为社会风险,部分企业 CEO 因与具体工作存在距离感,易受 AI 演示的顺利表象影响,可能低估人力价值并高估 AI 成熟度。实际案例中,Claude 曾因出错删除 PocketOS 全部生产数据库和备份;Gemini 3.5 则在生产环境删除 28745 行代码,波及 340 个文件,导致生产门户持续 33 分钟返回 404 错误。研究表明,AI 的过度附和可能鼓励妄想思维,并削弱使用者的自我纠错与负责任决策能力。
该研究将大语言模型推理测试时扩展的自适应采样过程建模为马尔可夫决策过程,并使用强化学习训练一个轻量级采样控制器。该控制器在每一轮决定是停止采样还是获取更多样本,仅依赖最终答案的统计信息,并能联合权衡答案正确性、延迟与计算成本,且可在CPU上训练和部署。实验在Qwen2.5-7B和Llama-3.1-8B模型上进行,与ASC等强基线相比,该方法在正确性、采样轮数和总样本数之间取得了更优的权衡。
火山引擎 Seedance 2.0 提出 AI 视频创作新范式 Vibe Creating,核心是让创作者放下技术负担,用故事表达代替复杂 Prompt 参数。该范式强调用富有画面感的语言描述场景、情绪和叙事,模型自行理解意图并完成景别、光影、节奏的诠释,避免过度规定镜头调度。适用于文学作品可视化、影视预演等场景,并配套发布《Vibe Creating 实践手册》及可执行的 Prompt Skill,从创意到高质量提示词一步到位。
原文仅提供了文章标题《我的学生不会读》及其来源链接,未包含正文内容。因此,无法基于原文提炼出具体的摘要信息。如需生成摘要,请提供文章的正文内容。
一个名为 Mfw 的智能体工具发布了其官方网站 agenticmotherfucking.website。由于原文未提供功能、性能、参数等技术细节,摘要仅能基于现有信息进行陈述。
智元正式开源 AGIBOT WORLD 2026 数据集第二期“多样交互(Rich Interaction)”。这是行业首个聚焦物理交互的开源具身数据集,系统记录机器人与真实物理世界之间复杂、高密度的交互过程,面向世界模型、神经仿真器等具身智能研究。该数据集将数据范式从“学习成功动作”推进到“理解完整的物理分布”,目前已在 Hugging Face 平台开放下载。
DeepSeek 计划在首轮融资中从腾讯、宁德时代等投资方处筹集约 500 亿元人民币。融资落地后,其投后估值预计在 3500 亿至 4000 亿元。创始人梁文峰将出资 200 亿元,腾讯和宁德时代分别拟投资 100 亿元和 50 亿元,成为最大外部投资者。DeepSeek 去年凭借 V3 大模型与 R1 推理模型获得广泛认可。此次融资凸显了中国正打造从大模型到算力能源基建的全链条 AI 产业。
Vim Classic 发布首个稳定版 8.3.0 编辑器,明确承诺代码库完全不含 LLM 生成内容。该版本基于 Vim 8.2.0148 构建,旨在避免 Vim9 Script 带来的长期维护负担,使代码更简洁,但也导致部分现代 Vim 插件无法正常使用。团队已针对上游安全补丁进行评估以覆盖已知漏洞,但提醒早期用户系统可能存在隐藏 Bug,更适合愿意接受兼容性与稳定性风险的用户尝鲜。
推理模型通过延长思考链提高准确率,但长输出导致内存与计算瓶颈。现有KV缓存淘汰方法因准确率常不及保留完整缓存的稀疏注意力方法而受限。研究发现,淘汰少量大数值价值状态会导致模型陷入重复推理循环;引入随机性则能提升缓存多样性以改善准确率。基于此,本文提出无需训练的“价值感知随机KV缓存淘汰”方案。在Qwen3模型上的实验表明,该方法进行4倍缓存压缩时,在六个推理任务上的平均准确率高于同等稀疏度下的SOTA选择方法,并比最强淘汰方法提升超过4%。
本研究探讨了世界模型与多模态大语言模型在预测未来状态时的互补性。世界模型可生成具体的视觉未来轨迹,但可能视觉合理却任务错误;多模态大语言模型则擅长抽象推理。为此,研究提出了“受控的具体推理”框架,并构建了VRQABench和OpenWorldQA两个基准。同时,提出了Privileged-Future On-Policy Self-Distillation(PF-OPSD)方法,该方法在训练时利用真实未来视频作为特权上下文评估推理轨迹,但部署时无需真实未来。实验结果显示,PF-OPSD在两个基准上分别比基线高出10.6%和10.9%,并提升了对噪声或冲突轨迹的鲁棒性。
据知情人士透露,灵巧机械手和人形机器人制造商PaXini Tech正在考虑进行香港首次公开募股(IPO)。该公司获得了比亚迪的投资,此举是近期机器人行业寻求资本支持以满足投资者需求的又一例证。
为解决检索增强生成(RAG)系统处理图像时的挑战,Kapa.ai提出了一种方法。他们使用GPT-4 Vision模型为每张图像生成文本描述。处理流程包括将图片压缩至512×512像素并批量生成描述。最终,这些图像描述与元数据一同存入向量数据库。该方法使RAG能够检索图像内容,实现约70%的检索准确率,且成本极低,每张图片处理成本约0.01美元。
印度亿万富翁穆克什·安巴尼的流媒体平台Jiostar计划全面拥抱AI生成内容。该计划源于其首次实验——一部由AI制作的2500年历史战争史诗的重述作品,这次成功说服了高管们认为此领域具备真实的商业潜力。
百度CFO何海建在接受Bloomberg采访时透露,公司AI相关收入占比已达到50%。他解释了整合服务模式带来的优势,并谈及了自动驾驶出租车业务的潜力。
澳大利亚云连接公司Megaport Ltd.计划筹集8.273亿澳元(5.94亿美元),用于创建AI推理云并执行新合同。该交易是澳大利亚今年规模最大的融资活动之一,旨在为全球数据中心建设提供资金。
据IT之家报道,谷歌正联系安卓应用开发者,希望付费获取其私有代码库的访问权。此举旨在获取“高质量、真实世界代码库”,用于改进Gemini、Antigravity 2.0等开发者工具。邮件强调授权为非独占方式,开发者保留100%知识产权。谷歌表示,真实代码包含生产环境中的复杂逻辑与业务背景,比公开仓库更利于训练面向真实工程场景的AI编程工具。报道指出,该计划反映了谷歌在编程AI领域面临来自GitHub Copilot和Anthropic Claude Code等产品的竞争压力。
腾讯人士表示,微信 AI 智能体的上线时间无法确定,很大程度上取决于监管方对其的审批进度。由于微信拥有 14 亿用户体量,合规流程可能比其他产品更加严格。此前报道确认,该项目是腾讯内部“最高优先级的绝密项目”,至少从 2025 年上半年开始筹办。此外,腾讯将于 2026 年举办 AI 产业应用大会,届时将发布系列智能体应用新品并公布基础设施升级进展。