MiniMax M3 is live on Fireworks. Day-0, fastest endpoint for the MiniMax series. → Top open-weight model on the Artifici...
MiniMax M3 is live on Fireworks. Day-0, fastest endpoint for the MiniMax series. → Top open-weight model on the Artifici...
Jeff Bezos 创立的新公司 Prometheus 瞄准物理 AI 领域。尽管并非唯一涉足该赛道的初创企业,Prometheus 是资金最充足的公司之一。
交互式LLM智能体的用户偏好修正常被遗忘,Mem0记忆仍有57.5%相关偏好检查被违反。研究提出TRACE,一种即插即用的技能层管道,从用户聊天修正中挖掘原子规则并编译为运行时检查。在ClawArena上,分布内违规从100.0%降至37.6%,分布外从100.0%降至2.0%;在MemoryArena上,分布内从100.0%降至60.5%,任务通过率匹配或超越最强记忆基线。实验代码已开源。
多智能体系统通常依赖文本通信,解码-重编码代价高且信息有损。KV-cache通信是低开销替代方案,但现有方法多限于同构模型。本文提出稠密对齐方法,通过轻量级跨模型缓存变换和两阶段训练(重构→生成)实现异构智能体间KV-cache直接传输。在Qwen3-4B、8B、14B三个模型组成的六个方向和六个基准上,上下文感知设置中性能匹配或超越文本通信,计算量降低2–3倍;上下文无关传输中仍有效,而先前方法完全失效。
SpaceX 决定将位于孟菲斯的 Colossus 1 数据中心全部容量租给 Anthropic。此举源于 SpaceX 团队在利用该设施开发并运行其 Grok AI 模型时遇到技术困难。据知情人士透露,SpaceX 是在自家团队用起来有麻烦之后才做出这一决定的。
Anthropic对近5.2万美国人进行的调查显示,64%的受访者担心AI会导致失业,56%担心会丧失独立思考能力。日常AI用户的担忧程度远低于非用户。尽管如此,大多数人仍拒绝在工作中使用AI,即使他们认为AI能够处理相关任务。
本文介绍如何减少AI生成前端界面的粗糙度,发表于envs.net。文章针对AI产出的前端代码常出现的草率、不细致问题,提出改进方法,旨在提升生成结果的质量和可用性。
MiniMax M3 can now be run locally!🔥 MiniMax-M3 is a new 428B (23B active) open model with 1M context that performs on p...
AGENTCL 提出评估 AI 智能体是否真正从经验学习,而非单纯累积信息。通过构建组合任务流(前序任务包含可被后续任务复用的代码片段、研究证据或工作流),与无固定复用线索的随意任务流对比。关键发现:当前记忆方法在任务连接明显时可复用过去经验,但当任务差异较大时仍难以避免混淆。论文旨在为智能体持续学习提供更清晰的测评标准。
Jenny 经营一座火葬场,John 的丙烷公司以 200 亿美元投资换取其 5% 股份。Jenny 将 100 亿美元投入焚化炉,再付给 John 100 亿美元购买丙烷烧掉这些钱。John 向外界报告其 AI 投资本季度产生 100 亿美元收入,并持有价值 1000 亿美元企业的 5% 股权。福布斯记者在撰写人物报道时与二人陷入混乱的三人恋情,最终结成多角婚姻,其报道赞誉有加但缺乏财务细节。
Google 起诉一个名为“Outsider Enterprise”的组织,指控其利用人工智能在两周内发送了 250 万条诈骗短信,导致数十万受害者上当。该组织被描述为中国网络犯罪团伙。
Anthropic宣布与塔塔咨询服务(TCS)合作。TCS将向56个国家的5万名员工提供Claude,并为金融、医疗等受监管行业客户构建基于Claude的产品,同时加入Claude Partner Network。作为“客户零号”,TCS将在自身工程、财务、法律、营销和销售团队中率先使用Claude,并组建专门团队为客户设计和运维Claude系统。具体用例包括:Diligenta用Claude改善2200万保单持有人的体验;银行产品团队用Claude Code提升软件工程效率;工程团队贡献可复用技能和插件;TCS iON提供Claude培训与认证。
DAIR.AI创始人Elvis Saravia分享如何有效运行长期自主编码智能体。他指出当前多数模型难以协调工作,会过早暂停、犯错或走捷径(reward hacking)。关键在于明确目标、消除假设,避免模型自行推断。他的实践公式:用Opus 4.8进行细致规划,GPT-5.5执行所有步骤,评估器(通过/goal)则使用Deepseek及Qwen、Kimi、MiniMax等最新模型。另一关键洞察是提供多模态视觉线索作为目标,比纯文本目标更强,能更好地约束智能体。完整讨论已录制并免费开放。
完全自主的无人机仍属罕见,但乌克兰正为无人机和机器人加装AI模块,提升自主作战能力。此前一次测试中,乌军首次使用完全自主无人机击杀俄军士兵。
An ancient estate. Teenagers forced to devour the nightmares of the powerful. One defective recruit who drags the darkne...
OpenAI 现在允许 Codex 用户存储速率限制重置次数并手动触发,而非按固定时间到期。用户在使用中达到上限时可立即使用已保存的重置而无需等待。Go、Plus、Pro 和 Business 订阅计划用户各获得一次免费重置。Plus 和 Pro 用户还可通过邀请好友解锁额外重置。
苹果发布了新版Siri AI,The Verge编辑David和Nilay在The Vergecast中分享了初期体验。过去十几年Siri在"部分功能勉强可用"和"彻底翻车"之间摇摆,而新版Siri AI在多数任务上表现足够出色,尽管没有带来突破性创新,但相比过往已发生质变。
Mistral 正进行新一轮融资,传闻金额为 30 亿欧元,投后估值约 200 亿欧元(约 231.5 亿美元),较其 C 轮估值 117 亿欧元接近翻倍。
Google DeepMind发表60页论文,由Hutter、Legg、Genewein撰写,定义AGI(多数认知任务达平均人类水平)、ASI(超越大量专家协作)和不可计算的AIXI三个层级。实现路径包括规模扩展、算法突破、递归自我改进和多智能体协调,瓶颈在于能源与硬件。六种阻碍:高质量数据可能本十年内耗尽、资源需求过快、神经范式天花板、研究难度激增(维持摩尔定律需18倍于1970年代的研究者)、模型无法创造全新概念、人为放缓。作者认为这是对AGI后果的严肃反思呼吁。
6月12日,名为 Maxproof 的论文在 arXiv 上发布,并在 Hacker News 上获得 100 点热度。
Google Research 在《JAMA Dermatology》发表两项研究,探索 AI 帮助普通人理解自身皮肤问题。一项涉及 2345 名参与者的定量研究显示,AI 辅助显著提升了用户识别皮肤疾病名称的能力,并影响了其就医或自我护理的下一步决策。另一项混合方法研究对比了用户通过 AI 工具与医生对话获取的认知。这些工作基于此前开发的 AI 鉴别诊断模型和 SCIN 数据集,旨在通过高质量信息支持皮肤健康决策。
derivation of Policy Gradient.
截至今年,抗议活动已成功阻止价值约1300亿美元的AI数据中心项目。反对者通过组织行动阻碍了多地的开发计划,称这一胜利让参与者“尝到了政治权力的滋味”。抗议主要针对数据中心带来的能源消耗、水资源占用和环境影响,部分项目已被政府暂停或重新审查。
There are IPOs that list companies, and then there are moments that list the future. @SpaceX goes public carrying a civi...
Claude Fable 5 在 Artificial Analysis Intelligence Index 中取得 64.9 分,在十项基准测试中有五项创下纪录。相比 Opus 4.8,性能提升仅 5.7%,但 token 价格翻倍。安全过滤与回退路由功能进一步推高了成本。
The Vergecast 播客首次体验了 Siri AI,并讨论了社交网络的下一阶段,同时指出特朗普手机(Trump Phone)是个骗局。
Get a closer look at Gemini's new Neural Expressive design language at our next Discord community event. Product Marketi...
Google AI 本周推出多项更新:Gemini 3.5 Live Translate 是用于实时语音到语音翻译的最新音频模型;NotebookLM 获重大升级,加入智能体对话能力、更高级推理及新输出格式;来自 GoogleLabs 的 Project Genie 向 Google AI Ultra 5x 订阅者全球开放;GeminiApp 中的 Notebooks 在 EEA、英国、瑞士上线;同时发布实验性开源模型 DiffusionGemma,探索文本扩散技术,实现极快文本生成。
Minimax M3 is live on Parasail, day zero. It's the first open-weight model with frontier coding & agent capabilities, 1M...
谷歌对一中国网络犯罪网络提起诉讼。该团伙涉嫌利用 Gemini 创建并运营诈骗网站,目标达数十万人。
Anthropic正从租用云算力转向自建数据中心,计划在美国部署超1GW容量,Google可能为其租赁付款提供财务担保。此前Anthropic已承诺超10GW云服务器租赁,包括与Google的2000亿美元协议,以及Akamai、AWS、CoreWeave、Fluidstack的大型合作(含500亿美元Fluidstack合作、AWS Trainium硬件)。此外,Anthropic以每月12.5亿美元租下xAI/Colossus I数据中心全部空间,并租用Colossus II。此举旨在通过自控服务器降低长期计算成本。
Anthropic is moving forward with a plan to control its own servers for developing AI, giving it the ability to cut its c...
OpenAI 发布三门 Academy 课程,帮助用户掌握实用 AI 技能、创建可重复工作流,并在日常工作中应用 AI 智能体。
OpenAI is preparing a new AI model, per The Information