As promised, we don't charge markups on models. @MiniMax_AI M3 is now 50% off through Respan Gateway. Link in comments.
As promised, we don't charge markups on models. @MiniMax_AI M3 is now 50% off through Respan Gateway. Link in comments.
Deep Research in Computer is built on our Search as Code architecture. The model writes code that assembles search itsel...
现代LLM训练管线日益依赖其他模型生成数据、过滤语料、评判输出,形成递归依赖,但完整依赖结构分散在不同公共工件中,复杂度和递归深度远超人工追踪能力。本文提出ModSleuth,一个能从公共工件递归重建LLM依赖图并附源证据的智能体系统。对4个LLM发布的分析,恢复1060个源验证依赖,构建了大规模依赖图,揭示了多跳许可证义务、训练-评估耦合、发布版本与训练版本不一致及文档不一致等问题。ModSleuth及依赖图已开源。
据知情人士透露,OpenAI 正考虑对其服务进行大幅降价,以应对竞争对手 Anthropic 同样可能采取的成本削减举措。此举暗示双方在各自筹备上市前可能掀起一场价格战。
关联讨论 3 条Gary Marcus:The Road to AI We Can Trust(RSS)X:Rohan Paul (@rohanpaul_ai)Hacker News 热门(buzzing.cc 中文翻译)The Grok Build Plugin Marketplace is now in beta. Build with MongoDB, Vercel, Sentry, Cloudflare, and Chrome DevTools pl...
关联讨论 2 条xAI:News(网页)X:xAI (@xai)Ideogram 4.0 是 Ideogram 首个开源权重模型,生成 2K×2K 输出,支持多语言文本渲染、边界框布局控制和透明背景。采用结构化 JSON 提示,提示增强器仅限 Ideogram 专有 API。在 Artificial Analysis 开放权重排行榜排名第8,整体第31,领先 Seedream 3.0 等闭源模型。API 三档:Turbo $30/千张、Default $60/千张、Quality $100/千张。开源权重免费用于评估和非商业用途,商业自部署需单独许可。
Seven Seven Six 创始人兼 Reddit 联合创始人 Alexis Ohanian 在柏林 SuperReturn 年会上表示,SpaceX 的 IPO 将成为里程碑事件,为太空经济注入新资本。他还谈到即将到来的 AI 公司 IPO(包括 OpenAI 和 Anthropic),认为这些上市将改变风险投资格局。
即时配送公司 Gopuff 基于 xAI 的模型构建了新的 AI 购物助手。联合 CEO Rafael Ilishayev 表示,选择 xAI 主要是因为其成本和性能优势。xAI 正筹备 IPO,认为企业 AI 市场空间达 26 万亿美元,但目前 Gopuff 是少数将 Grok 投入实际业务的企业客户之一。
Roborock Q10 S5 Plus 扫拖一体机器人价格腰斩,降至历史最低。该机型配备 AI 智能避障和强力振动拖地功能。
asyncinject 0.7 发布,这是一个作者数年前为支持 asyncio 依赖注入模式而构建的 Python 工具库,曾与 Datasette 搭配使用。Claude Fable 5 发现了库中的若干 bug 并自动修复——Claude Fable 5 是一个非常主动的模型。
Datasette 1.0a33 发布,这是迈向稳定版 1.0 的重要步骤。该版本将在 1.0a3 中引入的 `?_extra=` 模式从表格扩展至查询和行数据,该模式现已加入文档。为演示新特性,作者使用 Claude Code 中的 Claude Fable 5 制定计划,再由 Codex Desktop 中的 GPT-5.5 xhigh 实现,构建了自定义 extras API 探索工具。
Anthropic与IT服务公司DXC Technology达成多年全球联盟。DXC将培训数万名获得Claude认证的前沿部署工程师(FDE),将Claude引入其为全球大型银行、航空公司、保险公司及政府机构运营的关键系统。内部部署中,Claude已成为DXC OASIS平台的默认基础模型,该平台超95%代码由Claude编写,开发速度提升10倍,已服务50多家客户。DXC加入Claude Partner Network,将在保险、现代化服务、网络安全及应用服务四个领域率先推出基于Claude的解决方案。
随着用户和企业赋予 AI 模型与智能体更高自主权,其输入输出护栏的重要性持续上升。Artificial Analysis 与 NVIDIA 合作,在三个开放数据集上独立基准测试了护栏与审核模型,评估检测质量、延迟以及在捕获不安全内容与过度拒绝安全内容之间的权衡。结果显示无模型全面领先,且业内仍缺乏统一评判标准。该研究被视为这一日益重要的评估问题的早期探索。
#4: fart fishing Buried in Dolci is a cluster of very specific fan fiction, where characters fart in ponds, causing fish...
PorlockBench still unsaturated, but the models are getting better: "complete the poem as you imagine it might end if The...
APEX 是一个网络原生、仅解码器的 Transformer 模型,专用于企业无线接入点(AP)遥测的预测与异常检测。它在约 4,500 个生产无线网络的 10 通道多元遥测数据上预训练,涵盖约 10 万条 AP 时间序列、每 AP 34 个指标。提供两个版本:APEX-Large(269M 参数,云部署)和 APEX-Edge(10.5M 参数,边缘部署)。在 192 步(4 天)的 DHCP 退化基准上,APEX-Large 比最强基础模型基线 Toto 降低 MAE 18%,比 SARIMA 降低 38%,异常检测 F1 达 0.93;APEX-Edge 可在 AP 级边缘硬件上实现亚秒级、保护隐私的推理。结果表明网络原生预训练是主动无线运维的实用基础。
食品配送公司 Gopuff 联合 CEO Rafael Ilishayev 表示,SpaceX 派工程师帮助该公司开发了一款 AI 智能体,其价格低于竞争对手。
埃隆·马斯克旗下 xAI 公司的一名前人工智能工程师提起诉讼,指控公司因他对 Grok 聊天机器人的安全性提出担忧而将其错误解雇。
Everyone says the latest AI agents will be "job-ready" soon, especially after the release of Fable 5 this week. But is t...
用户分享 Claude Fable 5 使用体验:以前无脑选 Max 推理强度,现在则不敢随便选,因为模型足够聪明无需过强推理,且时间长、token 消耗大。Fable 5 还喜欢反复验证,结果虽好但耗时长不一定合算。引用推文指出,Fable 5 的强项之一是思考推理时间很长,曾有一次思考 15 分钟才开始行动。
发现Claude Fable 5强的地方之一,可能是模型思考推理的时间足够长。 刚提了个想法,它思考15分钟才开始行动,牛逼。
Anthropic 公开致歉,承认其 Claude Fable 功能中存在用户无法察觉的安全防护措施,但未公布具体措施细节。
BBVA 将 ChatGPT Enterprise 推广至 10 万名员工,并与 OpenAI 达成合作,加速全球银行业 AI 驱动的转型。
UPLOAD YOUR OWN FLOOR PLAN TO MAKET HAVE IT RECOGNIZED AND EDITABLE IN MINUTES One of the most requested features weʼve ...
一群AI研究员开源了量化金融知识处理框架QuantMind(MIT协议)。它能将arXiv论文、SEC文件、研报等非结构化内容批量解析为可查询的语义知识图谱,支持多模态解析(表格、公式、图表)及自然语言多跳推理,可替代初级分析师读论文、整理观点等工作。但真正的alpha仍取决于提问质量与验证严谨度。
http://x.com/i/article/2064536412670562304
Have you debugged your training data? You might not like what you find. Introducing predictive data debugging: reveal an...
推文探讨了使用大模型复刻已有热门工具站的可能性,强调这些工具站本身不需要AI能力,纯靠需求驱动。作者指出,许多出海赚Adsense美金的站点也遵循类似逻辑——选择自己熟悉领域的工具,用当前最好的模型进行复刻,并结合自身对用户需求的深入理解,从而快速做出有价值的作品。这是对模型能力的一种实用测试。
彭博观点专栏作家Gautam Mukunda指出,高管们正强迫员工使用AI,将裁员归咎于AI,并误解颠覆性技术的实际演变方式。
Cursor 近日推出 Auto-review,通过一个专门的分类器智能体在工具调用前审查动作风险。该分类器根据上下文判断动作是否与用户意图一致,高风险时阻止并返回解释给父智能体,低风险时放行。分类器采用小模型,运行在智能体循环内以避免额外延迟,并能读取工作区文件辅助判断。测试基于约12小时内部开发会话生成的6122条标签数据,以及针对读取密钥、操作生产数据等危险场景的合成数据。设计目标是在不频繁阻断日常开发的前提下,拦截风险动作。
关联讨论 1 条Cursor BlogThe Grok Build Plugin Marketplace is now in beta. Build with MongoDB, Vercel, Sentry, Cloudflare, and Chrome DevTools pl...
关联讨论 2 条xAI:News(网页)X:xAI (@xai)DeepSeek-R1 的开源复现项目已在 GitHub 发布,在 Hacker News 上获得 101 个积分。该项目旨在以开源方式复现 DeepSeek-R1 模型。