Berryxia.AI@berryxia · 5月17日63我去,Claude Mythos 突然在 Google Cloud Console 现身了。
昨天还没有,今天直接出现了,连 preview 标签都彻底消失。
跟之前 Opus 4.7 的路子一模一样——先在云控制台露面,然后没多久就正式落地。
Anthropic 之前一直说这个模型“太危险”不适合公开发布,现在却悄无声息地出现在 GCP 里。
最合理的猜测是:他们不会直接推公开版,而是作为模型提供方,让已经接入 GCP 的企业用户直接调用,在企业环境中跑。
我看完截图后最大的感受是,Anthropic 正在用最安静的方式,把最强的思考模型慢慢推向生产环境。
这直接把“危险模型”的叙事直接打了个反转。
译Claude Mythos模型近日悄然出现在Google Cloud Console中,其预览标签已消失,发布模式与之前Opus 4.7类似,预示可能即将正式落地。Anthropic曾称该模型“太危险”不适合公开发布,但目前迹象表明,公司可能不会推出公开版本,而是转而作为模型提供商,通过Google Cloud Platform让已接入的企业客户直接在自有环境中调用和使用。这一举动被视为Anthropic以最安静的方式将其高级思考模型推向生产环境,并逆转了此前关于该模型危险的叙事。
🚨 AI News | TestingCatalog@testingcatalog · 5月17日65ANTHROPIC 🔥: Claude Mythos model has been spotted on Google Cloud Console.
-claude-mythos 👀
It is hard to imagine that Anthropic would change its mind and release it publicly but they could act as a model provider for those companies who have access to the model and run their stuff on GCP.
译Anthropic的Claude Mythos模型已被发现在谷歌云控制台出现,且其预览标签已消失。这一迹象与之前Opus 4.7发布前的模式相似,引发了关于Anthropic可能准备公开发布该模型的猜测。尽管作者认为Anthropic改变主意直接向公众发布的可能性不大,但推测其可能作为模型提供商,为有权限的公司提供在谷歌云平台上运行该模型的服务。
Ant Ling@AntLingAGI · 5月17日80Another day0 collaboration, another community win. Thanks @vllm_project team for the always reliable support~ 🫡🫡
译又一次Day0协作,又一次社区胜利。感谢@vllm_project团队始终可靠的支持~ 🫡🫡
Ant Ling@AntLingAGI · 5月17日74🥳You could always experience the latest, fastest and the most easy to use open model on SGLang, this time for our latest reasoning model release of Ring-2.6-1T (limited 75% discount on OR https://openrouter.ai/inclusionai/ring-2.6-1t)
Thanks to @lmsysorg for another top notch day0 collaboration! 🥳
译Ring-2.6-1T万亿参数旗舰模型正式发布,专注于处理复杂现实世界任务,并在SGLang平台获得Day-0即时支持,得益于与@lmsysorg的合作。该模型具备增强的智能体执行能力,可稳定处理多步骤、工具调用和长流程工作。用户可通过推理努力控制的高与极高模式,灵活调节推理深度、速度和成本。训练采用异步强化学习与IcePop技术,确保万亿参数强化学习训练的效率和稳定性。目前,该模型在OpenRouter平台提供限时75%折扣,供用户体验最新功能。
Ant Ling@AntLingAGI · 5月17日76Thanks @AdinaYakup and the @huggingface community for the continued recognition!
We feel happy to bring another 1T thinking model to the community! Comments and feedbacks welcome!
译蚂蚁集团发布万亿参数推理模型Ring-2.6-1T,专为现实世界智能体工作流构建。该模型采用MIT许可,上下文长度通过YaRN技术从128K扩展至256K,并采用Async RL与IcePop混合训练架构。其核心特点是具备双推理努力模式:“high”模式用于快速智能体循环,“xhigh”模式用于深度推理,旨在实现更好的成本与性能平衡。模型已开源,欢迎社区反馈。
Ant Ling@AntLingAGI · 5月17日66Lovely video! Glad to work with @novita_labs and @OpenRouter to bring another newly build model, Ring-2.6-1T to our beloved users.
It is available on OpenRouter with 75% through May~ https://openrouter.ai/inclusionai/ring-2.6-1t
译Ring-2.6-1T模型现已开源,并上线OpenRouter平台,5月底前享有75%折扣。该模型由AntLingAGI开发,是一个为现实世界智能体构建的万亿级推理模型,其核心设计目标不仅是回答问题,更是执行任务。它专注于规划步骤、使用工具、维持上下文和完成复杂工作流,具备强大的智能体执行能力和高推理模式,并采用了Async RL与IcePop训练方法。
AYi@AYi_AInotes · 5月16日70Damn!Anthropic的神秘模型Mythos Preview简直屌炸天!
Google Project Zero平均六个月才能搞定的漏洞,Mythos五天就完成了,而且这还是它的预览版,它这个找漏洞的速度真的有点让我后背发凉🤯
这可是苹果花了五年,砸了几十亿美元打造的终极硬件安全防线MIE啊,damn!
我觉得这倒不是说苹果安全防护能力不行,更像是AI正在彻底改写网络安全游戏规则的明确信号,
MIE是M5和A19芯片的旗舰安全功能,
基于ARM的内存标签扩展技术,
直接在硬件层面给每一块内存贴标签,
苹果自己说它已经阻断了所有针对现代iOS的公开漏洞利用链,
其中包括近期泄露的Coruna和Darksword工具包,
结果加州的研究团队用Anthropic的Mythos Preview,
五天就构造出了可运行的macOS内核内存损坏漏洞利用程序,
作为对比,Google Project Zero处理同级别的漏洞,平均周期是六个月,
但是Mythos不是简单的代码扫描工具,
它能自主读代码,提出假设,写测试用例验证,
甚至自己完成从发现漏洞到编写完整利用链的全过程,
它在Firefox里一次运行就发现了271个漏洞,
在OpenBSD里挖出了一个存在了27年的TCP SACK漏洞,
以前我们觉得漏洞挖掘是顶级安全研究员的专属技能,
需要十几年的经验积累和天赋,
但是现在AI已经把这个门槛降到了几乎为零,
这才是真正可怕的地方,
我在想未来的网络战争,
可能不再是人类黑客之间的对决,
很可能是AI和AI之间的军备竞赛,
毕竟人类安全研究员的速度,在AI面前已经不够看了,
苹果已经拿到了完整的55页技术报告,修复之后会向公众公开,
但这足以说明,AI漏洞挖掘的时代,已经来了。
译Anthropic的神秘AI模型Mythos Preview在网络安全领域取得突破性进展。该模型仅用五天就成功构造出针对苹果硬件级安全防线MIE的macOS内核漏洞利用程序,而同类任务通常需要Google Project Zero团队平均六个月完成。Mythos不仅能自主阅读代码、提出假设并验证,还能独立完成从漏洞发现到编写完整利用链的全过程。这标志着AI正将漏洞挖掘的技术门槛急剧降低,预示着未来网络安全攻防可能演变为AI之间的自动化竞赛。相关技术报告已提交苹果,修复后将公开。
Rohan Paul@rohanpaul_ai · 5月16日55"The difference between (the current) Grok foundation model 8 and 9 is gigantic."
~ Elon Musk
Grok V9 is a 3x larger foundation model built to compete with top coding agents.
译Elon Musk表示,Grok基础模型V8与V9之间存在巨大差距。内部开发的V9是一个1.5万亿参数模型,在数据质量、训练方法、规模等各方面均远超V8,并针对Blackwells架构优化,旨在与顶级编码智能体竞争。而当前公开的v4.2版本基于仅0.5万亿参数、在Hoppers上训练的V8基础模型,其训练数据在质量、全面性和均衡性上存在显著不足。
MiniMax (official)@MiniMax_AI · 5月16日66M2.7 is live on @OrcaRouter - accessible via a single OpenAI-compatible API.
Try it today!🐋
译M2.7已在@OrcaRouter上线——可通过单一OpenAI兼容API访问。
今天就来试试吧!🐋
SenseTime@SenseTime_AI · 5月16日62📢📢 𝗜𝗻𝘁𝗿𝗼𝗱𝘂𝗰𝗶𝗻𝗴 𝗮𝗻 𝗲𝗻𝗵𝗮𝗻𝗰𝗲𝗱 𝗺𝗼𝗱𝗲𝗹 𝗳𝗼𝗿 𝗶𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻!
📊 Posters, charts, recipe cards, postcards — even arXiv-style pages — all from 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭-𝟴𝗕-𝗠𝗼𝗧-𝗜𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰.
🚀 +6.8 / +18.2 on BizGenEval (hard) / IGenBench (Q-ACC) over base U1, plus 100+ diverse showcases.
🤗 http://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Infographic
🖼️Showcases: https://github.com/OpenSenseNova/SenseNova-U1/blob/main/docs/u1_infographic_showcases.md
Try it out — we'd love to see what you build!
@huggingface
译SenseNova近日推出专为信息图表生成设计的增强模型SenseNova-U1-8B-MoT-Infographic。该模型能够根据指令生成多种视觉格式内容,包括海报、图表、食谱卡、明信片以及学术风格的arXiv页面等。在性能方面,模型在BizGenEval(困难版)和IGenBench(Q-ACC)两项基准测试上表现突出,相比其基础U1模型分别提升了6.8分和18.2分。目前,该模型已在Hugging Face平台开源,并提供了超过100个多样化的生成示例,供开发者和研究者参考与试用。
Berryxia.AI@berryxia · 5月15日45Qwen 3.6 Plus & OpenCode 免费开整啊!!!
向阳乔木@vista8 · 5月15日63前几天在Huggingface看到模型论文了。
面壁智能的MiniCPM-V 4.6 ,竟然只有1.3B的视觉模型。
看Benchmark效果有点强,抽空测试下。
译面壁智能推出仅1.3B参数的视觉语言模型MiniCPM-V 4.6。该模型采用LLaVA-UHD v4技术,将视觉编码成本降低55%,专为消费级和移动硬件优化,支持高效边缘部署。其在关键多模态和Artificial Analysis基准测试中,性能超越了Gemma4-E2B-it和Qwen3.5-0.8B等更大模型,且仅消耗后者2.5%的token预算。在处理高分辨率图像时,其首token生成时间比Qwen3.5-0.8B快2.2倍,在单张RTX 4090上的token吞吐量约为后者的1.5倍。模型已在Hugging Face、ModelScope等平台开源发布。
🚨 AI News | TestingCatalog@testingcatalog · 5月15日66GOOGLE 🔥: New Gemini Spark screenshots featuring advanced tool use and Skills creation flow.
It seems like there won't be an option to import SKILL MD files besides copeing and pasting. There is also no evidence of Browser or Computer Use atm.
译GOOGLE 🔥:Gemini Spark新截图展示高级工具使用和技能创建流程。
目前看来除了复制粘贴外,似乎没有导入SKILL MD文件的选项。目前也没有浏览器或计算机使用功能的迹象。
Berryxia.AI@berryxia · 5月15日70兄弟们,国内大模型现在彻底”大乱斗“了!
群雄共舞啊,用户可以有更多的选择了!
来自Ant Group AGI团队直接把Ring-2.6-1T这个1万亿参数的旗舰思考模型开源了。
这不是又一个聊天玩具,它专为真实世界的复杂任务而生:Agent工作流、代码工程、长时序执行、深度研究、企业自动化。
它能理解上下文、规划步骤、调用工具,在漫长任务链里保持稳定。支持两种reasoning模式——high用于高效生产,xhigh用于极致思考。底层IcePop异步强化学习算法,把万亿规模的长时序训练彻底稳住了。
最关键的一点,它完全开源。
这意味着什么?
兄弟们现在可以直接把这个顶级模型拉到本地服务器或者端侧环境跑,企业所有数据完全不出域,隐私安全和合规问题直接解决。
以前很多金融、政务、医疗、大型企业,因为数据敏感性,只能眼巴巴看着云端闭源模型干瞪眼。现在Ring-2.6-1T直接把执行级思考能力放在了自己手里。
本地部署门槛也已经大幅降低,结合MoE架构和优化后,很多中大型企业完全可以把最强Agent能力跑在自家机房。
模型已在以下地址上线:
Hugging Face:https://huggingface.co/inclusionAI/Ring-2.6-1T
ModelScope:https://modelscope.ai/models/inclusionAI/Ring-2.6-1T
如果你在做企业Agent、内部自动化或者对数据安全要求极高,这波开源值得立刻去试。
译蚂蚁集团AGI团队开源了万亿参数旗舰思考模型Ring-2.6-1T。该模型专为处理Agent工作流、代码工程、长时序执行等复杂任务设计,具备上下文理解、规划与工具调用能力,并提供高效与极致两种推理模式。其采用IcePop算法稳定训练,并借助MoE架构降低部署门槛。完全开源允许企业将模型部署于本地或端侧,确保数据不出域,有效解决了金融、政务等敏感领域对数据安全与合规的迫切需求。模型已在Hugging Face和ModelScope平台发布。
Artificial Analysis@ArtificialAnlys · 5月15日62China Mobile has just released JT-35B-Flash, a proprietary 35B non-reasoning model with relatively high token efficiency and competitive intelligence for its size (Artificial Analysis Intelligence Index of 36)
This represents a significant upgrade from China Mobile's previous JT-MINI, with an Intelligence Index improvement of +11 points (25 → 36). China Mobile is one of the world's largest telecommunications companies, and JT-35B-Flash is a sign of their continued focus on AI.
Key results:
➤ JT-35B-Flash scores 36 on the Intelligence Index, an +11 point improvement from JT-MINI (25). While still behind frontier models overall, the model shows China Mobile's progression in developing more capable proprietary models. The 35B parameter count represents a significant scale-up from JT-MINI.
➤ JT-35B-Flash outperforms JT-MINI with significantly in AA-Omniscience, with a +42 improvement in score. This is driven by both lower hallucination rate (63%) as well as higher accuracy (28%).
➤ JT-35B-Flash leads in τ²-Bench with 99%, ahead of GLM-4.7-Flash (Reasoning, 98%) and other top performers. τ²-Bench measures tool use in customer service scenarios, making this particularly relevant for China Mobile's telecommunications business. This represents the highest score measured on this evaluation across models we benchmark.
➤ JT-35B-Flash achieves an Agentic Index score of 52, driven primarily by its exceptional τ²-Bench performance. GDPval-AA reaches 1076, indicating competent real-world task execution capabilities for a model at this Intelligence Index level.
➤ JT-35B-Flash demonstrates high token efficiency, even compared to other non-reasoning models, using ~17M output tokens to run the Intelligence Index. This positions JT-35B-Flash as an efficient inference option compared to reasoning-enabled alternatives.
Model details:
➤ Context window: 256K tokens
➤ Availability: Currently primarily available to China Mobile’s enterprise customers
译中国移动近日发布了专有的350亿参数非推理模型JT-35B-Flash,其Artificial Analysis智能指数达到36,较前代JT-MINI大幅提升11分。该模型在面向电信客服场景的工具使用评测τ²-Bench中以99%的得分领先,并展现出较高的令牌效率,运行智能指数仅消耗约1700万输出令牌。JT-35B-Flash拥有256K上下文窗口,目前主要面向企业客户提供。作为全球主要电信运营商,此举标志着中国移动在开发更强大专有模型方面的持续投入。
Rohan Paul@rohanpaul_ai · 5月15日59Google is set to announce a new Gemini model at its annual I/O conference on Tuesday, with performance believed to be roughly matched with GPT-5.5.
译Google 准备在周二的年度 I/O 大会上宣布一个新的 Gemini 模型,其性能被认为大致与 GPT-5.5 匹配。
Ant Ling@AntLingAGI · 5月14日83🚀 Ring-2.6-1T is now open source.
A trillion-scale flagship thinking model built for real-world complex tasks: Agent workflows, coding & engineering, long-horizon tasks, complex reasoning, research, and enterprise automation.
It is designed to move beyond “answering” toward execution: understanding context, planning steps, calling tools, and staying stable across long task chains.
Highlights:
- Advanced agentic workflow support.
- Reasoning effort levels: high for agentic tasks, xhigh for complex reasoning.
- Scalable asynchronous RL via the IcePop algorithm, enabling stable, trillion-scale training for long-horizon agentic RL.
译Ring-2.6-1T 正式开源,这是一个专为现实世界复杂任务构建的万亿规模旗舰思考模型。其设计目标超越单纯的“回答”,转向任务执行,能够理解上下文、规划步骤、调用工具,并在长任务链中保持稳定。模型重点支持高级智能体工作流,提供不同级别的推理努力配置:常规任务采用高级别,复杂推理则启用更高强度。通过 IcePop 算法实现了可扩展的异步强化学习,从而支撑了面向长周期智能体任务的稳定万亿规模训练。
Chubby♨️@kimmonismus · 5月14日58Rumors about the new Gemini Flash coming in. And holy, if true then big:
92% of GPT-5.5’s coding and reasoning performance, reportedly at 15–20x lower inference cost. And the latency? Sub-200ms for most queries.
That would be nuts. no joke.
译传闻即将发布的Gemini 3.2 Flash模型在编码和推理任务上达到了GPT-5.5约92%的性能水平,同时推理成本降低了15至20倍。其延迟表现也极为出色,多数查询响应时间低于200毫秒。这主要得益于DeepMind的蒸馏和稀疏化技术,成功将前沿模型压缩为“Flash”变体,而避免了通常伴随的质量大幅下降。
SenseTime@SenseTime_AI · 5月14日77Led by our Co‑Founder and Chief Scientist Dr. @lindahua , our passionate AI pioneers have brought vision to life.🔥
Access the 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨𝟭 𝘁𝗲𝗰𝗵𝗻𝗶𝗰𝗮𝗹 𝗿𝗲𝗽𝗼𝗿𝘁 for the architecture, training recipe, and innovations behind this breakthrough.
译由联合创始人兼首席科学家李沐博士领导的团队发布了SenseNova U1技术报告,详细阐述了其架构、训练方案与创新突破。此次开源同步发布了基于混合专家模型(MoE)的新权重,旨在推动AI领域的透明度、可复现性与进一步创新。团队希望通过开放共享促进整个社区的技术发展。
Chubby♨️@kimmonismus · 5月14日48Lets go: Google’s next Gemini model is expected to compete with GPT-5.5
Google is reportedly preparing to unveil a new Gemini model at I/O, positioning it near OpenAI’s recent GPT-5.5 rather than the more elusive Anthropic Mythos.
Google i/o got even more exciting
译让我们开始:Google 的下一个 Gemini 模型预计将与 GPT-5.5 竞争。
据报道,Google 正准备在 I/O 上发布一个新的 Gemini 模型,将其定位接近 OpenAI 最近的 GPT-5.5,而不是更难以捉摸的 Anthropic Mythos。
Google I/O 变得更加令人兴奋了。
Kimi.ai@Kimi_Moonshot · 5月14日63Kimi K2.6 is now open-weight #1 on Finance Agent Benchmark V2.
译Kimi K2.6 现已成为 Finance Agent Benchmark V2 开源权重排名第一。
[引用 @ValsAI]:AI 能胜任金融分析师的工作吗?
Xiaomi MiMo@XiaomiMiMo · 5月14日60Wow, this is honestly exciting to see!
Thanks to Design Arena and everyone who tested MiMo V2.5 Pro. We’ll keep building and improving 🚀
译MiMo V2.5 Pro (Thinking) 模型在Design Arena的开放权重模型总排行榜中位列第三,相比前代MiMo-V2.5跃升了8个名次。其在前端编码任务上的表现已与Claude Sonnet 4.6处于同一性能区间。团队对测试者表示感谢,并承诺将持续改进模型。
Krea@krea_ai · 5月14日73sharing more Krea 2 access codes!
K2-NF55KA / K2 TCA7ZX / TMYVGV – each one will work for 80 users.
link for redeeming them below 👇
译分享更多 Krea 2 内测码!
K2-NF55KA / K2 TCA7ZX / TMYVGV – 每个码可供80位用户使用。
兑换链接如下 👇
[引用 @krea_ai]:this is Krea 2.
Berryxia.AI@berryxia · 5月14日56Google Gemini 3.2 Pro 和Flash 已经蓄势待发了。
每次都是这几个Case 真的烦了,能不能整点炸裂一点的Case。
据说是就近期要发布, 但是看着样子也是赶鸭子上架,应该放鸽子啥的也是常有的事儿。
译Google Gemini 3.2 Pro 和Flash 已经蓄势待发了。
每次都是这几个Case 真的烦了,能不能整点炸裂一点的Case。
据说是就近期要发布, 但是看着样子也是赶鸭子上架,应该放鸽子啥的也是常有的事儿。
Alibaba Cloud@alibaba_cloud · 5月14日63What if AI characters could remember, empathize & proactively engage? ✨
The future of interactive AI is here. Whether you're building for games, virtual AI companions, or adaptive learning, Qwen-Character powers immersive role-play experiences that drive 50%+ deeper engagement and boost user LTV
👉 See how it works in the full video: https://int.alibabacloud.com/m/1000412854/
#AlibabaCloud #Qwen #QwenCharacter #ModelStudio #AI
译如果AI角色能够记忆、共情并主动交互呢?✨
交互式AI的未来已来。无论您是为游戏、虚拟AI伴侣还是自适应学习进行开发,Qwen-Character都能打造沉浸式角色扮演体验,推动参与度加深50%以上并提升用户终身价值
👉 观看完整视频了解运作原理:https://int.alibabacloud.com/m/1000412854/
#AlibabaCloud #Qwen #QwenCharacter #ModelStudio #AI
Krea@krea_ai · 5月14日73Krea 2 access code drop!
K2-PRFUF8 / K2-NRWW9E / K2-CAP48S – each one has 50 uses.
access link below 👇
译Krea 2 访问码发放!
K2-PRFUF8 / K2-NRWW9E / K2-CAP48S – 每个码可使用50次。
访问链接如下 👇
[引用 @krea_ai]:this is Krea 2.
our first foundation model, built completely from scratch for aesthetic diversity and stylistic control.
learn more and get early access 👇
Chubby♨️@kimmonismus · 5月14日65GPT-5.6 arriving *that quick* was not on my bingo card.
译GPT-5.6 来得那么快,这不在我的预料之中。
SenseTime@SenseTime_AI · 5月13日72🔥 New week, New 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭 Drop — and this one goes Deep!🔥
📄 𝗧𝗵𝗲 𝗳𝘂𝗹𝗹 𝗧𝗲𝗰𝗵𝗻𝗶𝗰𝗮𝗹 𝗥𝗲𝗽𝗼𝗿𝘁 𝗶𝘀 𝗢𝗨𝗧 — the most detailed disclosure yet of how to build a frontier Native Multimodal Model.
Inside:
✨ Near-lossless visual interface (no VEs, no VAEs)
✨ Native Multimodal Unified Modeling
✨ Joint AR + pixel-space flow matching training
✨ Native Mixture-of-Transformers backbone
✨ 6-stage training recipe + RL post-training + distillation
If you work on NMM, this is the playbook.
🤗 One more thing: 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭-𝗔𝟯𝗕-𝗠𝗼𝗧 (𝟯𝟴𝗕-𝗔𝟯𝗕 𝗠𝗼𝗘) 𝘄𝗲𝗶𝗴𝗵𝘁𝘀 𝗮𝗿𝗲 𝗻𝗼𝘄 𝗼𝗽𝗲𝗻-𝘀𝗼𝘂𝗿𝗰𝗲𝗱 — a RARE native unified model on an MoE backbone (Only 3B active! Lightning Fast⚡)
📄 Tech Report: https://arxiv.org/abs/2605.12500
🤗 Daily Papers (Vote & Discuss): https://huggingface.co/papers/2605.12500
🤗 Models: https://huggingface.co/collections/sensenova/sensenova-u1
💻 Code: https://github.com/OpenSenseNova/SenseNova-U1
🎮 Demo: https://unify.light-ai.top
👾 Discord: https://discord.com/invite/BuTXPHmQub
译SenseNova-U1 技术报告详尽披露了构建前沿原生多模态模型的方法,核心包括原生多模态统一建模、无损视觉接口、联合自回归与像素空间流匹配训练、以及原生混合专家骨干网络。报告提供了六阶段训练方案、强化学习后训练与蒸馏的完整实践指南。其开源版本 SenseNova-U1-A3B-MoT 基于混合专家架构,仅激活30亿参数,实现了高效快速的性能。相关资源已全面开放,涵盖技术报告、模型权重、代码和演示平台。
Tencent Hy@TencentHunyuan · 5月13日76Hy3 preview is now on @gmi_cloud. 🙌
译Hy3 预览版现已登陆 @gmi_cloud。🙌
Berryxia.AI@berryxia · 5月13日65兄弟们!Jina 今天直来了个大 的!
Jina-embeddings-v5-omni 来了!
这是他们首个真正支持 text + image + audio + video 的统一 Embedding 模型!(多模态的EMB~!)
两个尺寸:
Small(1.57B,1024维,32K 上下文)
Nano(0.95B,768维,8K 上下文)
还支持 Matryoshka 截断到 32 维,超级灵活。
最爽的是完全向后兼容:你原来的 v5-text 索引不用动,直接换成 omni 就能开始搜图片、音频、视频了!同一向量空间,无需 reindexing。
性能也很猛,小模型就打平甚至超越好几个参数量大几倍的开源模型。
现在已经在 Hugging Face、Jina API、Elastic Inference Service 上架了。
这波多模态 embedding 真的要爽了兄弟们!
你们已经在做多模态 RAG 或者多媒体搜索了吗?😂
译Jina发布了其首个统一的多模态Embedding模型jina-embeddings-v5-omni,能够处理文本、图像、音频和视频。模型提供Small和Nano两种尺寸,分别具有1.57B和0.95B参数,并支持Matryoshka截断技术。关键优势在于完全向后兼容:现有jina-embeddings-v5-text的索引无需重新构建,可直接替换为v5-omni,在同一向量空间内实现对多媒体内容的搜索。该模型性能强劲,小尺寸即可媲美或超越参数量更大的开源模型。目前已上线Hugging Face、Jina API和Elastic Inference Service。
DogeDesigner@cb_doge · 5月13日57xAI’s Grok Voice Think Fast 1.0 just hit the #1 spot with a 73.7% score on Telecom Pass@1 🥇
译xAI的Grok Voice Think Fast 1.0刚刚以73.7%的得分在Telecom Pass@1评测中夺得第一名🥇
StepFun@StepFun_ai · 5月13日72🚀 Step Image Edit 2 is live!!
A 3.5B-parameter image model that ranks #1 on KRIS-Bench —the leading benchmark for instruction-based image editing —across overall, factual, and conceptual categories.
It outperforms models at 5–6x the parameter count.
Performance
- 0.7s text-to-image
- 1.6s per edit
- $0.003 per image
Capabilities
→ Text-to-image generation
→ Instruction-based image editing
→ Bilingual text rendering (accurate Chinese + English characters)
→ Style transfer with subject consistency
Get started
Model ID: `step-image-edit-2`
Available now on the Stepfun open platform.
docs→https://platform.stepfun.ai/docs/en/guides/models/step-image-edit-2
译Step Image Edit 2模型正式发布。这是一个35亿参数的图像模型,在指令式图像编辑的权威基准KRIS-Bench中,于综合、事实和概念类别均排名第一,性能超越参数量为其5-6倍的模型。其核心能力包括文生图、基于指令的图像编辑、精准的中英双语文字渲染以及保持主体一致性的风格迁移。该模型生成速度快,单次编辑成本低,目前已上线Stepfun开放平台。
ClaudeDevs@ClaudeDevs · 5月13日76Fast mode for Claude Opus 4.7 is now available in research preview on the API and in Claude Code.
译Claude Opus 4.7的快速模式现已在API和Claude Code中开放研究预览。
OpenRouter@OpenRouter · 5月13日69Perceptron Mk1 is live on OpenRouter, built by @perceptroninc.
Frontier video and embodied reasoning in a vision-language model. Analyzes video at a dynamic frame rate (up to 2 FPS) across a 32k multimodal context, with hybrid reasoning and structured spatial primitives (points, boxes, polygons, clips) as first-class outputs.
译Perceptron Mk1已在OpenRouter上线,由@perceptroninc开发。
前沿视频与具身推理的视觉语言模型。以动态帧率(最高2 FPS)分析视频,具备32k多模态上下文,采用混合推理和结构化空间基元(点、框、多边形、片段)作为首要输出。
Krea@krea_ai · 5月12日68this is Krea 2.
our first foundation model, built completely from scratch for aesthetic diversity and stylistic control.
learn more and get early access 👇
译这是Krea 2。
我们的首个基础模型,完全从零构建,旨在实现美学多样性和风格控制。
了解更多并获取早期访问权限👇
Microsoft Research@MSFTResearch · 5月12日62MatterSim is expanding what AI can do for materials science—from faster large-scale simulations to MatterSim-MT, a new multi-task model for simulating properties beyond potential energy surfaces alone. https://msft.it/6017vPamT
译MatterSim正在拓展AI在材料科学中的应用边界——从更快速的大规模模拟,到全新多任务模型MatterSim-MT,可模拟超越势能面的多种物性。https://msft.it/6017vPamT
SenseTime@SenseTime_AI · 5月12日62Thank you for the warm reception from the developer community — it means a great deal to us. 👐
SenseNova U1 efficiently unifies language and vision in a single model — semantic understanding, pixel-level generation, and complex infographic creation.
Excited to see what you build!
@HuggingModels
译SenseNova U1是一款高效统一语言与视觉的单模型,具备语义理解、像素级生成和复杂信息图创作能力。该模型被描述为能够阅读文本、生成图像、编辑照片及处理图文交错任务的“任意到任意”Transformer,如同集成了创意工作室功能,重新定义了多模态AI。开发者社区对其反响热烈。
Rohan Paul@rohanpaul_ai · 5月12日62Thinking Machines is replacing turn-taking AI with always-present AI.
They just announced TML-Interaction-Small, a 276B-parameter MoE model with 12B active parameters that treats conversation as a live stream instead of a stop-start chat box.
Most AI voice systems still behave like walkie-talkies: you speak, they wait, they answer, then their view of the world freezes while they talk.
Thinking Machines changes that by slicing audio, video, and text into 200ms micro-turns, so the model can listen, watch, speak, draw, search, and call tools while the interaction is still happening.
This is why the demos feel different: the model can interrupt when context demands it, keep talking while listening, react to visual cues, track elapsed time, and hand harder work to a background model without vanishing from the conversation.
The architecture is also cleaner than many current real-time systems because interactivity is trained into the model itself rather than patched together with voice detectors, turn detectors, separate speech models, and timing rules.
The early numbers are strong: 0.40s turn-taking latency, 77.8 on FD-bench V1.5 interaction quality, and 43.4% on Audio MultiChallenge, which means it is not just fast, it still retains useful reasoning and instruction-following ability.
The model can notice timing, silence, overlap, gestures, screen changes, and uncertainty as part of the same context.
译Thinking Machines公司发布了TML-Interaction-Small模型,旨在以“始终在场”的AI取代传统的轮替式对话AI。该模型采用混合专家架构,将音频、视频和文本流切分为200毫秒的微轮次,使其能在交互过程中并行执行聆听、观看、说话、绘图、搜索及调用工具等操作。其核心设计理念是让人工智能像人类一样实时并行处理多任务。模型在保持低延迟(0.40秒)的同时,保留了强大的推理与指令遵循能力,且交互性直接内建于模型架构,而非依赖外部组件拼凑实现。
歸藏(guizang.ai)@op7418 · 5月12日71前 OpenAI CTO Mira 的公司 Thinking Machines 发了一个非常创新的模型,他们叫交互模型。
这个模型能够持续接收音频、视频、文本等原生的多模态内容,并且实时进行思考、响应和行动。
它不像之前那种 Agent 脚手架,把多个模型、多个模态的模型通过 Agent 串起来,而是所有模态都在一整个模型里。
这样就可以让用户和 AI 在任意模态下实时进行交互:
你可以随时打断它,随时进行补充,AI 会实时关注你的状态,输出结果,不会像之前一样,必须等一句话结束了才能跟模型交互。
核心思路就是把交互部分训练到了模型里。他们从零训练的这个交互模型主要包括两部分:
前台交互模型:
(a) 一直在线,一直在听、看和读用户提供的内容
(b) 每 200 毫秒作为一个节点,同时处理输入并产出一小段输出
(c) 负责照顾用户的在场感,支持用户打断、插话,并能对屏幕和视频内容做出反应
后台推理模型:
(a) 用来处理需要持续推理、工具调用以及长上下文、长规划的任务
(b) 交互模型会在合适的时候,将推理模型的结果放回到对话里,不会插入突兀的内容
用户最终看到的结果,就是一个既能实时交互,又能够处理重度任务的界面。
译前OpenAI CTO Mira创立的Thinking Machines公司发布了一种创新的“交互模型”。该模型能原生、持续地接收音频、视频和文本等多模态输入,并实时思考与响应,而非通过Agent串联多个独立模型。其架构分为两部分:前台交互模型以200毫秒为节点处理输入并维持用户“在场感”,支持随时打断;后台推理模型则处理长程规划、工具调用等复杂任务。两者协同工作,最终呈现为一个既能实时交互又能处理重度任务的统一界面。
歸藏(guizang.ai)@op7418 · 5月12日50谷歌看起来要发布 Veo 4 了,也有可能是其他的名字。
类似 Seedance 2.0 的全能参考,支持对视频进行:修改参考和内容替换
质量上看起来,在文字生成上要比 Seedance 2.0 稍微好点,但在其他方面看不出更好的质量,可能在清晰度和细节上也会稍微好点。
译谷歌可能即将推出新一代视频生成模型,暂称Veo 4或类似名称。该模型被描述为类似Sora 2.0的全能参考模型,支持对现有视频进行修改参考和内容替换等操作。在文字生成质量上,它被认为比Sora 2.0略有优势,清晰度和细节可能也稍有提升。据透露,这款即将到来的Gemini Omni视频模型在视频编辑功能上将更为先进,能够完成去除水印、替换视频内物体等复杂任务。谷歌预计会发布该模型的两个版本,包括一个性能更强的Pro变体,而目前展示的样本可能并非Pro版本。