AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态X · 612 条
全部一手资讯X论文
Berryxia.AI@berryxia · 5月17日63

我去,Claude Mythos 突然在 Google Cloud Console 现身了。 昨天还没有,今天直接出现了,连 preview 标签都彻底消失。 跟之前 Opus 4.7 的路子一模一样——先在云控制台露面,然后没多久就正式落地。 Anthropic 之前一直说这个模型“太危险”不适合公开发布,现在却悄无声息地出现在 GCP 里。 最合理的猜测是:他们不会直接推公开版,而是作为模型提供方,让已经接入 GCP 的企业用户直接调用,在企业环境中跑。 我看完截图后最大的感受是,Anthropic 正在用最安静的方式,把最强的思考模型慢慢推向生产环境。 这直接把“危险模型”的叙事直接打了个反转。

译Claude Mythos模型近日悄然出现在Google Cloud Console中,其预览标签已消失,发布模式与之前Opus 4.7类似,预示可能即将正式落地。Anthropic曾称该模型“太危险”不适合公开发布,但目前迹象表明,公司可能不会推出公开版本,而是转而作为模型提供商,通过Google Cloud Platform让已接入的企业客户直接在自有环境中调用和使用。这一举动被视为Anthropic以最安静的方式将其高级思考模型推向生产环境,并逆转了此前关于该模型危险的叙事。

查看原推 ↗
🚨 AI News | TestingCatalog@testingcatalog · 5月17日65

ANTHROPIC 🔥: Claude Mythos model has been spotted on Google Cloud Console. -claude-mythos 👀 It is hard to imagine that Anthropic would change its mind and release it publicly but they could act as a model provider for those companies who have access to the model and run their stuff on GCP.

译Anthropic的Claude Mythos模型已被发现在谷歌云控制台出现,且其预览标签已消失。这一迹象与之前Opus 4.7发布前的模式相似,引发了关于Anthropic可能准备公开发布该模型的猜测。尽管作者认为Anthropic改变主意直接向公众发布的可能性不大,但推测其可能作为模型提供商,为有权限的公司提供在谷歌云平台上运行该模型的服务。

查看原推 ↗
Ant Ling@AntLingAGI · 5月17日80

Another day0 collaboration, another community win. Thanks @vllm_project team for the always reliable support~ 🫡🫡

译又一次Day0协作,又一次社区胜利。感谢@vllm_project团队始终可靠的支持~ 🫡🫡

查看原推 ↗
Ant Ling@AntLingAGI · 5月17日74

🥳You could always experience the latest, fastest and the most easy to use open model on SGLang, this time for our latest reasoning model release of Ring-2.6-1T (limited 75% discount on OR https://openrouter.ai/inclusionai/ring-2.6-1t) Thanks to @lmsysorg for another top notch day0 collaboration! 🥳

译Ring-2.6-1T万亿参数旗舰模型正式发布,专注于处理复杂现实世界任务,并在SGLang平台获得Day-0即时支持,得益于与@lmsysorg的合作。该模型具备增强的智能体执行能力,可稳定处理多步骤、工具调用和长流程工作。用户可通过推理努力控制的高与极高模式,灵活调节推理深度、速度和成本。训练采用异步强化学习与IcePop技术,确保万亿参数强化学习训练的效率和稳定性。目前,该模型在OpenRouter平台提供限时75%折扣,供用户体验最新功能。

查看原推 ↗
Ant Ling@AntLingAGI · 5月17日76

Thanks @AdinaYakup and the @huggingface community for the continued recognition! We feel happy to bring another 1T thinking model to the community! Comments and feedbacks welcome!

译蚂蚁集团发布万亿参数推理模型Ring-2.6-1T,专为现实世界智能体工作流构建。该模型采用MIT许可,上下文长度通过YaRN技术从128K扩展至256K,并采用Async RL与IcePop混合训练架构。其核心特点是具备双推理努力模式:“high”模式用于快速智能体循环,“xhigh”模式用于深度推理,旨在实现更好的成本与性能平衡。模型已开源,欢迎社区反馈。

查看原推 ↗
Ant Ling@AntLingAGI · 5月17日66

Lovely video! Glad to work with @novita_labs and @OpenRouter to bring another newly build model, Ring-2.6-1T to our beloved users. It is available on OpenRouter with 75% through May~ https://openrouter.ai/inclusionai/ring-2.6-1t

译Ring-2.6-1T模型现已开源,并上线OpenRouter平台,5月底前享有75%折扣。该模型由AntLingAGI开发,是一个为现实世界智能体构建的万亿级推理模型,其核心设计目标不仅是回答问题,更是执行任务。它专注于规划步骤、使用工具、维持上下文和完成复杂工作流,具备强大的智能体执行能力和高推理模式,并采用了Async RL与IcePop训练方法。

查看原推 ↗
AYi@AYi_AInotes · 5月16日70

Damn!Anthropic的神秘模型Mythos Preview简直屌炸天! Google Project Zero平均六个月才能搞定的漏洞,Mythos五天就完成了,而且这还是它的预览版,它这个找漏洞的速度真的有点让我后背发凉🤯 这可是苹果花了五年,砸了几十亿美元打造的终极硬件安全防线MIE啊,damn! 我觉得这倒不是说苹果安全防护能力不行,更像是AI正在彻底改写网络安全游戏规则的明确信号, MIE是M5和A19芯片的旗舰安全功能, 基于ARM的内存标签扩展技术, 直接在硬件层面给每一块内存贴标签, 苹果自己说它已经阻断了所有针对现代iOS的公开漏洞利用链, 其中包括近期泄露的Coruna和Darksword工具包, 结果加州的研究团队用Anthropic的Mythos Preview, 五天就构造出了可运行的macOS内核内存损坏漏洞利用程序, 作为对比,Google Project Zero处理同级别的漏洞,平均周期是六个月, 但是Mythos不是简单的代码扫描工具, 它能自主读代码,提出假设,写测试用例验证, 甚至自己完成从发现漏洞到编写完整利用链的全过程, 它在Firefox里一次运行就发现了271个漏洞, 在OpenBSD里挖出了一个存在了27年的TCP SACK漏洞, 以前我们觉得漏洞挖掘是顶级安全研究员的专属技能, 需要十几年的经验积累和天赋, 但是现在AI已经把这个门槛降到了几乎为零, 这才是真正可怕的地方, 我在想未来的网络战争, 可能不再是人类黑客之间的对决, 很可能是AI和AI之间的军备竞赛, 毕竟人类安全研究员的速度,在AI面前已经不够看了, 苹果已经拿到了完整的55页技术报告,修复之后会向公众公开, 但这足以说明,AI漏洞挖掘的时代,已经来了。

译Anthropic的神秘AI模型Mythos Preview在网络安全领域取得突破性进展。该模型仅用五天就成功构造出针对苹果硬件级安全防线MIE的macOS内核漏洞利用程序,而同类任务通常需要Google Project Zero团队平均六个月完成。Mythos不仅能自主阅读代码、提出假设并验证,还能独立完成从漏洞发现到编写完整利用链的全过程。这标志着AI正将漏洞挖掘的技术门槛急剧降低,预示着未来网络安全攻防可能演变为AI之间的自动化竞赛。相关技术报告已提交苹果,修复后将公开。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月16日55

"The difference between (the current) Grok foundation model 8 and 9 is gigantic." ~ Elon Musk Grok V9 is a 3x larger foundation model built to compete with top coding agents.

译Elon Musk表示,Grok基础模型V8与V9之间存在巨大差距。内部开发的V9是一个1.5万亿参数模型,在数据质量、训练方法、规模等各方面均远超V8,并针对Blackwells架构优化,旨在与顶级编码智能体竞争。而当前公开的v4.2版本基于仅0.5万亿参数、在Hoppers上训练的V8基础模型,其训练数据在质量、全面性和均衡性上存在显著不足。

查看原推 ↗
MiniMax (official)@MiniMax_AI · 5月16日66

M2.7 is live on @OrcaRouter - accessible via a single OpenAI-compatible API. Try it today!🐋

译M2.7已在@OrcaRouter上线——可通过单一OpenAI兼容API访问。 今天就来试试吧!🐋

查看原推 ↗
SenseTime@SenseTime_AI · 5月16日62

📢📢 𝗜𝗻𝘁𝗿𝗼𝗱𝘂𝗰𝗶𝗻𝗴 𝗮𝗻 𝗲𝗻𝗵𝗮𝗻𝗰𝗲𝗱 𝗺𝗼𝗱𝗲𝗹 𝗳𝗼𝗿 𝗶𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻! 📊 Posters, charts, recipe cards, postcards — even arXiv-style pages — all from 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭-𝟴𝗕-𝗠𝗼𝗧-𝗜𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰. 🚀 +6.8 / +18.2 on BizGenEval (hard) / IGenBench (Q-ACC) over base U1, plus 100+ diverse showcases. 🤗 http://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Infographic 🖼️Showcases: https://github.com/OpenSenseNova/SenseNova-U1/blob/main/docs/u1_infographic_showcases.md Try it out — we'd love to see what you build! @huggingface

译SenseNova近日推出专为信息图表生成设计的增强模型SenseNova-U1-8B-MoT-Infographic。该模型能够根据指令生成多种视觉格式内容,包括海报、图表、食谱卡、明信片以及学术风格的arXiv页面等。在性能方面,模型在BizGenEval(困难版)和IGenBench(Q-ACC)两项基准测试上表现突出,相比其基础U1模型分别提升了6.8分和18.2分。目前,该模型已在Hugging Face平台开源,并提供了超过100个多样化的生成示例,供开发者和研究者参考与试用。

查看原推 ↗
Berryxia.AI@berryxia · 5月15日45

Qwen 3.6 Plus & OpenCode 免费开整啊!!!

查看原推 ↗
向阳乔木@vista8 · 5月15日63

前几天在Huggingface看到模型论文了。 面壁智能的MiniCPM-V 4.6 ,竟然只有1.3B的视觉模型。 看Benchmark效果有点强,抽空测试下。

译面壁智能推出仅1.3B参数的视觉语言模型MiniCPM-V 4.6。该模型采用LLaVA-UHD v4技术,将视觉编码成本降低55%,专为消费级和移动硬件优化,支持高效边缘部署。其在关键多模态和Artificial Analysis基准测试中,性能超越了Gemma4-E2B-it和Qwen3.5-0.8B等更大模型,且仅消耗后者2.5%的token预算。在处理高分辨率图像时,其首token生成时间比Qwen3.5-0.8B快2.2倍,在单张RTX 4090上的token吞吐量约为后者的1.5倍。模型已在Hugging Face、ModelScope等平台开源发布。

查看原推 ↗
🚨 AI News | TestingCatalog@testingcatalog · 5月15日66

GOOGLE 🔥: New Gemini Spark screenshots featuring advanced tool use and Skills creation flow. It seems like there won't be an option to import SKILL MD files besides copeing and pasting. There is also no evidence of Browser or Computer Use atm.

译GOOGLE 🔥:Gemini Spark新截图展示高级工具使用和技能创建流程。 目前看来除了复制粘贴外,似乎没有导入SKILL MD文件的选项。目前也没有浏览器或计算机使用功能的迹象。

查看原推 ↗
Berryxia.AI@berryxia · 5月15日70

兄弟们,国内大模型现在彻底”大乱斗“了! 群雄共舞啊,用户可以有更多的选择了! 来自Ant Group AGI团队直接把Ring-2.6-1T这个1万亿参数的旗舰思考模型开源了。 这不是又一个聊天玩具,它专为真实世界的复杂任务而生:Agent工作流、代码工程、长时序执行、深度研究、企业自动化。 它能理解上下文、规划步骤、调用工具,在漫长任务链里保持稳定。支持两种reasoning模式——high用于高效生产,xhigh用于极致思考。底层IcePop异步强化学习算法,把万亿规模的长时序训练彻底稳住了。 最关键的一点,它完全开源。 这意味着什么? 兄弟们现在可以直接把这个顶级模型拉到本地服务器或者端侧环境跑,企业所有数据完全不出域,隐私安全和合规问题直接解决。 以前很多金融、政务、医疗、大型企业,因为数据敏感性,只能眼巴巴看着云端闭源模型干瞪眼。现在Ring-2.6-1T直接把执行级思考能力放在了自己手里。 本地部署门槛也已经大幅降低,结合MoE架构和优化后,很多中大型企业完全可以把最强Agent能力跑在自家机房。 模型已在以下地址上线: Hugging Face:https://huggingface.co/inclusionAI/Ring-2.6-1T ModelScope:https://modelscope.ai/models/inclusionAI/Ring-2.6-1T 如果你在做企业Agent、内部自动化或者对数据安全要求极高,这波开源值得立刻去试。

译蚂蚁集团AGI团队开源了万亿参数旗舰思考模型Ring-2.6-1T。该模型专为处理Agent工作流、代码工程、长时序执行等复杂任务设计,具备上下文理解、规划与工具调用能力,并提供高效与极致两种推理模式。其采用IcePop算法稳定训练,并借助MoE架构降低部署门槛。完全开源允许企业将模型部署于本地或端侧,确保数据不出域,有效解决了金融、政务等敏感领域对数据安全与合规的迫切需求。模型已在Hugging Face和ModelScope平台发布。

查看原推 ↗
Artificial Analysis@ArtificialAnlys · 5月15日62

China Mobile has just released JT-35B-Flash, a proprietary 35B non-reasoning model with relatively high token efficiency and competitive intelligence for its size (Artificial Analysis Intelligence Index of 36) This represents a significant upgrade from China Mobile's previous JT-MINI, with an Intelligence Index improvement of +11 points (25 → 36). China Mobile is one of the world's largest telecommunications companies, and JT-35B-Flash is a sign of their continued focus on AI. Key results: ➤ JT-35B-Flash scores 36 on the Intelligence Index, an +11 point improvement from JT-MINI (25). While still behind frontier models overall, the model shows China Mobile's progression in developing more capable proprietary models. The 35B parameter count represents a significant scale-up from JT-MINI. ➤ JT-35B-Flash outperforms JT-MINI with significantly in AA-Omniscience, with a +42 improvement in score. This is driven by both lower hallucination rate (63%) as well as higher accuracy (28%). ➤ JT-35B-Flash leads in τ²-Bench with 99%, ahead of GLM-4.7-Flash (Reasoning, 98%) and other top performers. τ²-Bench measures tool use in customer service scenarios, making this particularly relevant for China Mobile's telecommunications business. This represents the highest score measured on this evaluation across models we benchmark. ➤ JT-35B-Flash achieves an Agentic Index score of 52, driven primarily by its exceptional τ²-Bench performance. GDPval-AA reaches 1076, indicating competent real-world task execution capabilities for a model at this Intelligence Index level. ➤ JT-35B-Flash demonstrates high token efficiency, even compared to other non-reasoning models, using ~17M output tokens to run the Intelligence Index. This positions JT-35B-Flash as an efficient inference option compared to reasoning-enabled alternatives. Model details: ➤ Context window: 256K tokens ➤ Availability: Currently primarily available to China Mobile’s enterprise customers

译中国移动近日发布了专有的350亿参数非推理模型JT-35B-Flash,其Artificial Analysis智能指数达到36,较前代JT-MINI大幅提升11分。该模型在面向电信客服场景的工具使用评测τ²-Bench中以99%的得分领先,并展现出较高的令牌效率,运行智能指数仅消耗约1700万输出令牌。JT-35B-Flash拥有256K上下文窗口,目前主要面向企业客户提供。作为全球主要电信运营商,此举标志着中国移动在开发更强大专有模型方面的持续投入。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月15日59

Google is set to announce a new Gemini model at its annual I/O conference on Tuesday, with performance believed to be roughly matched with GPT-5.5.

译Google 准备在周二的年度 I/O 大会上宣布一个新的 Gemini 模型,其性能被认为大致与 GPT-5.5 匹配。

查看原推 ↗
Ant Ling@AntLingAGI · 5月14日83

🚀 Ring-2.6-1T is now open source. A trillion-scale flagship thinking model built for real-world complex tasks: Agent workflows, coding & engineering, long-horizon tasks, complex reasoning, research, and enterprise automation. It is designed to move beyond “answering” toward execution: understanding context, planning steps, calling tools, and staying stable across long task chains. Highlights: - Advanced agentic workflow support. - Reasoning effort levels: high for agentic tasks, xhigh for complex reasoning. - Scalable asynchronous RL via the IcePop algorithm, enabling stable, trillion-scale training for long-horizon agentic RL.

译Ring-2.6-1T 正式开源,这是一个专为现实世界复杂任务构建的万亿规模旗舰思考模型。其设计目标超越单纯的“回答”,转向任务执行,能够理解上下文、规划步骤、调用工具,并在长任务链中保持稳定。模型重点支持高级智能体工作流,提供不同级别的推理努力配置:常规任务采用高级别,复杂推理则启用更高强度。通过 IcePop 算法实现了可扩展的异步强化学习,从而支撑了面向长周期智能体任务的稳定万亿规模训练。

查看原推 ↗
Chubby♨️@kimmonismus · 5月14日58

Rumors about the new Gemini Flash coming in. And holy, if true then big: 92% of GPT-5.5’s coding and reasoning performance, reportedly at 15–20x lower inference cost. And the latency? Sub-200ms for most queries. That would be nuts. no joke.

译传闻即将发布的Gemini 3.2 Flash模型在编码和推理任务上达到了GPT-5.5约92%的性能水平,同时推理成本降低了15至20倍。其延迟表现也极为出色,多数查询响应时间低于200毫秒。这主要得益于DeepMind的蒸馏和稀疏化技术,成功将前沿模型压缩为“Flash”变体,而避免了通常伴随的质量大幅下降。

查看原推 ↗
SenseTime@SenseTime_AI · 5月14日77

Led by our Co‑Founder and Chief Scientist Dr. @lindahua , our passionate AI pioneers have brought vision to life.🔥 Access the 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨𝟭 𝘁𝗲𝗰𝗵𝗻𝗶𝗰𝗮𝗹 𝗿𝗲𝗽𝗼𝗿𝘁 for the architecture, training recipe, and innovations behind this breakthrough.

译由联合创始人兼首席科学家李沐博士领导的团队发布了SenseNova U1技术报告,详细阐述了其架构、训练方案与创新突破。此次开源同步发布了基于混合专家模型(MoE)的新权重,旨在推动AI领域的透明度、可复现性与进一步创新。团队希望通过开放共享促进整个社区的技术发展。

查看原推 ↗
Chubby♨️@kimmonismus · 5月14日48

Lets go: Google’s next Gemini model is expected to compete with GPT-5.5 Google is reportedly preparing to unveil a new Gemini model at I/O, positioning it near OpenAI’s recent GPT-5.5 rather than the more elusive Anthropic Mythos. Google i/o got even more exciting

译让我们开始:Google 的下一个 Gemini 模型预计将与 GPT-5.5 竞争。 据报道,Google 正准备在 I/O 上发布一个新的 Gemini 模型,将其定位接近 OpenAI 最近的 GPT-5.5,而不是更难以捉摸的 Anthropic Mythos。 Google I/O 变得更加令人兴奋了。

查看原推 ↗
Kimi.ai@Kimi_Moonshot · 5月14日63

Kimi K2.6 is now open-weight #1 on Finance Agent Benchmark V2.

译Kimi K2.6 现已成为 Finance Agent Benchmark V2 开源权重排名第一。 [引用 @ValsAI]:AI 能胜任金融分析师的工作吗?

查看原推 ↗
Xiaomi MiMo@XiaomiMiMo · 5月14日60

Wow, this is honestly exciting to see! Thanks to Design Arena and everyone who tested MiMo V2.5 Pro. We’ll keep building and improving 🚀

译MiMo V2.5 Pro (Thinking) 模型在Design Arena的开放权重模型总排行榜中位列第三,相比前代MiMo-V2.5跃升了8个名次。其在前端编码任务上的表现已与Claude Sonnet 4.6处于同一性能区间。团队对测试者表示感谢,并承诺将持续改进模型。

查看原推 ↗
Krea@krea_ai · 5月14日73

sharing more Krea 2 access codes! K2-NF55KA / K2 TCA7ZX / TMYVGV – each one will work for 80 users. link for redeeming them below 👇

译分享更多 Krea 2 内测码! K2-NF55KA / K2 TCA7ZX / TMYVGV – 每个码可供80位用户使用。 兑换链接如下 👇 [引用 @krea_ai]:this is Krea 2.

查看原推 ↗
Berryxia.AI@berryxia · 5月14日56

Google Gemini 3.2 Pro 和Flash 已经蓄势待发了。 每次都是这几个Case 真的烦了,能不能整点炸裂一点的Case。 据说是就近期要发布, 但是看着样子也是赶鸭子上架,应该放鸽子啥的也是常有的事儿。

译Google Gemini 3.2 Pro 和Flash 已经蓄势待发了。 每次都是这几个Case 真的烦了,能不能整点炸裂一点的Case。 据说是就近期要发布, 但是看着样子也是赶鸭子上架,应该放鸽子啥的也是常有的事儿。

查看原推 ↗
Alibaba Cloud@alibaba_cloud · 5月14日63

What if AI characters could remember, empathize & proactively engage? ✨ The future of interactive AI is here. Whether you're building for games, virtual AI companions, or adaptive learning, Qwen-Character powers immersive role-play experiences that drive 50%+ deeper engagement and boost user LTV 👉 See how it works in the full video: https://int.alibabacloud.com/m/1000412854/ #AlibabaCloud #Qwen #QwenCharacter #ModelStudio #AI

译如果AI角色能够记忆、共情并主动交互呢?✨ 交互式AI的未来已来。无论您是为游戏、虚拟AI伴侣还是自适应学习进行开发,Qwen-Character都能打造沉浸式角色扮演体验,推动参与度加深50%以上并提升用户终身价值 👉 观看完整视频了解运作原理:https://int.alibabacloud.com/m/1000412854/ #AlibabaCloud #Qwen #QwenCharacter #ModelStudio #AI

查看原推 ↗
Krea@krea_ai · 5月14日73

Krea 2 access code drop! K2-PRFUF8 / K2-NRWW9E / K2-CAP48S – each one has 50 uses. access link below 👇

译Krea 2 访问码发放! K2-PRFUF8 / K2-NRWW9E / K2-CAP48S – 每个码可使用50次。 访问链接如下 👇 [引用 @krea_ai]:this is Krea 2. our first foundation model, built completely from scratch for aesthetic diversity and stylistic control. learn more and get early access 👇

查看原推 ↗
Chubby♨️@kimmonismus · 5月14日65

GPT-5.6 arriving *that quick* was not on my bingo card.

译GPT-5.6 来得那么快,这不在我的预料之中。

查看原推 ↗
SenseTime@SenseTime_AI · 5月13日72

🔥 New week, New 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭 Drop — and this one goes Deep!🔥 📄 𝗧𝗵𝗲 𝗳𝘂𝗹𝗹 𝗧𝗲𝗰𝗵𝗻𝗶𝗰𝗮𝗹 𝗥𝗲𝗽𝗼𝗿𝘁 𝗶𝘀 𝗢𝗨𝗧 — the most detailed disclosure yet of how to build a frontier Native Multimodal Model. Inside: ✨ Near-lossless visual interface (no VEs, no VAEs) ✨ Native Multimodal Unified Modeling ✨ Joint AR + pixel-space flow matching training ✨ Native Mixture-of-Transformers backbone ✨ 6-stage training recipe + RL post-training + distillation If you work on NMM, this is the playbook. 🤗 One more thing: 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭-𝗔𝟯𝗕-𝗠𝗼𝗧 (𝟯𝟴𝗕-𝗔𝟯𝗕 𝗠𝗼𝗘) 𝘄𝗲𝗶𝗴𝗵𝘁𝘀 𝗮𝗿𝗲 𝗻𝗼𝘄 𝗼𝗽𝗲𝗻-𝘀𝗼𝘂𝗿𝗰𝗲𝗱 — a RARE native unified model on an MoE backbone (Only 3B active! Lightning Fast⚡) 📄 Tech Report: https://arxiv.org/abs/2605.12500 🤗 Daily Papers (Vote & Discuss): https://huggingface.co/papers/2605.12500 🤗 Models: https://huggingface.co/collections/sensenova/sensenova-u1 💻 Code: https://github.com/OpenSenseNova/SenseNova-U1 🎮 Demo: https://unify.light-ai.top 👾 Discord: https://discord.com/invite/BuTXPHmQub

译SenseNova-U1 技术报告详尽披露了构建前沿原生多模态模型的方法,核心包括原生多模态统一建模、无损视觉接口、联合自回归与像素空间流匹配训练、以及原生混合专家骨干网络。报告提供了六阶段训练方案、强化学习后训练与蒸馏的完整实践指南。其开源版本 SenseNova-U1-A3B-MoT 基于混合专家架构,仅激活30亿参数,实现了高效快速的性能。相关资源已全面开放,涵盖技术报告、模型权重、代码和演示平台。

查看原推 ↗
Tencent Hy@TencentHunyuan · 5月13日76

Hy3 preview is now on @gmi_cloud. 🙌

译Hy3 预览版现已登陆 @gmi_cloud。🙌

查看原推 ↗
Berryxia.AI@berryxia · 5月13日65

兄弟们!Jina 今天直来了个大 的! Jina-embeddings-v5-omni 来了! 这是他们首个真正支持 text + image + audio + video 的统一 Embedding 模型!(多模态的EMB~!) 两个尺寸: Small(1.57B,1024维,32K 上下文) Nano(0.95B,768维,8K 上下文) 还支持 Matryoshka 截断到 32 维,超级灵活。 最爽的是完全向后兼容:你原来的 v5-text 索引不用动,直接换成 omni 就能开始搜图片、音频、视频了!同一向量空间,无需 reindexing。 性能也很猛,小模型就打平甚至超越好几个参数量大几倍的开源模型。 现在已经在 Hugging Face、Jina API、Elastic Inference Service 上架了。 这波多模态 embedding 真的要爽了兄弟们! 你们已经在做多模态 RAG 或者多媒体搜索了吗?😂

译Jina发布了其首个统一的多模态Embedding模型jina-embeddings-v5-omni,能够处理文本、图像、音频和视频。模型提供Small和Nano两种尺寸,分别具有1.57B和0.95B参数,并支持Matryoshka截断技术。关键优势在于完全向后兼容:现有jina-embeddings-v5-text的索引无需重新构建,可直接替换为v5-omni,在同一向量空间内实现对多媒体内容的搜索。该模型性能强劲,小尺寸即可媲美或超越参数量更大的开源模型。目前已上线Hugging Face、Jina API和Elastic Inference Service。

查看原推 ↗
DogeDesigner@cb_doge · 5月13日57

xAI’s Grok Voice Think Fast 1.0 just hit the #1 spot with a 73.7% score on Telecom Pass@1 🥇

译xAI的Grok Voice Think Fast 1.0刚刚以73.7%的得分在Telecom Pass@1评测中夺得第一名🥇

查看原推 ↗
StepFun@StepFun_ai · 5月13日72

🚀 Step Image Edit 2 is live!! A 3.5B-parameter image model that ranks #1 on KRIS-Bench —the leading benchmark for instruction-based image editing —across overall, factual, and conceptual categories. It outperforms models at 5–6x the parameter count. Performance - 0.7s text-to-image - 1.6s per edit - $0.003 per image Capabilities → Text-to-image generation → Instruction-based image editing → Bilingual text rendering (accurate Chinese + English characters) → Style transfer with subject consistency Get started Model ID: `step-image-edit-2` Available now on the Stepfun open platform. docs→https://platform.stepfun.ai/docs/en/guides/models/step-image-edit-2

译Step Image Edit 2模型正式发布。这是一个35亿参数的图像模型,在指令式图像编辑的权威基准KRIS-Bench中,于综合、事实和概念类别均排名第一,性能超越参数量为其5-6倍的模型。其核心能力包括文生图、基于指令的图像编辑、精准的中英双语文字渲染以及保持主体一致性的风格迁移。该模型生成速度快,单次编辑成本低,目前已上线Stepfun开放平台。

查看原推 ↗
ClaudeDevs@ClaudeDevs · 5月13日76

Fast mode for Claude Opus 4.7 is now available in research preview on the API and in Claude Code.

译Claude Opus 4.7的快速模式现已在API和Claude Code中开放研究预览。

查看原推 ↗
OpenRouter@OpenRouter · 5月13日69

Perceptron Mk1 is live on OpenRouter, built by @perceptroninc. Frontier video and embodied reasoning in a vision-language model. Analyzes video at a dynamic frame rate (up to 2 FPS) across a 32k multimodal context, with hybrid reasoning and structured spatial primitives (points, boxes, polygons, clips) as first-class outputs.

译Perceptron Mk1已在OpenRouter上线,由@perceptroninc开发。 前沿视频与具身推理的视觉语言模型。以动态帧率(最高2 FPS)分析视频,具备32k多模态上下文,采用混合推理和结构化空间基元(点、框、多边形、片段)作为首要输出。

查看原推 ↗
Krea@krea_ai · 5月12日68

this is Krea 2. our first foundation model, built completely from scratch for aesthetic diversity and stylistic control. learn more and get early access 👇

译这是Krea 2。 我们的首个基础模型,完全从零构建,旨在实现美学多样性和风格控制。 了解更多并获取早期访问权限👇

查看原推 ↗
Microsoft Research@MSFTResearch · 5月12日62

MatterSim is expanding what AI can do for materials science—from faster large-scale simulations to MatterSim-MT, a new multi-task model for simulating properties beyond potential energy surfaces alone. https://msft.it/6017vPamT

译MatterSim正在拓展AI在材料科学中的应用边界——从更快速的大规模模拟,到全新多任务模型MatterSim-MT,可模拟超越势能面的多种物性。https://msft.it/6017vPamT

查看原推 ↗
SenseTime@SenseTime_AI · 5月12日62

Thank you for the warm reception from the developer community — it means a great deal to us. 👐 SenseNova U1 efficiently unifies language and vision in a single model — semantic understanding, pixel-level generation, and complex infographic creation. Excited to see what you build! @HuggingModels

译SenseNova U1是一款高效统一语言与视觉的单模型,具备语义理解、像素级生成和复杂信息图创作能力。该模型被描述为能够阅读文本、生成图像、编辑照片及处理图文交错任务的“任意到任意”Transformer,如同集成了创意工作室功能,重新定义了多模态AI。开发者社区对其反响热烈。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月12日62

Thinking Machines is replacing turn-taking AI with always-present AI. They just announced TML-Interaction-Small, a 276B-parameter MoE model with 12B active parameters that treats conversation as a live stream instead of a stop-start chat box. Most AI voice systems still behave like walkie-talkies: you speak, they wait, they answer, then their view of the world freezes while they talk. Thinking Machines changes that by slicing audio, video, and text into 200ms micro-turns, so the model can listen, watch, speak, draw, search, and call tools while the interaction is still happening. This is why the demos feel different: the model can interrupt when context demands it, keep talking while listening, react to visual cues, track elapsed time, and hand harder work to a background model without vanishing from the conversation. The architecture is also cleaner than many current real-time systems because interactivity is trained into the model itself rather than patched together with voice detectors, turn detectors, separate speech models, and timing rules. The early numbers are strong: 0.40s turn-taking latency, 77.8 on FD-bench V1.5 interaction quality, and 43.4% on Audio MultiChallenge, which means it is not just fast, it still retains useful reasoning and instruction-following ability. The model can notice timing, silence, overlap, gestures, screen changes, and uncertainty as part of the same context.

译Thinking Machines公司发布了TML-Interaction-Small模型,旨在以“始终在场”的AI取代传统的轮替式对话AI。该模型采用混合专家架构,将音频、视频和文本流切分为200毫秒的微轮次,使其能在交互过程中并行执行聆听、观看、说话、绘图、搜索及调用工具等操作。其核心设计理念是让人工智能像人类一样实时并行处理多任务。模型在保持低延迟(0.40秒)的同时,保留了强大的推理与指令遵循能力,且交互性直接内建于模型架构,而非依赖外部组件拼凑实现。

查看原推 ↗
歸藏(guizang.ai)@op7418 · 5月12日71

前 OpenAI CTO Mira 的公司 Thinking Machines 发了一个非常创新的模型,他们叫交互模型。 这个模型能够持续接收音频、视频、文本等原生的多模态内容,并且实时进行思考、响应和行动。 它不像之前那种 Agent 脚手架,把多个模型、多个模态的模型通过 Agent 串起来,而是所有模态都在一整个模型里。 这样就可以让用户和 AI 在任意模态下实时进行交互: 你可以随时打断它,随时进行补充,AI 会实时关注你的状态,输出结果,不会像之前一样,必须等一句话结束了才能跟模型交互。 核心思路就是把交互部分训练到了模型里。他们从零训练的这个交互模型主要包括两部分: 前台交互模型: (a) 一直在线,一直在听、看和读用户提供的内容 (b) 每 200 毫秒作为一个节点,同时处理输入并产出一小段输出 (c) 负责照顾用户的在场感,支持用户打断、插话,并能对屏幕和视频内容做出反应 后台推理模型: (a) 用来处理需要持续推理、工具调用以及长上下文、长规划的任务 (b) 交互模型会在合适的时候,将推理模型的结果放回到对话里,不会插入突兀的内容 用户最终看到的结果,就是一个既能实时交互,又能够处理重度任务的界面。

译前OpenAI CTO Mira创立的Thinking Machines公司发布了一种创新的“交互模型”。该模型能原生、持续地接收音频、视频和文本等多模态输入,并实时思考与响应,而非通过Agent串联多个独立模型。其架构分为两部分:前台交互模型以200毫秒为节点处理输入并维持用户“在场感”,支持随时打断;后台推理模型则处理长程规划、工具调用等复杂任务。两者协同工作,最终呈现为一个既能实时交互又能处理重度任务的统一界面。

查看原推 ↗
歸藏(guizang.ai)@op7418 · 5月12日50

谷歌看起来要发布 Veo 4 了,也有可能是其他的名字。 类似 Seedance 2.0 的全能参考,支持对视频进行:修改参考和内容替换 质量上看起来,在文字生成上要比 Seedance 2.0 稍微好点,但在其他方面看不出更好的质量,可能在清晰度和细节上也会稍微好点。

译谷歌可能即将推出新一代视频生成模型,暂称Veo 4或类似名称。该模型被描述为类似Sora 2.0的全能参考模型,支持对现有视频进行修改参考和内容替换等操作。在文字生成质量上,它被认为比Sora 2.0略有优势,清晰度和细节可能也稍有提升。据透露,这款即将到来的Gemini Omni视频模型在视频编辑功能上将更为先进,能够完成去除水印、替换视频内物体等复杂任务。谷歌预计会发布该模型的两个版本,包括一个性能更强的Pro变体,而目前展示的样本可能并非Pro版本。

查看原推 ↗
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月17日
06:54
Berryxia.AI@berryxia
63
Claude Mythos模型悄然现身Google Cloud Console,预示企业级发布

Claude Mythos模型近日悄然出现在Google Cloud Console中,其预览标签已消失,发布模式与之前Opus 4.7类似,预示可能即将正式落地。Anthropic曾称该模型“太危险”不适合公开发布,但目前迹象表明,公司可能不会推出公开版本,而是转而作为模型提供商,通过Google Cloud Platform让已接入的企业客户直接在自有环境中调用和使用。这一举动被视为Anthropic以最安静的方式将其高级思考模型推向生产环境,并逆转了此前关于该模型危险的叙事。

🚨 AI News | TestingCatalog: ANTHROPIC 🔥: Claude Mythos model has been spotted on Google Cloud Console. -claude-mythos 👀 It is hard to imagine that...

Anthropic推理模型发布
05:43
🚨 AI News | TestingCatalog@testingcatalog
65
Anthropic的Claude Mythos模型已被发现在谷歌云控制台出现,且其预览标签已消失。这一迹象与之前Opus 4.7发布前的模式相似,引发了关于Anthropic可能准备公开发布该模型的猜测。尽管作者认为Anthropic改变主意直接向公众发布的可能性不大,但推测其可能作为模型提供商,为有权限的公司提供在谷歌云平台上运行该模型的服务。

AiBattle: Claude Mythos now appears in the Google Cloud console, which was not the case yesterday The preview label is also gone. ...

Anthropic模型发布
00:51
Ant Ling@AntLingAGI
精选80
又一次Day0协作,又一次社区胜利。感谢@vllm_project团队始终可靠的支持~ 🫡🫡

vLLM: Congrats to @AntLingAGI on Ring-2.6-1T going open! 🎉 The thinking sibling of Ling-2.6-1T - trillion-scale, built for ag...

智能体开源生态推理模型发布

推荐理由:蚂蚁百灵把万亿参数的 thinking 模型开源,vLLM 第一天就能跑,想自己搭 agent 推理服务的可以直接动手了,开源生态的齿轮转得比想象中快。
00:51
Ant Ling@AntLingAGI
74
Ring-2.6-1T万亿参数旗舰模型正式发布,专注于处理复杂现实世界任务,并在SGLang平台获得Day-0即时支持,得益于与@lmsysorg的合作。该模型具备增强的智能体执行能力,可稳定处理多步骤、工具调用和长流程工作。用户可通过推理努力控制的高与极高模式,灵活调节推理深度、速度和成本。训练采用异步强化学习与IcePop技术,确保万亿参数强化学习训练的效率和稳定性。目前,该模型在OpenRouter平台提供限时75%折扣,供用户体验最新功能。

LMSYS Org: 🎉 Congrats on the release of Ring-2.6-1T, a trillion-parameter flagship for complex, real-world tasks. Day-0 support is...

智能体开源/仓库推理模型发布
关联讨论 1 条蚂蚁 inclusionAI:HuggingFace 新模型
00:51
Ant Ling@AntLingAGI
精选76
蚂蚁集团发布万亿参数推理模型Ring-2.6-1T,专为现实世界智能体工作流构建。该模型采用MIT许可,上下文长度通过YaRN技术从128K扩展至256K,并采用Async RL与IcePop混合训练架构。其核心特点是具备双推理努力模式:"high"模式用于快速智能体循环,"xhigh"模式用于深度推理,旨在实现更好的成本与性能平衡。模型已开源,欢迎社区反馈。

Adina Yakup: Ant group just dropped Ring-2.6-1T 🔥 1T reasoning model, built for real world agent workflows. ✨ MIT license ✨ 128K >> ...

智能体Hugging Face开源生态推理
关联讨论 1 条蚂蚁 inclusionAI:HuggingFace 新模型
推荐理由:蚂蚁把1T推理模型以MIT许可开源,还专门为Agent循环做了高低推理双模式,做开源Agent的团队直接多了一个强力基座可选。
00:21
Ant Ling@AntLingAGI
66
Ring-2.6-1T模型现已开源,并上线OpenRouter平台,5月底前享有75%折扣。该模型由AntLingAGI开发,是一个为现实世界智能体构建的万亿级推理模型,其核心设计目标不仅是回答问题,更是执行任务。它专注于规划步骤、使用工具、维持上下文和完成复杂工作流,具备强大的智能体执行能力和高推理模式,并采用了Async RL与IcePop训练方法。

Novita AI: 🚀 Ring-2.6-1T is now open source (from @AntLingAGI). Now 90% off on @OpenRouter via @novita_labs - a great time to star...

智能体开源生态推理模型发布
关联讨论 1 条蚂蚁 inclusionAI:HuggingFace 新模型
5月16日
14:42
AYi@AYi_AInotes
70
Anthropic神秘模型Mythos Preview展现颠覆性漏洞挖掘能力

Anthropic的神秘AI模型Mythos Preview在网络安全领域取得突破性进展。该模型仅用五天就成功构造出针对苹果硬件级安全防线MIE的macOS内核漏洞利用程序,而同类任务通常需要Google Project Zero团队平均六个月完成。Mythos不仅能自主阅读代码、提出假设并验证,还能独立完成从漏洞发现到编写完整利用链的全过程。这标志着AI正将漏洞挖掘的技术门槛急剧降低,预示着未来网络安全攻防可能演变为AI之间的自动化竞赛。相关技术报告已提交苹果,修复后将公开。

Anthropic安全/对齐推理模型发布
关联讨论 1 条IT之家(RSS)
02:37
Rohan Paul@rohanpaul_ai
55
Elon Musk表示,Grok基础模型V8与V9之间存在巨大差距。内部开发的V9是一个1.5万亿参数模型,在数据质量、训练方法、规模等各方面均远超V8,并针对Blackwells架构优化,旨在与顶级编码智能体竞争。而当前公开的v4.2版本基于仅0.5万亿参数、在Hoppers上训练的V8基础模型,其训练数据在质量、全面性和均衡性上存在显著不足。

Elon Musk: The version numbers are a little confusing and deserve some explanation. Internally, we are working on version 9 of our ...

数据/训练模型发布
01:07
MiniMax (official)@MiniMax_AI
66
M2.7已在@OrcaRouter上线--可通过单一OpenAI兼容API访问。 今天就来试试吧!🐋

OrcaRouter 🐳: MiniMax M2.7 is now on OrcaRouter 🐋 One of the strongest open-source models available today - now accessible through a ...

开源生态模型发布
00:22
SenseTime@SenseTime_AI
62
SenseNova发布增强版信息图表生成模型SenseNova-U1-8B-MoT-Infographic

SenseNova近日推出专为信息图表生成设计的增强模型SenseNova-U1-8B-MoT-Infographic。该模型能够根据指令生成多种视觉格式内容,包括海报、图表、食谱卡、明信片以及学术风格的arXiv页面等。在性能方面,模型在BizGenEval(困难版)和IGenBench(Q-ACC)两项基准测试上表现突出,相比其基础U1模型分别提升了6.8分和18.2分。目前,该模型已在Hugging Face平台开源,并提供了超过100个多样化的生成示例,供开发者和研究者参考与试用。

Hugging Face图像生成模型发布
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)
5月15日
20:54
Berryxia.AI@berryxia
45
Qwen 3.6 Plus & OpenCode 免费开整啊!!!
开源生态模型发布编码
18:27
向阳乔木@vista8
63
面壁智能推出仅1.3B参数的视觉语言模型MiniCPM-V 4.6。该模型采用LLaVA-UHD v4技术,将视觉编码成本降低55%,专为消费级和移动硬件优化,支持高效边缘部署。其在关键多模态和Artificial Analysis基准测试中,性能超越了Gemma4-E2B-it和Qwen3.5-0.8B等更大模型,且仅消耗后者2.5%的token预算。在处理高分辨率图像时,其首token生成时间比Qwen3.5-0.8B快2.2倍,在单张RTX 4090上的token吞吐量约为后者的1.5倍。模型已在Hugging Face、ModelScope等平台开源发布。

OpenBMB: 1/5 MiniCPM-V 4.6 (1.3B) is now live 🚀🚀 High-res visual processing, optimized for consumer-grade and mobile hardware. ...

多模态模型发布端侧
17:41
🚨 AI News | TestingCatalog@testingcatalog
66
GOOGLE 🔥:Gemini Spark新截图展示高级工具使用和技能创建流程。 目前看来除了复制粘贴外,似乎没有导入SKILL MD文件的选项。目前也没有浏览器或计算机使用功能的迹象。

Just a dragon: The new Gemini Spark model will have Agent mode / Chat mode. New advanced use of tools.

智能体GoogleMCP/工具模型发布
12:54
Berryxia.AI@berryxia
70
蚂蚁集团开源万亿参数思考模型Ring-2.6-1T,推动企业级AI本地部署

蚂蚁集团AGI团队开源了万亿参数旗舰思考模型Ring-2.6-1T。该模型专为处理Agent工作流、代码工程、长时序执行等复杂任务设计,具备上下文理解、规划与工具调用能力,并提供高效与极致两种推理模式。其采用IcePop算法稳定训练,并借助MoE架构降低部署门槛。完全开源允许企业将模型部署于本地或端侧,确保数据不出域,有效解决了金融、政务等敏感领域对数据安全与合规的迫切需求。模型已在Hugging Face和ModelScope平台发布。

智能体开源生态推理模型发布
关联讨论 1 条蚂蚁 inclusionAI:HuggingFace 新模型
07:34
Artificial Analysis@ArtificialAnlys
62
中国移动发布专有模型JT-35B-Flash,智能指数显著提升

中国移动近日发布了专有的350亿参数非推理模型JT-35B-Flash,其Artificial Analysis智能指数达到36,较前代JT-MINI大幅提升11分。该模型在面向电信客服场景的工具使用评测τ²-Bench中以99%的得分领先,并展现出较高的令牌效率,运行智能指数仅消耗约1700万输出令牌。JT-35B-Flash拥有256K上下文窗口,目前主要面向企业客户提供。作为全球主要电信运营商,此举标志着中国移动在开发更强大专有模型方面的持续投入。

MCP/工具模型发布
00:06
Rohan Paul@rohanpaul_ai
59
Google 准备在周二的年度 I/O 大会上宣布一个新的 Gemini 模型,其性能被认为大致与 GPT-5.5 匹配。
Google模型发布
5月14日
23:45
Ant Ling@AntLingAGI
83
Ring-2.6-1T开源:万亿级思考模型支持复杂任务执行

Ring-2.6-1T 正式开源,这是一个专为现实世界复杂任务构建的万亿规模旗舰思考模型。其设计目标超越单纯的“回答”,转向任务执行,能够理解上下文、规划步骤、调用工具,并在长任务链中保持稳定。模型重点支持高级智能体工作流,提供不同级别的推理努力配置:常规任务采用高级别,复杂推理则启用更高强度。通过 IcePop 算法实现了可扩展的异步强化学习,从而支撑了面向长周期智能体任务的稳定万亿规模训练。

智能体开源生态推理模型发布
关联讨论 1 条蚂蚁 inclusionAI:HuggingFace 新模型
20:01
Chubby♨️@kimmonismus
58
传闻即将发布的Gemini 3.2 Flash模型在编码和推理任务上达到了GPT-5.5约92%的性能水平,同时推理成本降低了15至20倍。其延迟表现也极为出色,多数查询响应时间低于200毫秒。这主要得益于DeepMind的蒸馏和稀疏化技术,成功将前沿模型压缩为"Flash"变体,而避免了通常伴随的质量大幅下降。

Bindu Reddy: Gemini 3.2 Flash - Capitalizing on DeepMind's clever distillation techniques... Rumors are that benchmarks show it's hit...

Google推理模型发布编码
19:15
SenseTime@SenseTime_AI
精选77
由联合创始人兼首席科学家李沐博士领导的团队发布了SenseNova U1技术报告,详细阐述了其架构、训练方案与创新突破。此次开源同步发布了基于混合专家模型(MoE)的新权重,旨在推动AI领域的透明度、可复现性与进一步创新。团队希望通过开放共享促进整个社区的技术发展。

Dahua Lin: Proud to announce the release of the SenseNova U1 Tech Report - together with the a new set of model weights based on Mo...

开源/仓库开源生态数据/训练模型发布
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)
推荐理由:商汤这次把SenseNova U1的MoE权重和完整技术报告一起开源,比常规PR多了些诚意,做模型选型和微调的值得翻翻。
16:01
Chubby♨️@kimmonismus
48
让我们开始:Google 的下一个 Gemini 模型预计将与 GPT-5.5 竞争。 据报道,Google 正准备在 I/O 上发布一个新的 Gemini 模型,将其定位接近 OpenAI 最近的 GPT-5.5,而不是更难以捉摸的 Anthropic Mythos。 Google I/O 变得更加令人兴奋了。
Google模型发布
14:14
Kimi.ai@Kimi_Moonshot
63
Kimi K2.6 现已成为 Finance Agent Benchmark V2 开源权重排名第一。 【引用 @ValsAI】:AI 能胜任金融分析师的工作吗?

Vals AI: Can AI do the job of a financial analyst? We just released V2 of our Finance Agent Benchmark and tested the frontier mod...

智能体模型发布
13:58
Xiaomi MiMo@XiaomiMiMo
60
MiMo V2.5 Pro (Thinking) 模型在Design Arena的开放权重模型总排行榜中位列第三,相比前代MiMo-V2.5跃升了8个名次。其在前端编码任务上的表现已与Claude Sonnet 4.6处于同一性能区间。团队对测试者表示感谢,并承诺将持续改进模型。

Design Arena: BREAKING: MiMo V2.5 Pro (Thinking) takes 3rd overall out of open weights models on Design Arena. MiMo V2.5 Pro (Thinking...

推理编码评测/基准
关联讨论 1 条X:小米 MiMo (@XiaomiMiMo)
13:32
Krea@krea_ai
73
分享更多 Krea 2 内测码! K2-NF55KA / K2 TCA7ZX / TMYVGV - 每个码可供80位用户使用。 兑换链接如下 👇 【引用 @krea_ai】:this is Krea 2.

Krea: this is Krea 2. our first foundation model, built completely from scratch for aesthetic diversity and stylistic control....

图像生成模型发布
09:51
Berryxia.AI@berryxia
56
Gemini 3.2 Pro与Flash发布在即,案例重复引不满

Google Gemini 3.2 Pro 和Flash 已经蓄势待发了。 每次都是这几个Case 真的烦了,能不能整点炸裂一点的Case。 据说是就近期要发布, 但是看着样子也是赶鸭子上架,应该放鸽子啥的也是常有的事儿。

can: 🚨 FIRST GEMINI 3.2 PRO OUTPUTS From yours truly. I'll share more today, I can test your prompts too if you guys want. I...

Google多模态模型发布
04:01
Alibaba Cloud@alibaba_cloud
63
如果AI角色能够记忆、共情并主动交互呢?✨ 交互式AI的未来已来。无论您是为游戏、虚拟AI伴侣还是自适应学习进行开发,Qwen-Character都能打造沉浸式角色扮演体验,推动参与度加深50%以上并提升用户终身价值 👉 观看完整视频了解运作原理:https://int.alibabacloud.com/m/1000412854/ #AlibabaCloud #Qwen #QwenCharacter #ModelStudio #AI
智能体模型发布
01:31
Krea@krea_ai
精选73
Krea 2 访问码发放! K2-PRFUF8 / K2-NRWW9E / K2-CAP48S - 每个码可使用50次。 访问链接如下 👇 【引用 @krea_ai】:this is Krea 2. our first foundation model, built completely from scratch for aesthetic diversity and stylistic control. learn more and get early access 👇

Krea: this is Krea 2. our first foundation model, built completely from scratch for aesthetic diversity and stylistic control....

图像生成模型发布

推荐理由:Krea 从套壳到自研模型这一步走得关键,专攻美学多样性和风格控制,对设计师来说是个值得立刻上手试的新选择。
00:29
Chubby♨️@kimmonismus
65
GPT-5.6 来得那么快,这不在我的预料之中。

leo 🐾: 🚨 SCOOP: The development cycle for GPT-5.6 is now in full swing at OpenAI. The first checkpoints of the model began tes...

OpenAI模型发布
5月13日
14:43
SenseTime@SenseTime_AI
精选72
SenseNova-U1 技术报告深度发布:前沿原生多模态模型构建全指南

SenseNova-U1 技术报告详尽披露了构建前沿原生多模态模型的方法,核心包括原生多模态统一建模、无损视觉接口、联合自回归与像素空间流匹配训练、以及原生混合专家骨干网络。报告提供了六阶段训练方案、强化学习后训练与蒸馏的完整实践指南。其开源版本 SenseNova-U1-A3B-MoT 基于混合专家架构,仅激活30亿参数,实现了高效快速的性能。相关资源已全面开放,涵盖技术报告、模型权重、代码和演示平台。

多模态开源/仓库模型发布
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)
推荐理由:商汤把原生多模态模型的训练细节全公开了,无视觉编码器、原生MoE架构,还开源了38B-A3B权重,做多模态模型的可以直接照着技术报告复现。
11:55
Tencent Hy@TencentHunyuan
精选76
Hy3 预览版现已登陆 @gmi_cloud。🙌

GMI Cloud: Hy3 preview from @TencentHunyuan is now live on GMI #1 on OpenRouter's LLM leaderboard, open-sourced, and the strongest ...

智能体开源生态推理模型发布

推荐理由:腾讯混元 Hy3 开源且登顶 OpenRouter 排行榜,295B MoE 架构在推理和代码上提升明显,不是小厂的刷榜产品,搞 agent 和 coding 的可以认真试试。
08:49
Berryxia.AI@berryxia
65
Jina发布首个统一多模态Embedding模型v5-omni

Jina发布了其首个统一的多模态Embedding模型jina-embeddings-v5-omni,能够处理文本、图像、音频和视频。模型提供Small和Nano两种尺寸,分别具有1.57B和0.95B参数,并支持Matryoshka截断技术。关键优势在于完全向后兼容:现有jina-embeddings-v5-text的索引无需重新构建,可直接替换为v5-omni,在同一向量空间内实现对多媒体内容的搜索。该模型性能强劲,小尺寸即可媲美或超越参数量更大的开源模型。目前已上线Hugging Face、Jina API和Elastic Inference Service。

Jina AI: jina-embeddings-v5-omni is here! Our first universal embedding model for text, images, audio, and video. Available in tw...

Hugging Face检索增强多模态开源生态
05:03
DogeDesigner@cb_doge
57
xAI的Grok Voice Think Fast 1.0刚刚以73.7%的得分在Telecom Pass@1评测中夺得第一名🥇
xAI模型发布语音
03:54
StepFun@StepFun_ai
72
Step Image Edit 2图像模型发布,性能领先且高效

Step Image Edit 2模型正式发布。这是一个35亿参数的图像模型,在指令式图像编辑的权威基准KRIS-Bench中,于综合、事实和概念类别均排名第一,性能超越参数量为其5-6倍的模型。其核心能力包括文生图、基于指令的图像编辑、精准的中英双语文字渲染以及保持主体一致性的风格迁移。该模型生成速度快,单次编辑成本低,目前已上线Stepfun开放平台。

图像生成多模态模型发布
02:30
ClaudeDevs@ClaudeDevs
精选76
Claude Opus 4.7的快速模式现已在API和Claude Code中开放研究预览。
Anthropic推理模型发布编码
关联讨论 2 条X:Claude Devs (@ClaudeDevs)X:OpenRouter (@OpenRouter)
推荐理由:Opus 4.7 加推 Fast mode,编程场景延迟会降一大截,Claude Code 可以直接用,对天天在终端敲代码的人是个实在提升。
00:33
OpenRouter@OpenRouter
精选69
Perceptron Mk1已在OpenRouter上线,由@perceptroninc开发。 前沿视频与具身推理的视觉语言模型。以动态帧率(最高2 FPS)分析视频,具备32k多模态上下文,采用混合推理和结构化空间基元(点、框、多边形、片段)作为首要输出。
多模态推理模型发布

推荐理由:将视频理解提升到结构化空间输出,动态帧率分析让模型能真正「看懂」动作,做具身智能的开发者可以关注。
5月12日
22:30
Krea@krea_ai
精选68
这是Krea 2。 我们的首个基础模型,完全从零构建,旨在实现美学多样性和风格控制。 了解更多并获取早期访问权限👇
图像生成模型发布

推荐理由:Krea 终于自研基础模型了,而且是从零开始做,专门为美学多样性和风格控制优化的,对做视觉内容的人来说多了一个风格自由度的选择,值得试试 early access。
21:31
Microsoft Research@MSFTResearch
62
MatterSim正在拓展AI在材料科学中的应用边界--从更快速的大规模模拟,到全新多任务模型MatterSim-MT,可模拟超越势能面的多种物性。https://msft.it/6017vPamT
Microsoft模型发布
12:42
SenseTime@SenseTime_AI
62
SenseNova U1是一款高效统一语言与视觉的单模型,具备语义理解、像素级生成和复杂信息图创作能力。该模型被描述为能够阅读文本、生成图像、编辑照片及处理图文交错任务的"任意到任意"Transformer,如同集成了创意工作室功能,重新定义了多模态AI。开发者社区对其反响热烈。

Hugging Models: Imagine a single AI that can read text, generate images, edit photos, and even handle interleaved text+image tasks. Sens...

多模态模型发布
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)
12:01
Rohan Paul@rohanpaul_ai
62
Thinking Machines 推出"始终在场"AI模型,革新传统轮替式交互

Thinking Machines公司发布了TML-Interaction-Small模型,旨在以“始终在场”的AI取代传统的轮替式对话AI。该模型采用混合专家架构,将音频、视频和文本流切分为200毫秒的微轮次,使其能在交互过程中并行执行聆听、观看、说话、绘图、搜索及调用工具等操作。其核心设计理念是让人工智能像人类一样实时并行处理多任务。模型在保持低延迟(0.40秒)的同时,保留了强大的推理与指令遵循能力,且交互性直接内建于模型架构,而非依赖外部组件拼凑实现。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态模型发布语音
10:49
歸藏(guizang.ai)@op7418
71
Thinking Machines发布原生多模态"交互模型",实现实时人机协作

前OpenAI CTO Mira创立的Thinking Machines公司发布了一种创新的“交互模型”。该模型能原生、持续地接收音频、视频和文本等多模态输入,并实时思考与响应,而非通过Agent串联多个独立模型。其架构分为两部分:前台交互模型以200毫秒为节点处理输入并维持用户“在场感”,支持随时打断;后台推理模型则处理长程规划、工具调用等复杂任务。两者协同工作,最终呈现为一个既能实时交互又能处理重度任务的统一界面。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态推理模型发布
10:49
歸藏(guizang.ai)@op7418
50
谷歌或即将发布新一代视频模型Veo 4,功能全面升级

谷歌可能即将推出新一代视频生成模型,暂称Veo 4或类似名称。该模型被描述为类似Sora 2.0的全能参考模型,支持对现有视频进行修改参考和内容替换等操作。在文字生成质量上,它被认为比Sora 2.0略有优势,清晰度和细节可能也稍有提升。据透露,这款即将到来的Gemini Omni视频模型在视频编辑功能上将更为先进,能够完成去除水印、替换视频内物体等复杂任务。谷歌预计会发布该模型的两个版本,包括一个性能更强的Pro变体,而目前展示的样本可能并非Pro版本。

🚨 AI News | TestingCatalog: GOOGLE 🔥: An upcoming Gemini Omni video model from Google is expected to be much more advanced in video editing, capabl...

Google模型发布视频
‹ 上一页
1…910111213…16
下一页 ›