AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
最新一期2026-06-12
2026 年 6 月12
  • 12 日Gemini Omni Flash 视频任务达 SOTA
  • 11 日DiffusionGemma:文本生成速度提升4倍的开源扩散模型
  • 10 日Claude Fable 5 和 Claude Mythos 5
  • 9 日小米 MiMo-V2.5-Pro-UltraSpeed 突破 1,000 tokens/s,单台 8-GPGPU 节点运行 1T MoE 模型
  • 8 日Harness-1:基于强化学习训练的有状态搜索20B检索子智能体
  • 7 日GitHub 开源 Spec Kit 工具包,用产品规范引导 AI 编码
  • 6 日Riverflow 2.5:可控制评分标准的图像模型
  • 5 日Nemotron 3.5 Content Safety:面向全球企业AI的可定制多模态安全
  • 4 日Grok Imagine 1.5 预览版发布
  • 3 日微软首款高级推理AI模型MAI-Thinking-1发布
  • 2 日MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型
  • 1 日OpenAI发布生物防御AI工具Rosalind
2026 年 5 月31
  • 31 日Nano Banana Pro与Nano Banana 2正式发布
  • 30 日OpenAI推出实时翻译模型,支持70+语言输入
  • 29 日Claude Opus 4.8 发布:在编码、智能体技能与推理方面实现全面升级
  • 28 日Runway 推出 Model Context Protocol 服务器
  • 27 日谷歌 AI 框架 AlphaProof Nexus 攻克 2 道悬置 56 年数学难题
  • 26 日面壁智能联合清华等开源中国首个基于华为昇腾训练的 1.58-bit 端侧大模型 BitCPM-CANN
  • 25 日Luma Agents 实现规模化真实 UGC 广告生成
  • 24 日StepAudio 2.5实时语音发布:副语言感知与人格化交互
  • 23 日首个基于华为昇腾910B NPU全栈训练的1.58比特开源大模型BitCPM-CANN发布
  • 22 日Aleph 2.0 与 Edit Studio
  • 21 日Qwen3.7:智能体前沿
  • 20 日I/O 2026: 欢迎来到自主的 Gemini 时代
  • 19 日阿里云推出HappyHorse视频生成模型
  • 18 日Grok Imagine图像生成功能正式发布
  • 17 日社区协作再创佳绩,vLLM支持万亿级模型
  • 16 日MiniMax M2.7模型上线OrcaRouter平台
  • 15 日SenseNova U1技术报告发布,基于MoE架构开放模型权重
  • 14 日Hy3预览版登陆GMI,开源最强模型领跑
  • 13 日Claude Opus 4.7快速模式开放研究预览
  • 12 日SenseNova U1图像生成模型登陆ComfyUI平台
  • 11 日OpenCode x Ring 2.6 1T限时免费开放
  • 10 日ERNIE 5.1发布,预训练成本仅需对标模型6%
  • 9 日Ring-2.6-1T发布:万亿参数思维模型专为复杂任务设计
  • 8 日通过 API 中的新模型推进语音智能
  • 7 日SenseNova-U1开源8步蒸馏LoRA,推理速度大幅提升
  • 6 日GPT-5.5 Instant:更智能、更清晰、更个性化
  • 5 日语音克隆技术上线 真假难辨
  • 4 日从单张图像构建实时视频智能体:Runway Characters技术解析
  • 3 日模型别名新增"-latest"指向最新版本
  • 2 日GPT-5.5发布一周创营收新高
  • 1 日AntLingAGI开源Ling-2.6-1T模型,登陆Hugging Face平台
2026 年 4 月9
  • 30 日旗舰指令模型快速高效执行的秘诀:可靠基础设施与优化
  • 29 日Mistral AI发布Mistral Medium 3.5模型及Vibe远程编程智能体
  • 28 日小米开源MiMo-V2.5双模型,支持百万上下文与商用
  • 27 日Mistral AI 发布 Workflows 公开预览版,为企业AI工作流提供编排支持
  • 26 日DeepSeek V4模型限时2.5折优惠
  • 25 日迈入百万上下文普惠时代:DeepSeek-V4 模型预览版正式上线并同步开源
  • 24 日OpenAI 最智能 AI 模型:GPT-5.5 登场,Token 成本降至 1/35、每兆瓦输出提升 50 倍
  • 23 日inclusionAI/LLaDA2.0-Uni
  • 22 日inclusionAI/DR-Venus-4B-RL 发布
全部日报 →
AI 日报每早八时
6月12日6月11日6月10日更早
AIHOT DAILY
2026年5月16日 · 周六

1模型发布/更新

MiniMax M2.7模型上线OrcaRouter平台

M2.7已在@OrcaRouter上线——可通过单一OpenAI兼容API访问。 今天就来试试吧!🐋

X:MiniMax (@MiniMax_AI)
SenseNova发布增强版信息图表生成模型SenseNova-U1-8B-MoT-Infographic

SenseNova近日推出专为信息图表生成设计的增强模型SenseNova-U1-8B-MoT-Infographic。该模型能够根据指令生成多种视觉格式内容,包括海报、图表、食谱卡、明信片以及学术风格的arXiv页面等。在性能方面,模型在BizGenEval(困难版)和IGenBench(Q-ACC)两项基准测试上表现突出,相比其基础U1模型分别提升了6.8分和18.2分。目前,该模型已在Hugging Face平台开源,并提供了超过100个多样化的生成示例,供开发者和研究者参考与试用。

X:商汤 SenseTime (@SenseTime_AI)
inclusionAI/ARGenSeg-8B

包容性AI团队发布ARGenSeg-8B模型,致力于通过开源和开放科学推动人工智能的进步与普及。该举措强调技术民主化,使更广泛的社区能够参与AI研发与应用。开源策略将促进协作创新,加速AI工具在多元场景中的落地,降低技术门槛,推动产业生态的开放发展。

蚂蚁 inclusionAI:HuggingFace 新模型

2产品发布/更新

Runway Agent一键生成完整广告

Runway Agent 让你仅需一次会话,就能从产品照片和想法转变为完全制作完成的广告。 立即通过下方链接开始体验。

X:Runway (@runwayml)
Krea 2正式上线面向专业用户

从今天起,Krea 2 正式为 Pro 用户上线。

X:Krea AI (@krea_ai)
X平台开源“For You”信息流推荐算法

X平台在GitHub开源了其“For You”信息流的最新推荐算法。该算法融合来自已关注账号的内容和通过相似性搜索发现的网络外内容,并利用基于Grok架构的Phoenix Transformer模型进行统一评分。模型通过分析用户近期互动,同时预测点赞、回复、转发等多种互动概率,并综合成最终相关性分数。排序过程包括候选内容收集、上下文信息补充、AI模型评分、多样性调整及垃圾信息过滤等步骤。此次开源提供了完整的可运行管道、预训练模型、内容理解服务及内置广告混合模块,核心计算完全由Transformer模型驱动。

X:cb_doge (@cb_doge)
语义代码审查工具clawpatch发布

🩹 clawpatch 0.1.0 已上线: Clawpatch 将代码库映射成语义功能切片,审查其中的错误和质量问题,并记录经过验证的明确修复尝试。 您会发现它能发现的问题之多令人惊讶。 npm install -g clawpatch https://clawpatch.ai

X:Peter Steinberger (@steipete)
OpenRouter BYOK三大升级 支持多密钥轮换

OpenRouter BYOK 三项重大升级 🔑 1/ 可在同一工作空间为同一服务商添加多个密钥,并设置调用顺序。 便于在速率限制间轮换、区分开发与生产凭证,或在团队账户间分配使用量!

X:OpenRouter (@OpenRouter)
开源3D生成工具包:单张图片快速构建可交互3D世界

开发者@neilsonks开源了一套专为Claude Code设计的完整3D生成工具包。该工具能将输入的单张图片自动拆解,生成包含环境、网格、物理、灯光和音频的全套可交互3D场景。其流程首先利用图像与3D生成技术提取物体并生成高质量网格,随后移除物体以得到静态背景,最后为整个场景添加物理模拟、实时灯光和环境音效。配套查看器支持对生成物体的点击编辑与一键导出。此工具将以往需数天的2D转3D工作流程缩短至几分钟,适用于游戏开发、世界构建和产品可视化等项目。项目已在GitHub开源。

X:Berry Xia (@berryxia)
将Grok接入Hermes智能体

xAI宣布,用户现可将Grok订阅账户接入Nous Research的开源自改进智能体Hermes Agent。该集成对所有订阅层级开放,允许用户在Hermes环境中直接使用Grok 4.3进行文本对话与高级推理、调用其文本转语音功能生成语音回复,并利用Grok Imagine创建图像与视频。Hermes Agent可持久运行于电脑、沙盒或VPS,具备跨会话长期记忆能力,并能连接WhatsApp、Discord等通讯平台。用户通过安装Hermes Agent并选择Grok提供商即可完成配置。

xAI:News(网页)
ChatGPT 推出全新个人理财体验

OpenAI 为美国地区的 ChatGPT Pro 用户推出个人理财功能预览版。用户可安全连接个人金融账户,获取基于自身财务状况、目标和优先级生成的 AI 洞察与指导。该体验通过账户关联实现个性化分析,标志着 ChatGPT 正式向个人金融助手领域拓展。

OpenAI:官网动态(RSS · 排除企业/客户案例)

3行业动态

Anthropic估值与营收飙升

Anthropic简况: 估值: 2026年2月:3500亿美元 2026年5月:9000亿美元 三个月内增长近3倍。 年度经常性收入: 2025年底:90亿美元 2026年5月底:450亿美元 五个月内增长近5倍。 天啊。 via FT

X:Kim (@kimmonismus)
为 OpenAI 累计投入超 1000 亿美元,纳德拉称微软当年投资时“没人愿意下注”

在“马斯克诉奥尔特曼”庭审中,微软企业发展负责人确认,微软对OpenAI的累计投入已超过1000亿美元,其中包括130亿美元原始投资及大量Azure基础设施成本。此次合作已为微软带来约300亿美元营收。CEO纳德拉表示,微软是在“没人愿意下注”时承担了风险。双方已续签非独家协议,微软不再支付收入分成,并将OpenAI的分成上限设为到2030年累计380亿美元,此举较原协议节省约970亿美元。此外,微软正评估收购AI初创公司以补强人才,并调整资源投向自研模型与超级智能领域。

IT之家(RSS)
英国多部门联合警告:当前最先进 AI 模型网络攻击能力已远超专业人员,企业应做好防范措施

英国财政部、英格兰银行及金融行为监管局联合警告,当前最先进的AI模型已具备远超普通专业人员的网络攻击能力,其攻击速度更快、范围更广、成本更低。若被恶意利用,将严重威胁企业运营安全、客户数据、金融市场稳定性乃至整个金融体系。英格兰银行行长安德鲁·贝利此前已点名Anthropic的Mythos产品,网络安全专家亦警告此类AI可能强化复杂攻击,对银行业及金融技术体系构成新挑战。

IT之家(RSS)
微软研究院发布AI新工具与模型

微软研究院的新工具、模型、代码库和论文现已发布。 使用AI和智能体?值得关注: • MSR AI Frontiers的MagenticLite • 智能体化GitHub工作流 • 验证优先智能体 • 意义匹配微调 • AI转型与经济发展

X:Microsoft Research (@MSFTResearch)
戛纳倒计时 | Kling AI大会主讲阵容揭晓!

2026年戛纳电影节Kling AI大会将汇聚三位世界级电影制作人,展示他们运用Kling AI技术创作的标杆作品。中国动画导演魏立将分享AI生成动画《Born of the Tide》;Jon Erwin将解析为Amazon Prime制作的剧集《House of David》;Eekjun Yang则将介绍院线电影《RAPHAEL》的创作过程。三位讲者将深入探讨Kling AI在电影制作中的幕后应用,共同探索AI为影视创作带来的新可能性。活动定于2026年5月18日15:30至17:30,在戛纳影节宫主舞台举行。

X:可灵 Kling AI (@Kling_ai)

4技巧与观点

Show HN: 根据基准测试排名,为您的硬件寻找最适合的本地 LLM

一个名为“WhichLLM”的开源工具已在GitHub发布,可根据用户硬件配置推荐最适合的本地大语言模型。该工具通过基准测试对各类模型进行排名,帮助用户依据自身设备的性能指标选择最优模型。项目在Hacker News上获得116点热度,显示出社区对本地化AI部署效率工具的积极关注。

Hacker News 热门(buzzing.cc 中文翻译)
飞书开源CLI工具45天获万星,AI操作可见可控引关注

飞书开源命令行工具lark-cli在45天内获得超过1万GitHub star,成为国内首个破万星的办公套件开源项目。该工具允许AI通过命令行直接操作飞书,执行建群、建文档等任务,且每一步操作都可预览、可审查,与云端不可见的MCP模式形成对比。其主干代码已合并10位外部开发者的贡献,而同类产品钉钉和企业微信则为零。这种可见、可控的特性被视为开发者放心将任务交给AI Agent的前提,预示着一句话指令驱动完整项目流程成为可能。

X:阿易 AI Notes (@AYi_AInotes)
牛津大学博士后开源视频翻译工具Violin,支持多语言翻译与视频对话

牛津大学博士后Kevin Lin开源视频翻译工具Violin,旨在打破高质量视频内容的语言壁垒。该工具将语音识别、大语言模型翻译与语音合成整合为自动化流水线,支持多语言互译与个性化翻译风格调整,例如将学术报告转化为儿童易懂版本。用户还能直接与视频内容进行对话并获取相关答案。Violin提供Web应用、命令行界面和Agent Skill三种使用方式,所有功能基于MIT协议开源,由Together Compute提供技术支持,适用于内容创作、教育及多模态智能体开发等领域。

X:Berry Xia (@berryxia)
开源项目OpenSquilla:智能路由降低AI成本近十倍,兼容多平台与模型

开源项目OpenSquilla通过智能路由架构,在保持与OpenClaw相近性能(0.9251分)的同时,将复杂AI任务处理成本从6美元大幅降至0.68美元。其核心是将简单任务分配给廉价模型,仅复杂任务调用Opus等顶级模型。系统具备四层记忆结构模拟人脑认知,支持按需加载16种工具,并设有三档代码沙箱安全防护。项目提供统一后端,支持网页、命令行及Slack、飞书等平台接入,兼容OpenAI、Claude、Gemini、DeepSeek等20余家主流模型。

X:小互 (@xiaohu)
无视令牌成本,用百个AI实例自动化驱动开源项目

作者在OpenClaw项目中大规模运用AI,探索在“令牌成本无关紧要”的未来如何构建软件。团队持续运行约100个Codex实例,自动化处理多项核心工作:审查代码与安全问题、去重归类议题、自动重现复杂测试环境并录制验证视频、从会议讨论中主动创建任务、过滤垃圾评论以及监控性能回归。通过clawpatch.ai等工具将项目拆分为功能单元进行审查,并整合Vercel DeepSec等进行安全分析。整套自动化体系使得项目能够以极精简的团队高效运作。

X:Peter Steinberger (@steipete)
推理的一阶导数:AI浪潮下的增长逻辑

AI推理是当今规模最大、增长最快的技术市场,预计七年内将达到2500亿美元。直接销售或转售推理服务的公司增长迅猛,如Anthropic和谷歌云。在AI时代前的软件公司中,Datadog和Twilio作为“推理的一阶导数”脱颖而出:Datadog的LLM可观测产品数据量近一季增长近两倍,其约20%的AI客户贡献了约80%的年度经常性收入;Twilio则通过AI重构的语音服务吸引客户。当前周期呈现高度集中特点,少数客户能驱动巨大收益。对于非AI原生公司,核心战略在于如何转售推理服务或从其客户的大量采购中获益。

24今日事件
11一手报道
3新模型
20信源
← 前一日历史后一日 →
VOL.2026.05.16·24 STORIES·AI HOT DAILY

AIHOT日报

二〇二六年五月十六日 星期六DAILY · 每早八时
01

模型发布/更新

Model Releases
3 篇

MiniMax M2.7模型上线OrcaRouter平台

官方·XX:MiniMax (@MiniMax_AI)

M2.7已在@OrcaRouter上线——可通过单一OpenAI兼容API访问。 今天就来试试吧!🐋

SenseNova发布增强版信息图表生成模型SenseNova-U1-8B-MoT-Infographic

官方·XX:商汤 SenseTime (@SenseTime_AI)

SenseNova近日推出专为信息图表生成设计的增强模型SenseNova-U1-8B-MoT-Infographic。该模型能够根据指令生成多种视觉格式内容,包括海报、图表、食谱卡、明信片以及学术风格的arXiv页面等。在性能方面,模型在BizGenEval(困难版)和IGenBench(Q-ACC)两项基准测试上表现突出,相比其基础U1模型分别提升了6.8分和18.2分。目前,该模型已在Hugging Face平台开源,并提供了超过100个多样化的生成示例,供开发者和研究者参考与试用。

inclusionAI/ARGenSeg-8B

官方蚂蚁 inclusionAI:HuggingFace 新模型

包容性AI团队发布ARGenSeg-8B模型,致力于通过开源和开放科学推动人工智能的进步与普及。该举措强调技术民主化,使更广泛的社区能够参与AI研发与应用。开源策略将促进协作创新,加速AI工具在多元场景中的落地,降低技术门槛,推动产业生态的开放发展。

02

产品发布/更新

Product
8 篇

Runway Agent一键生成完整广告

Tomer Tunguz 博客(VC 分析)
英伟达CEO称技工前景优于计算机科学毕业生

英伟达CEO Jensen Huang在卡内基梅隆大学告诉2026届计算机科学毕业生,电工、水管工等技工比他们更有前景。数据支持这一观点:Randstad分析显示技工需求增长是白领职位的三倍,机器人技术员职位增长107%,而斯坦福研究发现AI相关职位早期就业下降16%。顶级电工年薪超10.6万美元,无需学位负债。科技公司今年投资7000亿美元建设数据中心,全球到2030年预计达7万亿美元,这些基础设施依赖人力完成,但制造业面临劳动力短缺,每100名新工人进入就有102人离开。AI时代最大赢家是能建设数据中心的技工,而非提示工程师。

X:Kim (@kimmonismus)
杨立昆访谈:剖析LLM局限,畅谈AI未来与创业新途

在Unsupervised Learning播客中,AI先驱杨立昆阐述了其对大型语言模型局限性的反主流观点,并探讨了机器人技术的发展路径。他解释了离开Meta的原因,以及与Geoff Hinton、Yoshua Bengio在图灵奖观点上的重大分歧。访谈还涵盖了他对2027年的预测、新公司AMI对世界模型的押注,并将OpenAI和Anthropic比作Sun Microsystems。此外,他建议博士生停止研究LLM,并分享了对AI安全、突破性研究发生机制以及Meta FAIR得失的尖锐见解。

X:Yann LeCun (@ylecun)
官方·XX:Runway (@runwayml)

Runway Agent 让你仅需一次会话,就能从产品照片和想法转变为完全制作完成的广告。 立即通过下方链接开始体验。

Krea 2正式上线面向专业用户

官方·XX:Krea AI (@krea_ai)

从今天起,Krea 2 正式为 Pro 用户上线。

X平台开源“For You”信息流推荐算法

X·KOLX:cb_doge (@cb_doge)

X平台在GitHub开源了其“For You”信息流的最新推荐算法。该算法融合来自已关注账号的内容和通过相似性搜索发现的网络外内容,并利用基于Grok架构的Phoenix Transformer模型进行统一评分。模型通过分析用户近期互动,同时预测点赞、回复、转发等多种互动概率,并综合成最终相关性分数。排序过程包括候选内容收集、上下文信息补充、AI模型评分、多样性调整及垃圾信息过滤等步骤。此次开源提供了完整的可运行管道、预训练模型、内容理解服务及内置广告混合模块,核心计算完全由Transformer模型驱动。

语义代码审查工具clawpatch发布

X·KOLX:Peter Steinberger (@steipete)

🩹 clawpatch 0.1.0 已上线: Clawpatch 将代码库映射成语义功能切片,审查其中的错误和质量问题,并记录经过验证的明确修复尝试。 您会发现它能发现的问题之多令人惊讶。 npm install -g clawpatch https://clawpatch.ai

OpenRouter BYOK三大升级 支持多密钥轮换

官方·XX:OpenRouter (@OpenRouter)

OpenRouter BYOK 三项重大升级 🔑 1/ 可在同一工作空间为同一服务商添加多个密钥,并设置调用顺序。 便于在速率限制间轮换、区分开发与生产凭证,或在团队账户间分配使用量!

开源3D生成工具包:单张图片快速构建可交互3D世界

X·KOLX:Berry Xia (@berryxia)

开发者@neilsonks开源了一套专为Claude Code设计的完整3D生成工具包。该工具能将输入的单张图片自动拆解,生成包含环境、网格、物理、灯光和音频的全套可交互3D场景。其流程首先利用图像与3D生成技术提取物体并生成高质量网格,随后移除物体以得到静态背景,最后为整个场景添加物理模拟、实时灯光和环境音效。配套查看器支持对生成物体的点击编辑与一键导出。此工具将以往需数天的2D转3D工作流程缩短至几分钟,适用于游戏开发、世界构建和产品可视化等项目。项目已在GitHub开源。

将Grok接入Hermes智能体

官方xAI:News(网页)

xAI宣布,用户现可将Grok订阅账户接入Nous Research的开源自改进智能体Hermes Agent。该集成对所有订阅层级开放,允许用户在Hermes环境中直接使用Grok 4.3进行文本对话与高级推理、调用其文本转语音功能生成语音回复,并利用Grok Imagine创建图像与视频。Hermes Agent可持久运行于电脑、沙盒或VPS,具备跨会话长期记忆能力,并能连接WhatsApp、Discord等通讯平台。用户通过安装Hermes Agent并选择Grok提供商即可完成配置。

ChatGPT 推出全新个人理财体验

官方OpenAI:官网动态(RSS · 排除企业/客户案例)

OpenAI 为美国地区的 ChatGPT Pro 用户推出个人理财功能预览版。用户可安全连接个人金融账户,获取基于自身财务状况、目标和优先级生成的 AI 洞察与指导。该体验通过账户关联实现个性化分析,标志着 ChatGPT 正式向个人金融助手领域拓展。

03

行业动态

Industry
5 篇

Anthropic估值与营收飙升

X·KOLX:Kim (@kimmonismus)

Anthropic简况: 估值: 2026年2月:3500亿美元 2026年5月:9000亿美元 三个月内增长近3倍。 年度经常性收入: 2025年底:90亿美元 2026年5月底:450亿美元 五个月内增长近5倍。 天啊。 via FT

为 OpenAI 累计投入超 1000 亿美元,纳德拉称微软当年投资时“没人愿意下注”

综合资讯IT之家(RSS)

在“马斯克诉奥尔特曼”庭审中,微软企业发展负责人确认,微软对OpenAI的累计投入已超过1000亿美元,其中包括130亿美元原始投资及大量Azure基础设施成本。此次合作已为微软带来约300亿美元营收。CEO纳德拉表示,微软是在“没人愿意下注”时承担了风险。双方已续签非独家协议,微软不再支付收入分成,并将OpenAI的分成上限设为到2030年累计380亿美元,此举较原协议节省约970亿美元。此外,微软正评估收购AI初创公司以补强人才,并调整资源投向自研模型与超级智能领域。

英国多部门联合警告:当前最先进 AI 模型网络攻击能力已远超专业人员,企业应做好防范措施

综合资讯IT之家(RSS)

英国财政部、英格兰银行及金融行为监管局联合警告,当前最先进的AI模型已具备远超普通专业人员的网络攻击能力,其攻击速度更快、范围更广、成本更低。若被恶意利用,将严重威胁企业运营安全、客户数据、金融市场稳定性乃至整个金融体系。英格兰银行行长安德鲁·贝利此前已点名Anthropic的Mythos产品,网络安全专家亦警告此类AI可能强化复杂攻击,对银行业及金融技术体系构成新挑战。

微软研究院发布AI新工具与模型

官方·XX:Microsoft Research (@MSFTResearch)

微软研究院的新工具、模型、代码库和论文现已发布。 使用AI和智能体?值得关注: • MSR AI Frontiers的MagenticLite • 智能体化GitHub工作流 • 验证优先智能体 • 意义匹配微调 • AI转型与经济发展

戛纳倒计时 | Kling AI大会主讲阵容揭晓!

官方·XX:可灵 Kling AI (@Kling_ai)

2026年戛纳电影节Kling AI大会将汇聚三位世界级电影制作人,展示他们运用Kling AI技术创作的标杆作品。中国动画导演魏立将分享AI生成动画《Born of the Tide》;Jon Erwin将解析为Amazon Prime制作的剧集《House of David》;Eekjun Yang则将介绍院线电影《RAPHAEL》的创作过程。三位讲者将深入探讨Kling AI在电影制作中的幕后应用,共同探索AI为影视创作带来的新可能性。活动定于2026年5月18日15:30至17:30,在戛纳影节宫主舞台举行。

04

技巧与观点

Tips & Takes
8 篇

Show HN: 根据基准测试排名,为您的硬件寻找最适合的本地 LLM

综合资讯Hacker News 热门(buzzing.cc 中文翻译)

一个名为“WhichLLM”的开源工具已在GitHub发布,可根据用户硬件配置推荐最适合的本地大语言模型。该工具通过基准测试对各类模型进行排名,帮助用户依据自身设备的性能指标选择最优模型。项目在Hacker News上获得116点热度,显示出社区对本地化AI部署效率工具的积极关注。

飞书开源CLI工具45天获万星,AI操作可见可控引关注

X·KOLX:阿易 AI Notes (@AYi_AInotes)

飞书开源命令行工具lark-cli在45天内获得超过1万GitHub star,成为国内首个破万星的办公套件开源项目。该工具允许AI通过命令行直接操作飞书,执行建群、建文档等任务,且每一步操作都可预览、可审查,与云端不可见的MCP模式形成对比。其主干代码已合并10位外部开发者的贡献,而同类产品钉钉和企业微信则为零。这种可见、可控的特性被视为开发者放心将任务交给AI Agent的前提,预示着一句话指令驱动完整项目流程成为可能。

牛津大学博士后开源视频翻译工具Violin,支持多语言翻译与视频对话

X·KOLX:Berry Xia (@berryxia)

牛津大学博士后Kevin Lin开源视频翻译工具Violin,旨在打破高质量视频内容的语言壁垒。该工具将语音识别、大语言模型翻译与语音合成整合为自动化流水线,支持多语言互译与个性化翻译风格调整,例如将学术报告转化为儿童易懂版本。用户还能直接与视频内容进行对话并获取相关答案。Violin提供Web应用、命令行界面和Agent Skill三种使用方式,所有功能基于MIT协议开源,由Together Compute提供技术支持,适用于内容创作、教育及多模态智能体开发等领域。

开源项目OpenSquilla:智能路由降低AI成本近十倍,兼容多平台与模型

X·KOLX:小互 (@xiaohu)

开源项目OpenSquilla通过智能路由架构,在保持与OpenClaw相近性能(0.9251分)的同时,将复杂AI任务处理成本从6美元大幅降至0.68美元。其核心是将简单任务分配给廉价模型,仅复杂任务调用Opus等顶级模型。系统具备四层记忆结构模拟人脑认知,支持按需加载16种工具,并设有三档代码沙箱安全防护。项目提供统一后端,支持网页、命令行及Slack、飞书等平台接入,兼容OpenAI、Claude、Gemini、DeepSeek等20余家主流模型。

无视令牌成本,用百个AI实例自动化驱动开源项目

X·KOLX:Peter Steinberger (@steipete)

作者在OpenClaw项目中大规模运用AI,探索在“令牌成本无关紧要”的未来如何构建软件。团队持续运行约100个Codex实例,自动化处理多项核心工作:审查代码与安全问题、去重归类议题、自动重现复杂测试环境并录制验证视频、从会议讨论中主动创建任务、过滤垃圾评论以及监控性能回归。通过clawpatch.ai等工具将项目拆分为功能单元进行审查,并整合Vercel DeepSec等进行安全分析。整套自动化体系使得项目能够以极精简的团队高效运作。

推理的一阶导数:AI浪潮下的增长逻辑

大咖博客Tomer Tunguz 博客(VC 分析)

AI推理是当今规模最大、增长最快的技术市场,预计七年内将达到2500亿美元。直接销售或转售推理服务的公司增长迅猛,如Anthropic和谷歌云。在AI时代前的软件公司中,Datadog和Twilio作为“推理的一阶导数”脱颖而出:Datadog的LLM可观测产品数据量近一季增长近两倍,其约20%的AI客户贡献了约80%的年度经常性收入;Twilio则通过AI重构的语音服务吸引客户。当前周期呈现高度集中特点,少数客户能驱动巨大收益。对于非AI原生公司,核心战略在于如何转售推理服务或从其客户的大量采购中获益。

英伟达CEO称技工前景优于计算机科学毕业生

X·KOLX:Kim (@kimmonismus)

英伟达CEO Jensen Huang在卡内基梅隆大学告诉2026届计算机科学毕业生,电工、水管工等技工比他们更有前景。数据支持这一观点:Randstad分析显示技工需求增长是白领职位的三倍,机器人技术员职位增长107%,而斯坦福研究发现AI相关职位早期就业下降16%。顶级电工年薪超10.6万美元,无需学位负债。科技公司今年投资7000亿美元建设数据中心,全球到2030年预计达7万亿美元,这些基础设施依赖人力完成,但制造业面临劳动力短缺,每100名新工人进入就有102人离开。AI时代最大赢家是能建设数据中心的技工,而非提示工程师。

杨立昆访谈:剖析LLM局限,畅谈AI未来与创业新途

X·KOLX:Yann LeCun (@ylecun)

在Unsupervised Learning播客中,AI先驱杨立昆阐述了其对大型语言模型局限性的反主流观点,并探讨了机器人技术的发展路径。他解释了离开Meta的原因,以及与Geoff Hinton、Yoshua Bengio在图灵奖观点上的重大分歧。访谈还涵盖了他对2027年的预测、新公司AMI对世界模型的押注,并将OpenAI和Anthropic比作Sun Microsystems。此外,他建议博士生停止研究LLM,并分享了对AI安全、突破性研究发生机制以及Meta FAIR得失的尖锐见解。

24
今日事件
11
一手报道
3
新模型
20
信源
← 前一日查看历史后一日 →
AI HOT · 编辑系统自动生成