AIHOT

04:38

elvis@omarsar0

62

GoogleResearch推出Gemini-SQL2，基于Gemini 3.1 Pro，在BIRD benchmark上达到Text-to-SQL的SOTA结果，能将自然语言翻译为可直接执行的SQL查询。DAIR.AI的Elvis Saravia指出，现实世界数据复杂混乱，尽管强推理模型表现不错，但定制模型（如Gemini-SQL2）在此类任务上更胜一筹。他认为在知识库、搜索、图数据库等领域也存在类似机会，BIRD是一个非常具有挑战性的基准。

Google Research: 🚀 Introducing Gemini-SQL2, our breakthrough text-to-SQL capability powered by Gemini 3.1 Pro! We've achieved state-of-t...

Google数据/训练模型发布

04:21

Chubby♨️@kimmonismus

24

观察图表，我认为 Fable 5 只会保持领先直到 GPT-5.6。其次，我认为该基准测试很快就会完全饱和。

Epoch AI: Claude Fable 5 scores very well on FrontierMath: Tiers 1-4 (v2), reaching 87% on Tiers 1-3 and 88% on Tier 4. This conti...

AnthropicOpenAI推理评测/基准

04:19

Hacker News 热门（buzzing.cc 中文翻译）

51

"你直接上传到ChatGPT不就行了？"

Hacker News 上一则帖子的标题为“你直接上传到ChatGPT不就行了？”，获得了101个HN点。该帖子引用了用户常被询问的一句话，暗示直接向ChatGPT上传文件以完成任务的普遍做法。

OpenAI现象/趋势

04:16

fofr@fofrAI

40

我正在尝试一种智能体流程，将Hyperframes与Gemini视频分析相结合，制作有趣的注释视频。

智能体Google教程/实践

04:14

Replit ⠕@Replit

26

连市长都知道气氛在哪里 👀 http：//vibecon.ai

行业动态

04:13

MiniMax (official)@MiniMax_AI

33

SambaNovaAI 祝贺 MiniMax 发布 M3 开源模型，并表示未来将在其 RDUs 上支持 M3。MiniMax 表示感谢并期待这一合作。

SambaNova: Congrats to our partners at @MiniMax_AI on the launch of MiniMax M3. Open-weight models continue to push the ecosystem f...

开源生态行业动态

04:13

🚨 AI News | TestingCatalog@testingcatalog

48

AI/ML API: Kimi K2.7-Code is now available on AI/ML API! Moonshot's latest is built for long-horizon agentic coding that self-corre...

智能体模型发布编码

03:49

Hacker News 热门（buzzing.cc 中文翻译）

56

特斯拉全自动驾驶功能在丹麦官方认证视频中使用了自行车道

特斯拉全自动驾驶功能（Full Self Driving）在丹麦官方认证视频中被发现使用了自行车道。该视频由丹麦媒体politiken.dk报道，时长01:49，在Hacker News上获得100个点赞。

安全/对齐行业动态

03:49

Hacker News 热门（buzzing.cc 中文翻译）

58

我不是反向半人马

一篇来自 Miguel Grinberg 的博客文章，标题为《我不是反向半人马》，在 Hacker News 上获得 100 点热度。文章内容可能涉及人与 AI 关系的讨论，但原文仅包含标题与来源，无进一步技术细节。

大佬观点编码

03:48

jason@jxnlco

15

哦靠？！？！codex 在玩 rimworld

其他现象/趋势

03:44

OpenAI Developers@OpenAIDevs

42

Codex 让 @intelligenceco 的 @ndrewpignanelli 能够并行更新网站的多个部分，将一周的工作量缩短为三天。

OpenAI编码行业动态

03:43

MiniMax (official)@MiniMax_AI

56

来自@NVIDIAAI的认可意义重大免费GPU加速的M3端点现已上线快来试试👇

NVIDIA AI: Congrats to the @MiniMax_AI team on the release of MiniMax M3, a long-context multimodal model for text, image, and vide...

多模态模型发布视频

03:43

Greg Brockman@gdb

71

OpenAI 在开发者文档网站上线了新的文档智能体，可帮助查找产品相关信息并直接跳转到对应文档。Greg Brockman 表示这是一种强大且酷的网站导航方式，让交互更加直观。

OpenAI Developers: Ask our developer docs. They'll show you the way The new docs agent on 🔗http://developers.openai.com helps you find ans...

智能体OpenAI产品更新搜索

03:40

Emad@EMostaque

40

看起来 @SpaceX 将花费其市值的 2.5% 以 15 倍营收收购 @cursor_ai 👀

编码行业动态

03:33

Ethan Mollick@emollick

57

Claude Fable 5 在 FrontierMath 基准测试（Tiers 1-4， v2）中表现优异，Tiers 1-3 得分 87%，Tier 4 得分 88%，延续了 Anthropic 模型数学能力快速提升的趋势。主推文评论道："图形的形状越来越熟悉了。"

Epoch AI: Claude Fable 5 scores very well on FrontierMath: Tiers 1-4 (v2), reaching 87% on Tiers 1-3 and 88% on Tier 4. This conti...

Anthropic推理评测/基准

03:29

PixVerse@PixVerse_

20

如果世界拒绝给你月光，那就自己点亮月亮。《不请自来的海》- PixVerse Originals S1，基于 Canvas 构建。由 PixVerse CPP JaneDoeCreates 创作的治愈系音乐动画。转发+关注+回复 = 150 积分及完整电影+工作流私信（仅 72 小时）

其他视频

03:26

Epoch AI@EpochAIResearch

41

Claude Fable 5 在 FrontierMath（Tiers 1-4，v2）上得分很高，在 Tiers 1-3 上达到 87%，在 Tier 4 上达到 88%。这延续了 Anthropic 模型在数学上快速提升的趋势。

Anthropic推理评测/基准