AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态今日 75 条
全部一手资讯X论文
今天6月13日 周六
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月13日
04:38
elvis@omarsar0
62
GoogleResearch推出Gemini-SQL2,基于Gemini 3.1 Pro,在BIRD benchmark上达到Text-to-SQL的SOTA结果,能将自然语言翻译为可直接执行的SQL查询。DAIR.AI的Elvis Saravia指出,现实世界数据复杂混乱,尽管强推理模型表现不错,但定制模型(如Gemini-SQL2)在此类任务上更胜一筹。他认为在知识库、搜索、图数据库等领域也存在类似机会,BIRD是一个非常具有挑战性的基准。

Google Research: 🚀 Introducing Gemini-SQL2, our breakthrough text-to-SQL capability powered by Gemini 3.1 Pro! We've achieved state-of-t...

Google数据/训练模型发布
04:21
Chubby♨️@kimmonismus
24
观察图表,我认为 Fable 5 只会保持领先直到 GPT-5.6。 其次,我认为该基准测试很快就会完全饱和。

Epoch AI: Claude Fable 5 scores very well on FrontierMath: Tiers 1-4 (v2), reaching 87% on Tiers 1-3 and 88% on Tier 4. This conti...

AnthropicOpenAI推理评测/基准
04:19
Hacker News 热门(buzzing.cc 中文翻译)
51
"你直接上传到ChatGPT不就行了?"

Hacker News 上一则帖子的标题为“你直接上传到ChatGPT不就行了?”,获得了101个HN点。该帖子引用了用户常被询问的一句话,暗示直接向ChatGPT上传文件以完成任务的普遍做法。

OpenAI现象/趋势
04:16
fofr@fofrAI
40
我正在尝试一种智能体流程,将Hyperframes与Gemini视频分析相结合,制作有趣的注释视频。
智能体Google教程/实践
04:14
Replit ⠕@Replit
26
连市长都知道气氛在哪里 👀 http://vibecon.ai
行业动态
04:13
MiniMax (official)@MiniMax_AI
33
SambaNovaAI 祝贺 MiniMax 发布 M3 开源模型,并表示未来将在其 RDUs 上支持 M3。MiniMax 表示感谢并期待这一合作。

SambaNova: Congrats to our partners at @MiniMax_AI on the launch of MiniMax M3. Open-weight models continue to push the ecosystem f...

开源生态行业动态
04:13
🚨 AI News | TestingCatalog@testingcatalog
48
月之暗面最新智能体编码模型 Kimi-K2.7-Code 已在 AI/ML API 平台上线,支持扩展推理和工具使用,可通过 Playground 和 API 测试。为验证其自我修正能力(而非一次性生成),研究者让四个 Kimi 智能体运行一个 2D 飞行物理模拟,目标是从发射到入轨并让助推器着陆。四次飞行中:第一次在最大动压处解体;第二次过关但分离过早失败;第三次成功入轨但未抓住着陆船;第四次修正着陆计算后成功着陆。该过程展示了模型通过迭代闭环调试从失败中自动学习。

AI/ML API: Kimi K2.7-Code is now available on AI/ML API! Moonshot's latest is built for long-horizon agentic coding that self-corre...

智能体模型发布编码
03:49
Hacker News 热门(buzzing.cc 中文翻译)
56
特斯拉全自动驾驶功能在丹麦官方认证视频中使用了自行车道

特斯拉全自动驾驶功能(Full Self Driving)在丹麦官方认证视频中被发现使用了自行车道。该视频由丹麦媒体politiken.dk报道,时长01:49,在Hacker News上获得100个点赞。

安全/对齐行业动态
03:49
Hacker News 热门(buzzing.cc 中文翻译)
58
我不是反向半人马

一篇来自 Miguel Grinberg 的博客文章,标题为《我不是反向半人马》,在 Hacker News 上获得 100 点热度。文章内容可能涉及人与 AI 关系的讨论,但原文仅包含标题与来源,无进一步技术细节。

大佬观点编码
03:48
jason@jxnlco
15
哦靠?!?!codex 在玩 rimworld
其他现象/趋势
03:44
OpenAI Developers@OpenAIDevs
42
Codex 让 @intelligenceco 的 @ndrewpignanelli 能够并行更新网站的多个部分,将一周的工作量缩短为三天。
OpenAI编码行业动态
03:43
MiniMax (official)@MiniMax_AI
56
来自@NVIDIAAI的认可意义重大 免费GPU加速的M3端点现已上线 快来试试👇

NVIDIA AI: Congrats to the @MiniMax_AI team on the release of MiniMax M3, a long-context multimodal model for text, image, and vide...

多模态模型发布视频
03:43
Greg Brockman@gdb
71
OpenAI 在开发者文档网站上线了新的文档智能体,可帮助查找产品相关信息并直接跳转到对应文档。Greg Brockman 表示这是一种强大且酷的网站导航方式,让交互更加直观。

OpenAI Developers: Ask our developer docs. They'll show you the way The new docs agent on 🔗http://developers.openai.com helps you find ans...

智能体OpenAI产品更新搜索
03:40
Emad@EMostaque
40
看起来 @SpaceX 将花费其市值的 2.5% 以 15 倍营收收购 @cursor_ai 👀
编码行业动态
03:33
Ethan Mollick@emollick
57
Claude Fable 5 在 FrontierMath 基准测试(Tiers 1-4, v2)中表现优异,Tiers 1-3 得分 87%,Tier 4 得分 88%,延续了 Anthropic 模型数学能力快速提升的趋势。主推文评论道:"图形的形状越来越熟悉了。"

Epoch AI: Claude Fable 5 scores very well on FrontierMath: Tiers 1-4 (v2), reaching 87% on Tiers 1-3 and 88% on Tier 4. This conti...

Anthropic推理评测/基准
03:29
PixVerse@PixVerse_
20
如果世界拒绝给你月光,那就自己点亮月亮。 《不请自来的海》- PixVerse Originals S1,基于 Canvas 构建。 由 PixVerse CPP JaneDoeCreates 创作的治愈系音乐动画。 转发+关注+回复 = 150 积分 及 完整电影+工作流私信(仅 72 小时)
其他视频
03:26
Epoch AI@EpochAIResearch
41
Claude Fable 5 在 FrontierMath(Tiers 1-4,v2)上得分很高,在 Tiers 1-3 上达到 87%,在 Tier 4 上达到 88%。这延续了 Anthropic 模型在数学上快速提升的趋势。
Anthropic推理评测/基准
03:16
fofr@fofrAI
46
@andrew_n_carr 宣布"编辑视频运动!放弃提示开始导演",并展示其"通用视频编辑器"工作流:先用 comic 4 捕捉视频,再用运动编辑器修改动作,最后用视频到视频模型(如 Runway、Gemini)重新渲染。他以时装片段为例,希望模特展现高抬腿活力,无需重拍。主推文 fofr 表示,AI视频中精细的3D运动控制已更近一步。

Andrew Carr 🤸: EDIT MOTION IN VIDEOS!!! Quit prompting and start directing I've been shouting for YEARS about 3D as the control layer. ...

多模态教程/实践视频
03:14
Replit ⠕@Replit
59
新视频发布了!你在 Replit 上不再一次只能构建一件事。 运行并行 AI 智能体,从一个项目中同时交付网站、移动应用、视频和推介材料。 而且你现在可以向已有的项目中添加多个工件。
智能体产品更新
03:14
OpenAI Developers@OpenAIDevs
50
咨询我们的开发者文档。它们会为你指路。 新的文档智能体在 http://developers.openai.com 上,帮你找到关于 OpenAI 产品的答案,并直接带你到相关文档。
智能体OpenAI产品更新
03:13
MiniMax (official)@MiniMax_AI
50
MiniMax M3现已登陆Telnyx推理平台。M3是首个结合前沿编码与智能体能力的开源权重模型,拥有1M token上下文窗口和原生多模态理解。凭借M3的1M上下文与Telnyx自有GPU基础设施,一次对话即可处理整个代码库。官方鼓励开发者立即使用。

Telnyx: @MiniMax_AI M3 is live on Telnyx Inference 🚀 M3 is the first open-weight model combining frontier coding & agent capabi...

产品更新推理
03:13
MiniMax (official)@MiniMax_AI
64
MiniMax M3 已在 Fireworks AI 上线,Day-0 即获最快推理端点。模型为开源权重,在 Artificial Analysis 指数排名第一。支持 512K 上下文窗口、原生图像及视频输入;采用 MSA 稀疏注意力机制,实现 9 倍更快的 prefill 与 15 倍更快的 decode。定价与 M2.7 持平。M3 将长周期智能体、全仓库理解与多模态编程集成于单一模型。

Fireworks AI: MiniMax M3 is live on Fireworks. Day-0, fastest endpoint for the MiniMax series. → Top open-weight model on the Artifici...

智能体多模态推理模型发布
03:04
Ars Technica:AI(RSS)
61
Jeff Bezos 新创公司 Prometheus 将专注于物理 AI

Jeff Bezos 创立的新公司 Prometheus 瞄准物理 AI 领域。尽管并非唯一涉足该赛道的初创企业,Prometheus 是资金最充足的公司之一。

具身智能行业动态
03:04
AK@_akhaliq
46
SpenseGPT 实用的一次性剪枝,实现LLM推理的稀疏和密集GEMM
推理论文/研究
03:01
HuggingFace Daily Papers(社区热门论文)
66
TRACE:将用户修正编译为运行时约束以改善编码智能体

交互式LLM智能体的用户偏好修正常被遗忘,Mem0记忆仍有57.5%相关偏好检查被违反。研究提出TRACE,一种即插即用的技能层管道,从用户聊天修正中挖掘原子规则并编译为运行时检查。在ClawArena上,分布内违规从100.0%降至37.6%,分布外从100.0%降至2.0%;在MemoryArena上,分布内从100.0%降至60.5%,任务通过率匹配或超越最强记忆基线。实验代码已开源。

智能体arXivGitHub论文/研究
03:01
HuggingFace Daily Papers(社区热门论文)
36
异构智能体稠密潜在通信:See What I See, Know What I Think

多智能体系统通常依赖文本通信,解码-重编码代价高且信息有损。KV-cache通信是低开销替代方案,但现有方法多限于同构模型。本文提出稠密对齐方法,通过轻量级跨模型缓存变换和两阶段训练(重构→生成)实现异构智能体间KV-cache直接传输。在Qwen3-4B、8B、14B三个模型组成的六个方向和六个基准上,上下文感知设置中性能匹配或超越文本通信,计算量降低2–3倍;上下文无关传输中仍有效,而先前方法完全失效。

智能体编码论文/研究
03:00
Bloomberg:Technology(RSS)
54
SpaceX 因 Grok 运行遇技术难题,将 Colossus 1 数据中心全部租赁给 Anthropic

SpaceX 决定将位于孟菲斯的 Colossus 1 数据中心全部容量租给 Anthropic。此举源于 SpaceX 团队在利用该设施开发并运行其 Grok AI 模型时遇到技术困难。据知情人士透露,SpaceX 是在自家团队用起来有麻烦之后才做出这一决定的。

Anthropic行业动态部署/工程
02:58
The Decoder:AI News(RSS)
62
Anthropic调查:超半数美国人担心AI导致失业和丧失独立思考能力

Anthropic对近5.2万美国人进行的调查显示,64%的受访者担心AI会导致失业,56%担心会丧失独立思考能力。日常AI用户的担忧程度远低于非用户。尽管如此,大多数人仍拒绝在工作中使用AI,即使他们认为AI能够处理相关任务。

Anthropic现象/趋势
02:48
Hacker News 热门(buzzing.cc 中文翻译)
65
减少AI生成前端界面粗糙度的文章

本文介绍如何减少AI生成前端界面的粗糙度,发表于envs.net。文章针对AI产出的前端代码常出现的草率、不细致问题,提出改进方法,旨在提升生成结果的质量和可用性。

教程/实践编码
02:43
MiniMax (official)@MiniMax_AI
69
MiniMax-M3 是一款拥有 428B(23B 激活)参数、1M 上下文的新开源模型,性能与 Gemini 3.1 Pro 相当。可在 138GB 内存/显存上运行动态 2-bit GGUF 版本,或 165GB 上运行 3-bit 版本。在 @UnslothAI 的帮助下,今天即可本地运行 M3。

Unsloth AI: MiniMax M3 can now be run locally!🔥 MiniMax-M3 is a new 428B (23B active) open model with 1M context that performs on p...

Hugging Face开源生态模型发布
02:32
Rohan Paul@rohanpaul_ai
43
AGENTCL:面向语言智能体持续学习的严格评估

AGENTCL 提出评估 AI 智能体是否真正从经验学习,而非单纯累积信息。通过构建组合任务流(前序任务包含可被后续任务复用的代码片段、研究证据或工作流),与无固定复用线索的随意任务流对比。关键发现:当前记忆方法在任务连接明显时可复用过去经验,但当任务差异较大时仍难以避免混淆。论文旨在为智能体持续学习提供更清晰的测评标准。

智能体论文/研究评测/基准
02:28
Simon Willison 博客
24
Andrew Singleton 的 AI 经济学讽刺寓言

Jenny 经营一座火葬场,John 的丙烷公司以 200 亿美元投资换取其 5% 股份。Jenny 将 100 亿美元投入焚化炉,再付给 John 100 亿美元购买丙烷烧掉这些钱。John 向外界报告其 AI 投资本季度产生 100 亿美元收入,并持有价值 1000 亿美元企业的 5% 股权。福布斯记者在撰写人物报道时与二人陷入混乱的三人恋情,最终结成多角婚姻,其报道赞誉有加但缺乏财务细节。

现象/趋势
02:23
TechCrunch:AI(RSS)
61
Google 起诉被指使用 AI 发送诈骗短信的中国网络犯罪团伙"Outsider Enterprise"

Google 起诉一个名为“Outsider Enterprise”的组织,指控其利用人工智能在两周内发送了 250 万条诈骗短信,导致数十万受害者上当。该组织被描述为中国网络犯罪团伙。

Google安全/对齐行业动态
02:15
Anthropic:Newsroom(网页)
47
TCS与Anthropic合作,将Claude引入受监管行业

Anthropic宣布与塔塔咨询服务(TCS)合作。TCS将向56个国家的5万名员工提供Claude,并为金融、医疗等受监管行业客户构建基于Claude的产品,同时加入Claude Partner Network。作为“客户零号”,TCS将在自身工程、财务、法律、营销和销售团队中率先使用Claude,并组建专门团队为客户设计和运维Claude系统。具体用例包括:Diligenta用Claude改善2200万保单持有人的体验;银行产品团队用Claude Code提升软件工程效率;工程团队贡献可复用技能和插件;TCS iON提供Claude培训与认证。

Anthropic行业动态
02:12
ClaudeDevs@ClaudeDevs
61
Claude 托管智能体可以在您控制的沙盒中运行,在您自己的基础设施上或您选择的任何提供商上运行。 今天我们新增了针对 @blaxelAI、@e2b、@googlecloud、@namespacelabs 和 @superserve_ai 的指南,以便您选择最适合您用例的方案。
智能体Anthropic产品更新
02:07
elvis@omarsar0
69
DAIR.AI创始人Elvis Saravia分享长期自主编码智能体运行经验

DAIR.AI创始人Elvis Saravia分享如何有效运行长期自主编码智能体。他指出当前多数模型难以协调工作,会过早暂停、犯错或走捷径(reward hacking)。关键在于明确目标、消除假设,避免模型自行推断。他的实践公式:用Opus 4.8进行细致规划,GPT-5.5执行所有步骤,评估器(通过/goal)则使用Deepseek及Qwen、Kimi、MiniMax等最新模型。另一关键洞察是提供多模态视觉线索作为目标,比纯文本目标更强,能更好地约束智能体。完整讨论已录制并免费开放。

智能体AnthropicDeepSeekOpenAI
02:04
Ars Technica:AI(RSS)
35
乌克兰测试用完全自主无人机击杀俄军士兵

完全自主的无人机仍属罕见,但乌克兰正为无人机和机器人加装AI模块,提升自主作战能力。此前一次测试中,乌军首次使用完全自主无人机击杀俄军士兵。

安全/对齐行业动态
01:59
PixVerse@PixVerse_
49
PixVerse 展示 AI 电影制作人 @Shanzyin_ai 使用 Canvas 工作流创作的维多利亚哥特风格短片《THE DREAM EATERS》。短片包含完整节点、多个镜头及项目文件,开放探索。剧情设定为古老庄园中青少年被迫吞噬权贵噩梦,一名有缺陷的新兵将黑暗拖回现实。PixVerse 推出限时活动:转发+关注+回复"DREAM",72 小时内可获得 150 Credits 及该工作流。

PixVerse: An ancient estate. Teenagers forced to devour the nightmares of the powerful. One defective recruit who drags the darkne...

图像生成教程/实践视频
01:58
The Decoder:AI News(RSS)
60
OpenAI 为 Codex 编程智能体推出灵活速率限制重置,开启 AI 价格战

OpenAI 现在允许 Codex 用户存储速率限制重置次数并手动触发,而非按固定时间到期。用户在使用中达到上限时可立即使用已保存的重置而无需等待。Go、Plus、Pro 和 Business 订阅计划用户各获得一次免费重置。Plus 和 Pro 用户还可通过邀请好友解锁额外重置。

OpenAI产品更新编码
01:56
Epoch AI@EpochAIResearch
64
FrontierMath: Tiers 1-4 (v2) 现已上线。 我们完成了一项审计,修正了 42% 的问题中的错误。排名相似,但整体得分更高。目前的领先者是 GPT-5.5 (xhigh),在 Tiers 1-3 上达到 85%,以及 Google 的 AI co-mathematician,在 Tier 4 上达到 76%。
GoogleOpenAI推理评测/基准
‹ 上一页
123…50
下一页 ›