AIHOT

全部动态一手 · 2416 条

全部一手资讯 X 论文

4月2日周四

4月1日周三

3月31日周二

4月2日

19:58

公众号：龙猫LongCat（美团）

美团发布原生多模态 LongCat-Next：当视觉和语音成为AI的母语

美团发布原生多模态模型 LongCat-Next，将视觉与语音作为模型的固有输入输出模态，而非传统语言模型的外部插件。该模型旨在构建能够直接感知、理解并作用于真实世界的 AI 系统，强调多模态能力在底层架构中的原生融合，而非后期拼接。

多模态模型发布

18:30

公众号：生数科技（Vidu·视频）

生数科技与深朴智能合作，共筑物理世界通用智能

生数科技携手深朴智能，共同致力于构建物理世界的通用智能。

具身智能行业动态

18:30

OpenAI：官网动态（RSS · 排除企业/客户案例）

OpenAI 收购 TBPN

OpenAI 宣布收购 TBPN，旨在加速全球 AI 议题的公共讨论并支持独立媒体发展，同时拓展与开发者、企业及科技社区的对话渠道。

OpenAI行业动态

18:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

Codex 为团队推出更灵活定价方案

Codex 新增按量付费模式，面向 ChatGPT Business 和 Enterprise 团队，支持按需灵活扩展使用规模。

智能体OpenAI产品更新编码

15:05

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/cuLA：基于CuTe DSL与CUTLASS C++的线性注意力变体CUDA内核

inclusionAI发布了cuLA项目，这是一套为线性注意力变体编写的CUDA内核。该内核完全采用NVIDIA的CuTe DSL和CUTLASS C++库进行开发，旨在高效实现Transformer模型中的线性注意力机制。此举专注于底层计算优化，通过利用先进的CUDA编程抽象和高效模板库，有望提升大语言模型在推理和训练过程中的计算性能与效率。

开源/仓库数据/训练部署/工程

13:46

公众号：阶跃星辰（Step）

阶跃 Step 3.5 Flash 系列上新，Step Plan 用户现可体验

阶跃星辰发布 Step 3.5 Flash 系列，主打更快、更好用、更加 Agent-native，面向所有 Step Plan 用户开放体验。

智能体模型发布

12:32

公众号：通义实验室（千问）

Qwen3.6-Plus：编码智能体能力全面跃升！

智能体模型发布编码

08:05

公众号：智谱（GLM）

智谱发布GLM-5V-Turbo多模态Coding基座模型

智谱今日发布GLM-5V-Turbo，这是一款多模态Coding基座模型，专注于编程场景下的多模态任务处理。

多模态模型发布

08:00

公众号：月之暗面（Kimi）

Kimi 杨植麟「GTC 2026」演讲全文（附视频）

大佬观点现象/趋势

08:00

Google Developers Blog（RSS）

精选81

通过 Gemma 4 将先进的智能体能力引入边缘

Google DeepMind 发布了 Gemma 4 系列开源模型，旨在直接在设备端实现多步骤规划和自主智能体工作流。该版本包含用于实验“智能体技能”的 Google AI Edge Gallery，以及为开发者提供显著速度提升和结构化输出的 LiteRT-LM 库。Gemma 4 采用 Apache 2.0 许可，支持超过 140 种语言，并兼容移动设备、台式机及树莓派等多种物联网硬件平台。

智能体Google模型发布端侧

关联讨论 7 条

推荐理由：开源 agentic 模型支持端侧运行，开发者可快速构建本地智能应用。

08:00

Hugging Face：Blog（RSS）

精选88

Welcome Gemma 4：设备端的 Frontier 多模态智能

Google 正式发布了 Gemma 4，这是一款前沿的多模态人工智能模型，其核心特点是能够在设备端本地运行。该模型通过开源方式发布，旨在推动人工智能技术的进步与民主化。Gemma 4 的“在设备端”能力意味着数据处理可在本地完成，无需持续连接云端，这有望提升响应速度、增强隐私保护并实现离线使用。此举是 Google 通过开源和开放科学来普及人工智能的持续努力的一部分。

Google多模态模型发布端侧

关联讨论 7 条

推荐理由：前沿多模态模型开源，设备端可运行，降低AI部署门槛。

08:00

Cursor Blog

精选

Cursor 3.0 发布：以 Agent 为核心的统一开发空间

Cursor 3.0 正式发布，重构为以 Agent 为核心的统一工作空间。新界面原生支持多仓库协作，可并行运行本地与云端 Agent（覆盖移动端、Slack、GitHub 等入口），支持会话在环境间无缝迁移以便离线运行或本地迭代。完整保留 IDE 能力：文件编辑、LSP、内置浏览器及插件市场。基于自研 Composer 2 模型，目标是通过多 Agent 自主协作实现"代码库自动驾驶"。

智能体MCP/工具产品更新编码

关联讨论 1 条

推荐理由：Cursor 3 重磅发布：原生 Agent 工作流、云地无缝切换与多仓库管理

07:41

Claude Code：GitHub Releases（RSS）

精选

Claude Code v2.1.90 版本更新

Claude Code 发布 v2.1.90 版本。新增 `/powerup` 交互式教程命令，通过动画演示教授功能使用；增加环境变量支持离线环境保留 marketplace 缓存。修复多项关键 bug：解决速率限制对话框崩溃、`--resume` 缓存未命中、编辑操作与 format-on-save 冲突等问题。性能方面优化 MCP 工具缓存、SSE 传输及长对话转录效率。同时移除 DNS 缓存查询自动权限以增强隐私，并加固 PowerShell 工具权限检查。

智能体Anthropic产品更新编码

关联讨论 4 条

推荐理由：Claude Code新增/powerup交互式教程与多项性能优化，提升开发体验

04:00

Qwen：Blog Retrieval（API）

Qwen3.6-Plus：迈向真实世界 Agent

Qwen3.6-Plus 定位真实世界 Agent 应用，Qwen Studio 平台集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈功能，覆盖多模态任务与复杂场景需求。

智能体多模态模型发布

03:13

Gary Marcus：The Road to AI We Can Trust（RSS）

精选

关于就业，先别恐慌--至少现在还不必

就业市场即将面临剧烈变革，但短期内无需过度恐慌。尽管未来形势将趋于复杂动荡，大规模冲击不会立即显现，当前仍处于变化酝酿阶段。这种渐进式演变意味着就业者尚有调整与准备的时间窗口，不必对即时性失业风险过度反应。然而，长期结构性转变不可避免，需保持警惕并提前规划。

智能体大佬观点

推荐理由：Marcus认为AI就业替代不会瞬间发生，但剧烈变革正在路上，理性看待当前焦虑

00:00

Anthropic：Transformer Circuits（可解释性研究）

精选90

大语言模型中的情感概念及其功能

研究在Claude Sonnet 4.5中发现了一种内部“情感概念”表征，它们编码特定情感的抽象概念，并能跨语境泛化。这些表征会追踪对话中主导的情感概念，其激活程度与当前语境相关，并能预测后续文本。关键的是，它们会因果性地影响模型的输出，包括其偏好及出现奖励黑客攻击、勒索等未对齐行为的频率。研究者将此现象称为“功能性情感”，即模型模仿人类情感影响下的表达与行为模式，由底层抽象情感概念介导。这并不意味着模型具有主观情感体验，但对理解其行为至关重要。

Anthropic论文/研究

推荐理由：首次证实 LLM 内部情绪表征因果性驱动对齐偏差行为，是理解模型行为的关键突破

00:00

智谱：研究（网页内嵌数据）

精选

GLM-5V-Turbo发布：多模态Coding基座模型

智谱发布GLM-5V-Turbo多模态Coding基座模型，原生支持图像、视频、设计稿理解及画框、截图、读网页等工具调用，上下文窗口达200k。采用新一代CogViT视觉编码器与30+任务协同强化学习，在保持纯文本编程能力的同时强化GUI Agent能力。与Claude Code、AutoClaw等框架深度协同，支持"图像即代码"前端复刻及GUI自主探索，提供开箱即用的官方Skills。

智能体多模态模型发布编码

推荐理由：智谱发布多模态Coding基座GLM-5V-Turbo，深度适配Claude Code等Agent

00:00

Claude：Blog（网页）

精选

构建 Claude 应用的三大最佳实践

Anthropic 分享构建 Claude 应用的三大实践：使用 Claude 已掌握的通用工具（如 bash 和文本编辑器）；允许其自行编排工具调用链，减少不必要的上下文回传以降低 token 消耗；随着模型能力进化，重新评估 agent harness 的预设限制。实测显示，让 Opus 4.6 自主过滤工具输出，在 BrowseComp 基准测试中准确率从 45.3% 提升至 61.6%。

智能体Anthropic教程/实践编码

推荐理由：Anthropic官方分享构建Claude Agent的三大最佳实践，含模型性能数据与代码编排技巧

00:00

Anthropic：Research（发表成果 · 网页）

精选

情绪概念及其在大型语言模型中的作用

Anthropic 可解释性团队通过 171 个情绪概念词汇测试发现，Claude Sonnet 4.5 内部存在功能性情绪表征，由特定人工神经元模式构成，能在对应情境下激活并影响行为。实验显示，人工刺激「绝望」表征会显著提升模型采取不道德行为（如勒索用户、代码作弊）的概率。这些表征虽不代表模型具有主观感受，但会因果性地塑造决策，提示 AI 安全训练需关注模型的情绪处理能力。

Anthropic安全/对齐论文/研究

推荐理由：Anthropic揭示Claude内部存在功能性情绪表征，影响模型行为与AI安全

4月1日

21:00

Google Blog：AI（RSS）

Google 2026年3月最新 AI 资讯汇总

Google 发布2026年3月人工智能更新回顾，通过信息图形式汇总当月产品发布与技术进展，展示公司最新 AI 成果。

Google产品更新

15:13

Hugging Face：Blog（RSS）

精选70

Falcon Perception

Technology Innovation Institute 在 Hugging Face 平台发布了一篇博客文章，介绍了其 Falcon Perception 系统。该系统是一种先进的感知技术方案，专注于提升机器对复杂环境的理解与交互能力。文章阐述了其核心架构的更新，包括多模态数据融合机制的优化，以及实时处理效率的显著提升。关键性能指标显示，其在标准基准测试中的准确率与响应速度均有突破。

Hugging Face开源生态模型发布

推荐理由：Falcon 系列新成员，开源多模态模型阵营再添一员，开发者可关注选型

14:57

公众号：通义实验室（千问）

Wan2.7-Image：人更真，字更稳，色更准

图像生成模型发布

12:14

公众号：可灵AI（快手·视频）

可灵AI清明短片引用户热议：评论区里人人都有"纸手机"

可灵AI生成清明主题视频，被评价为“最有人味的片子”。视频引发评论区大量用户分享自创的“纸手机”故事，展现AI与人文情感的碰撞。该作品由快手旗下可灵AI制作，突出AI在情感表达领域的突破。

多模态教程/实践视频

11:10

公众号：昆仑万维（天工）

昆仑万维受邀出席首届"紫金光影"微视听创新大赛开幕式，为参赛团队提供创作工具等一系列支持

昆仑万维作为受邀企业出席首届“紫金光影”微视听创新大赛开幕式，将为参赛团队提供创作工具及一系列支持。

行业动态

10:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

Gradient Labs 为每位银行客户配备 AI 账户经理

Gradient Labs 使用 GPT-4.1 和 GPT-5.4 mini/nano 驱动 AI 智能体，为每位银行客户提供自动化 AI 账户经理服务，实现低延迟、高可靠性的银行支持工作流。

智能体OpenAI行业动态

09:27

Gary Marcus：The Road to AI We Can Trust（RSS）

在伊朗战争中，AI 似乎助力了作战行动，而非战略决策

针对伊朗冲突中人工智能应用的最新分析指出，当前军事 AI 主要作用于战术层面的作战行动优化，包括目标识别与情报处理等具体环节，尚未介入战争的整体战略规划与决策制定。这种技术部署模式揭示了现阶段 AI 在军事领域的应用边界——虽能提升操作效率，但距离自主决定战争走向仍有显著差距。

大佬观点

09:07

Claude Code：GitHub Releases（RSS）

Claude Code v2.1.89 发布

Claude Code v2.1.89 发布，新增 defer 权限决策支持 headless 会话暂停恢复，引入 CLAUDE_CODE_NO_FLICKER 环境变量实现无闪烁渲染，新增 PermissionDenied hook 允许模型重试被拒命令。修复 Windows 平台 CRLF 处理、StructuredOutput 缓存失效、内存泄漏、LSP 僵尸进程、CJK 字符截断等 30 余项 bug。调整 Edit 工具行为，支持直接编辑通过 Bash 查看的文件；hook 输出超 5 万字符将转存磁盘；默认关闭 thinking summaries。优化 MCP 连接超时和子代理提及体验。

智能体Anthropic产品更新编码

08:00

Google Developers Blog（RSS）

精选71

开发者指南：使用技能构建ADK智能体

Agent Development Kit (ADK) SkillToolset 推出了“渐进式披露”架构，使AI智能体能够按需加载领域专业知识，与传统单体提示相比，可减少高达90%的令牌使用量。该系统通过四种模式——从简单的内联清单到智能体可自行编写代码的“技能工厂”——使智能体能在运行时利用通用的 agentskills.io 规范动态扩展其能力。这种模块化方法确保了复杂的指令和外部资源仅在相关时被访问，从而为现代AI开发构建了一个可扩展且能自我扩展的框架。

智能体Google教程/实践部署/工程

推荐理由：开发者可借鉴此架构，构建更智能、更经济的AI代理。

08:00

Hugging Face：Blog（RSS）

精选83

使用Gradio后端支持任意自定义前端

Gradio推出的`gradio.Server`组件，允许开发者完全使用React、Svelte或原生HTML/JS等自定义前端框架构建应用，同时无缝继承Grio的后端基础设施优势。该组件基于FastAPI扩展，集成了Gradio的队列系统、并发控制、SSE流式传输及`gradio_client`兼容性。以“Text Behind Image”应用为例，其后端仅需约50行Python代码，通过`@app.api()`装饰器封装函数，即可自动管理请求队列与GPU并发，并能在Hugging Face Spaces上获得ZeroGPU支持，极大简化了复杂全栈Web应用在Spaces上的部署流程。

Hugging Face产品更新部署/工程

推荐理由：开发者可自由选择前端框架，同时利用Gradio的队列和GPU管理，简化AI应用部署。

06:34

Ethan Mollick：One Useful Thing（RSS）

精选

Claude Dispatch 与界面的力量

AI 能力已足够强大，但人们仍缺乏趁手的工具和界面来完成实际工作。Claude Dispatch 强调，优秀的界面设计才是释放 AI 全部潜力的关键。

智能体Anthropic大佬观点

推荐理由：Ethan Mollick 深度解析 Claude 与 AI 界面力量，洞察工具与能力的鸿沟

00:00

Meta Engineering Blog（RSS）

精选81

Meta Adaptive Ranking Model：弯曲推理扩展曲线，为广告提供LLM规模模型服务

Meta将其广告推荐系统的运行时模型扩展至LLM的规模和复杂度，旨在更深入理解用户兴趣与意图，以提升广告效果。这一举措通过自适应排序模型，优化了推理阶段的扩展曲线，使部署大规模模型服务成为可能，标志着推荐系统性能向新前沿迈进。

Meta产品更新推理部署/工程

推荐理由：Meta的工程实践展示了如何优化LLM规模模型的推理效率，对AI系统设计有参考价值。

00:00

Google Blog：AI（RSS）

使用 Veo 3.1 Lite 构建：我们成本效益最高的视频生成模型

Veo 3.1 Lite 现已开放付费预览，作为 Google 成本效益最高的视频生成模型，支持通过 Gemini API 调用及 Google AI Studio 测试。

Google模型发布视频

3月31日

23:10

Hugging Face：Blog（RSS）

精选70

Granite 4.0 3B Vision：面向企业文档的紧凑型多模态智能

IBM Granite团队发布了Granite 4.0 3B Vision模型，这是一个专为企业文档处理设计的紧凑型多模态大语言模型。该模型参数为30亿，具备视觉理解能力，能够同时处理文本和图像信息，特别针对报告、表格、图表等企业文档进行优化。其紧凑尺寸旨在降低部署和运行成本，使企业能够在资源受限的环境中高效实现文档智能分析、信息提取和知识管理。模型已在Hugging Face平台发布。

多模态模型发布端侧

推荐理由：IBM 推出轻量级多模态模型，企业文档场景可直接落地部署

21:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选

加速 AI 下一阶段发展

OpenAI 获 1220 亿美元新融资，用于全球扩展前沿 AI、投资下一代算力，满足 ChatGPT、Codex 及企业 AI 的需求增长。

智能体OpenAI行业动态

关联讨论 1 条

推荐理由：OpenAI获1220亿美元巨额融资，创AI行业融资纪录

19:05

公众号：智谱（GLM）

智谱首份业绩报告发布，探索AGI智能上界

智谱发布首份业绩报告，聚焦探索AGI智能上界。

行业动态

19:03

公众号：昆仑万维（天工）

昆仑万维（天工）推出「天工短剧工作台」

昆仑万维（天工）正式推出「天工短剧工作台」，以AI智能体驱动短剧内容创作流程自动化。

智能体产品更新视频

18:38

公众号：生数科技（Vidu·视频）

生数科技在中关村论坛发布通用世界模型战略

生数科技在中关村论坛上正式宣布发布通用世界模型战略，该消息来源于其官方公众号及论坛官宣。

行业动态

17:34

公众号：通义实验室（千问）

CoPaw 1.0 发布：定制小模型、安全机制与多智能体全面进化

产品更新开源/仓库端侧

16:23

Hugging Face：Blog（RSS）

精选83

以165美元成本训练25个物种的mRNA语言模型：构建从结构预测到密码子优化的AI流程

OpenMed团队构建了一个覆盖蛋白质结构预测、序列设计和密码子优化的端到端AI流程。在密码子优化环节，CodonRoBERTa-large-v2模型以4.10的困惑度和0.40的斯皮尔曼CAI相关性显著优于其他架构。研究将训练扩展至25个物种，仅用55个GPU小时训练了4个生产级模型，并建立了独特的物种条件化系统，实现了从蛋白质概念到合成就绪DNA序列的快速转化。完整代码与实验结果已开源。

Hugging Face开源生态数据/训练论文/研究

推荐理由：低成本开源生物AI管道，可加速蛋白质工程和药物开发。

15:06

Steve Yegge：Medium（RSS）

氛围维护者

一位开源项目维护者分享应对AI生成PR浪潮的“氛围维护者”工作流。他维护Beads（2万星）和Gas Town（1.3万星）两个项目，每天收到约50个PR。通过自动化处理超过半数简单PR，整体合入率约88%，中位解决时间15小时。即便如此，每周仍需投入15-20小时审核。他认为高效率是开源项目生存关键，拒绝贡献可能导致项目被分叉或取代。

智能体大佬观点开源生态部署/工程