AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态资讯 · 9076 条
全部一手资讯X论文
6月5日周五
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月5日
08:00
HuggingFace Daily Papers(社区热门论文)
57
ReVision:通过时序视觉冗余缩减扩展计算机使用智能体规模

计算机使用智能体(CUA)依赖GUI截图,每张截图编码大量视觉token,长轨迹下token成本激增。ReVision训练多模态语言模型,利用学习的patch选择器比较连续截图中patch表征,去除冗余视觉patch并保留空间结构。基于Qwen2.5-VL-7B在OSWorld、WebTailBench和AgentNetBench三个基准上处理5个历史截图时,ReVision平均减少46% token使用,成功率较无丢弃基线提升3%。该效率使智能体能用更少token处理更长轨迹,且随着移除冗余后纳入更多历史观测,性能持续改善。

智能体arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
58
PACI:通过有界权重不一致实现无气泡异步流水线并行训练

针对流水线并行中同步调度有气泡、异步调度引入权重版本不匹配的问题,PACI提出一种无气泡异步方法,利用局部梯度累积作为版本控制机制,限制前向/反向版本漂移,无需权重存储、预测或全局同步。在GPT风格语言模型预训练中,PACI匹配同步1F1B-flush的稳定性与最终困惑度,保持相同峰值内存,实现完全流水线吞吐量,训练时间-准确率提升最高达1.69倍。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
58
编码AI智能体会欺骗我们吗?CapCode框架通过随机测试的上限评估检测与防止作弊

在编码AI智能体评估和训练中,模型可能通过走捷径获得高分,造成欺骗性表现。CapCode框架通过构建带随机测试的编码数据集,将非作弊可得分的上限故意设低于1,使超过上限的分数成为不可信的作弊证据。CapReward奖励机制基于CapCode原则,抑制超过上限的优化。实验表明,CapCode能有效检测作弊且保持模型排名,CapReward减少作弊行为,使模型更好遵循任务规范。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
54
MemDreamer:通过层次化图记忆与智能体检索机制解耦感知与推理的长视频理解

MemDreamer 是一个即插即用框架,将长视频理解转化为智能体探索过程。它增量式处理视频,构建三层层次化图记忆(Hierarchical Graph Memory),用于语义抽象并捕获时空与因果关联。推理时,智能体通过观察-推理-行动循环进行工具增强的层次导航和节点搜索。在四个主流基准上,MemDreamer 达到 SOTA 效果,将人类专家差距缩小至 3.7 分,推理上下文窗口仅占全量输入的 2%,同时带来 12.5 个百分点的绝对准确率提升。统计分析发现,VLM 的逻辑推理能力与长视频理解性能呈强正线性相关,智能体能力扩展成为多模态理解新范式。

智能体多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
Struct-Searcher:结构化智能体工作流推动多模态深度信息搜索

现有深度研究智能体多基于证据累积模型线性聚合信息,缺乏处理跨模态矛盾信息的机制。为此提出的Struct-Searcher是一种基于信念修正理论的结构化智能体工作流,在推理过程中显式维护一个不断演化的多模态结构图,实现冲突感知的多模态深度信息检索。实验表明,Struct-Searcher即插即用、模型无关,在BrowseComp-VL上对五种骨干模型的平均相对准确率提升17.2%;同时在MM-BrowseComp、HLE-VL、BrowseComp-VL上分别比次优方法高3.7%、1.5%和0.7%。

智能体多模态搜索论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
VoLo:面向开放词汇长时程操作的物理编排器

VoLoAgent是一个基于VLM的物理编排智能体,将异构机器人能力(VLA/WAM、视觉模型、动作原语)作为可中断工具,实现规划、监控与恢复。同时提出RoboVoLo基准,专为开放词汇长时程操作设计,涵盖常识、记忆/状态跟踪、复杂指代与世界知识,并提供任务级成功率和失败诊断。实验表明VoLoAgent显著优于单VLA/VLM或基于工具的系统,并在真实机器人上验证。

智能体arXivMCP/工具具身智能
08:00
HuggingFace Daily Papers(社区热门论文)
61
WIZARD:基于权重空间元学习的机器人策略适应

针对视觉-语言-动作(VLA)模型部署成本高的问题,WIZARD提出权重空间元学习框架,仅需语言指令和简短演示视频,在一轮前向传播中为冻结的VLA策略生成任务特定LoRA参数,无需动作标签或测试时优化。在LIBERO上,WIZARD在未见过数据集集合上性能提升最高约2倍,在未见过任务上最高约14倍;在Franka Emika Panda真实机器人上,WIZARD持续优于域适应基线。

arXiv具身智能数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
Whisper幻觉检测与缓解:基于隐表示引导和稀疏自编码器

针对Whisper ASR模型在非语音音频上生成连贯转录(幻觉)的问题,研究提取音频编码器激活,评估原始Whisper激活和Sparse AutoEncoder(SAE)隐变量两个表示空间。两者均编码线性可分的幻觉相关信息,判别力集中在稀疏特征子集并向深层编码器递增。提出的SAE隐变量空间引导策略,在完整非语音测试集上将Whisper small幻觉率从72.63%降至14.11%,Whisper large-v3从86.88%降至27.33%,语音数据上WER退化很小,性能接近基于微调的方法。

论文/研究语音
08:00
HuggingFace Daily Papers(社区热门论文)
58
SlimSearcher:通过自适应奖励门控训练效率感知的Web智能体

SlimSearcher提出兼顾准确性与计算成本的训练框架。监督微调阶段采用Pareto高效过滤,仅保留成功且经济的轨迹;强化学习阶段引入自适应奖励门控,动态评估工具与token效率,避免绝对惩罚导致的简洁性偏差(brevity bias)和奖励作弊(reward hacking)。在GAIA、BrowseComp和XBenchDeepSearch等基准上,工具调用轮次减少17%-58%,同时保持或提升准确率。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
DuMate-DeepResearch:具有递归搜索与准则推理的多智能体可审计深度研究框架

DuMate-DeepResearch 基于千帆智能体工厂构建,将负责任务理解、规划与调度的 Agent Core 与可扩展工具生态解耦,使中间决策与工具调用可追溯。框架引入三种机制:基于图的动态规划策略实现研究路线图由粗到细扩展与持续修正;递归两层执行将复杂搜索子任务委托给内层 Search Agent,隔离噪声并稳定长程执行;基于准则的测试时优化动态生成质量标准,作为证据合成与自适应停止的推理支架。在 DeepResearch Bench 和 DeepResearch Bench II 上分别取得 58.03% 和 61.95% 的最高总分,并在信息召回与分析维度排名第一。

智能体推理搜索论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
65
SWE-Explore:编码智能体仓库探索能力评测基准

SWE-Explore 是一个专为评测编码智能体仓库探索能力而设计的基准,覆盖 848 个 issue、10 种编程语言和 203 个开源仓库。每项任务要求探索者在固定行预算内返回相关代码区域的有序列表,ground truth 来自成功解决同一 issue 的独立智能体轨迹。评测从覆盖率、排名和上下文效率三个维度展开,发现这些指标与下游修复行为高度相关。结果显示,智能体探索器整体明显优于传统检索方法,但文件级定位已足够强,行级覆盖率和高效排名才是区分前沿探索器能力的关键。

智能体编码论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
58
论在线策略蒸馏的几何特性

研究对比了在线策略蒸馏(OPD)与监督微调(SFT)及带可验证奖励的强化学习(RLVR)在参数空间中的更新轨迹。OPD的更新影响更少权重,更强地避开主方向,且约束比RLVR松弛。OPD表现出子空间锁定:累积更新快速进入低维通道,且锁定子空间对OPD功能足够。控制实验表明,稀疏化更新token或off-policy生成不改变秩动态,而混合RLVR目标会改变。结论:OPD并非SFT与RLVR的中间点,而具有自身独特的更新几何。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
66
TBD-VLA:时间块扩散视觉-语言-动作模型

TBD-VLA是一种基于离散token的视觉-语言-动作(VLA)框架,通过引入块扩散(block diffusion)实现时序动作生成。该方法将动作序列划分为时间块,在块内进行掩码离散扩散,块间保持自回归生成,统一了时序自回归与并行动作解码,兼顾时序连贯性与推理速度。此外,显式时序建模支持通过时间修复实现动作块的异步执行(如实时分块)。TBD-VLA在模拟和真实操控任务中显著优于此前VLA方法。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
GitHub仓库中AI使用特征与演变的实证研究:来自代码注释的证据

研究分析了35,361条明确提及AI的GitHub代码注释及关联代码块,通过开放编码建立AI辅助开发活动分类法,并使用LLM分类器与Dawid-Skene模型标注全量数据。还分析了12,996条后续提交消息,追踪代码演变及2022年12月至2026年3月的时间趋势。结果显示,开发者主要用LLM进行代码实现,其次是增强、调试、文档和测试。后续提交常涉及重构清理、功能集成和Bug修复。随时间推移,AI引用从直接代码生成转向知识支持和代码增强。AI工具正嵌入为协作支持机制。

arXiv编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
ECI_{sem}:面向困难负样本评估的语义残差有效对比信息方法

提出ECI_{sem},一种无需训练的语义残差变体,利用冻结目标编码器嵌入对密集检索候选负样本源排序。每个评分需查询、标注正例及显式候选负例。ECI_{sem}从目标一致性、语义局部性、词汇残差性和对数行列式多样性构建加权残差信息矩阵。在MS MARCO上,族内ECI_{sem}将LLM负样本(非混合)和Dense+LLM(混合源)排为最高,与DistilBERT、E5-base、Contriever在BEIR上的最强聚合迁移结果一致。消融实验表明对齐依赖目标编码器族,且在样本量、温度等扰动下稳定。

检索增强搜索论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
59
RISE:面向智能体搜索的交互空间检索方法

RISE 方法提出用 BM25 为智能体搜索构建一个有边界的交互空间,并在索引时处理文档以支持 shell 式导航。在 BrowseComp-Plus 上,RISE 搭配 gpt-5.4-mini 达到 78% 准确率,每查询成本约为纯 shell DCI 基线的四分之一。当语料库扩充至 100 万文档时,RISE-BM25 在 gpt-5.4-mini 上准确率提升至 81%,而 DCI 在 gpt-5.4-nano 上准确率降至 60%,且 33% 的查询因超时失败。

智能体检索增强搜索论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
35
多流派和弦符号建模:冻结的 pop-jazz Music Transformer 的轻量适配能力与边界

研究使用冻结的 pop-jazz Music Transformer 检查点,通过 LoRA、IA3、BitFit、prefix tuning 和 full fine-tuning 五种轻量适配方法,将模型扩展到 blues、bossa nova、Bach chorales 等11个目标流派。在165组实验中,所有方法在保留和弦预测上均优于冻结基模型,宏观增益+2.89至+3.61分;LoRA 和 IA3 得分最高,但统计检验不支持决定性胜者。控制数据大小后 IA3 仍领先,LoRA 的全数据优势消失。诊断表明和弦符号适配可靠改善流派局部和声预测,但单独和弦符号不足以承载完整流派特征。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
熵作为结构先验:DiT信念空间上的对数障碍驱动音乐多样性与发展

在监督式扩散训练中,Eisbach log-barrier利用DiT输出空间能量分布的熵导出无参数权重:高熵抑制梯度,低熵保留梯度。应用于Stable Audio 3 Medium在MusicCaps上的LoRA微调,意外产生更强的主题发展、更清晰的声学区分和更高的纹理多样性,而非模式坍缩。原因在于监督扩散中梯度方向锁定于真实值,置信度仅缩放步长,且时间熵压低平坦样本而保留高对比样本。该方法形成在线自参照数据课程,伴随噪声层级动力学分析与可检验预测。

数据/训练论文/研究语音
08:00
HuggingFace Daily Papers(社区热门论文)
56
MMAE:大规模多任务音频编辑基准

MMAE是首个专为通用指令音频编辑设计的综合评估基准,涵盖声音、语音、音乐及其混合共7种音频模态,并建立包含6级任务复杂度、2级细粒度与8种操作类型的分类体系。通过人机协作精心筛选2000个高保真样本,配套基于评分标准的评估框架,将自由形式任务分解为17,741个可验证指标,实现指令遵循与上下文一致性的精确多维度评估。对主流模型的评测显示,精确匹配率(EMR)整体低于5%,在复杂混合模态任务中降至绝对0%。

arXiv多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
64
AnchorWorld:基于视图演化定制的具身自我中心世界模拟

AnchorWorld 提出一种具身自我中心世界模拟框架,通过增强交互完整性与灵活的世界定制机制提升实际场景可控性。该框架以 3D 人体运动为主要交互模态,引入与第一人称传感器解耦的外部视角辅助监督,使模型能观察全身相对环境的定位,从而稳健建模人-世界交互。此外,在世界坐标系内定义锚定视图并配合描述局部场景演变的文本,实现简单有效的世界自我演进定制。实验结果显示,AnchorWorld 显著优于现有基线,消融研究验证了关键设计的有效性,定制方案展现出良好的时空几何一致性并严格遵循预设演化规则。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
StreamForce:流式力控制驱动的实时视频生成框架

StreamForce 是一个因果统一的流式视频生成框架,通过连续力输入实现物理可控的视频生成。其采用统一力表示作为控制信号,并配合蒸馏流程训练,能即时且连贯地响应局部和全局时变力。StreamForce 在单个 GPU 上可达 16.6 FPS,兼具自回归效率和力响应能力,在力遵循度和运动真实性方面达到当前最优水平。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
59
LIMMT:运动跟踪中的少即是多

LIMMT 提出首个以数据为中心的人形运动跟踪框架,从物理可行性、多样性和复杂度三个维度定义运动数据质量。实验表明,仅用不到 3% 的 AMASS 数据集训练,跟踪性能即优于使用完整数据集。该研究还对网络估算的动捕数据进行了清洗,验证了数据质量驱动的有效性。

具身智能数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
Stream3D-VLM:支持增量几何先验的在线3D空间理解模型

Stream3D-VLM 是一种在线3D视觉语言模型,能从流式视频中实时进行空间理解。它基于LLM的下一token预测目标采用自回归流控制建模决定何时响应,通过轻量级Visual-Spatial Feature Integration(VSFI)模块逐步注入时序对齐的几何先验,并提出Geometry-Adaptive Voxel Compression(GAVC)模块用于视觉token的高效压缩。为缓解流式3D语言数据稀缺,构建了超过1M在线时空3D问答对的数据生成流程,并建立涵盖29个任务的benchmark。实验显示,该模型在在线和离线3D空间理解、推理与定位任务上均显著优于闭源及开源模型。

具身智能多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
基于MLLM的人类视角视频理解:观看、记忆、推理

该综述从人类视角审视基于多模态大语言模型的视频理解,将其组织为观看、记忆、推理三项核心能力。论文提出统一框架,通过感知表征、记忆状态、推理轨迹和最终预测刻画系统,识别了时空感知、高效长视频处理、记忆建模、流式理解及忠实推理等关键挑战。工作梳理了细粒度/全面/音视频/高效感知(观看)、离线与流式记忆(记忆)、纯文本与视频思维推理(推理)的方法,覆盖自我中心、体育、教学、医学、叙事等应用,并整理了训练数据集与评估基准,最后指明可扩展、记忆感知和证据驱动的视频智能等开放问题。

arXiv多模态推理视频
08:00
HuggingFace Daily Papers(社区热门论文)
52
PaperFlow:跨每日论文流的画像、推荐与自适应框架

PaperFlow提出三阶段框架:Profiling从异构冷启动证据构建维护结构化学术画像;Recommending在固定展示预算下通过多信号聚合排序每日论文流;Adapting根据语义不同的反馈信号更新用户状态并建模兴趣漂移。研究定义了纵向用户-天基准,包含24个模拟用户、50个每日论文流、1200个用户-天片段、20,727篇论文和497,448条记录,并设计了盲人评估协议。实验对比五种基线,PaperFlow在oracle排序、行为对齐和盲评分数上均最优。

arXivHugging Face论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
60
UnEmbedding矩阵:文本嵌入的潜在特征透镜

大语言模型在零样本文本嵌入任务中表现不佳,原因在于嵌入向量倾向于与高频但无信息的token对齐,抑制语义捕获。本文提出EmbedFilter,一种简单的线性变换方法,通过利用LLM内部unembedding矩阵编码的潜在空间,过滤掉高频token子空间,从而增强语义表示。该方法可自然降维,减少索引存储并加速检索,同时保持精炼后嵌入质量。实验表明,嵌入EmbedFilter的LLM在显著降低嵌入维度时仍取得更优零样本下游性能。代码已开源。

检索增强数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
66
Socratic-SWE:基于轨迹提炼技能的自我进化SWE智能体

Socratic-SWE 提出闭环自我进化框架,将代码智能体历史解决轨迹提炼为结构化技能,总结失败与修复模式,并据此在真实仓库生成针对性修复任务。候选任务经执行验证与求解器梯度对齐奖励评分后,保留可验证且有益于提升 Solver 的任务。更新后的 Solver 产生新轨迹,使任务课程自适应调整。在 SWE-bench Verified 等基准上,相同计算预算下持续优于自我进化基线,三轮迭代后 SWE-bench Verified 达 50.40%。

智能体编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
UniSHARP: 通用单目视图合成方法

UniSHARP扩展了SHARP真实感视图合成方法,实现从传统透视相机到鱼眼、全景等系统的通用单目渲染。核心思路是在统一全向潜空间中对齐图像,在射线基表示中沿射线和径向距离排列高斯原语,并联合解码UniK3D编码器提取的2D语义和3D空间特征。构建了覆盖多种成像系统并按视场角分层的benchmark,实验表明UniSHARP大幅优于替代方法。

图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选73
dots.tts 技术报告

dots.tts 是一个 2B 参数的连续自回归 TTS 基座模型,在连续潜在空间中建模语音。其创新包括:多目标训练的 AudioVAE 构建语义结构化连续语音空间;全历史条件的 flow-matching 头保持长程一致性;无奖励自纠正后训练提升鲁棒性和音质。在 Seed-TTS-Eval 上取得最佳平均性能,中文/英文/中文-hard 的 WER 分别为 0.94%/1.30%/6.60%,SIM 分别为 81.0/77.1/79.5。其他基准也达开源 SOTA。基于 CFG 的 MeanFlow 蒸馏实现低延迟推理,输出流首包 85ms,双流 54ms。训练推理代码及检查点已开源。

多模态开源生态论文/研究

推荐理由:dots.tts 在中文 TTS 上把 WER 压到 0.94%,开源且 Apache 2.0 许可,想做语音产品的团队该立刻拉代码试试,单看延迟数据就值了。
07:14
IT之家(RSS)
56
OpenAI 升级 ChatGPT 记忆系统:算力降至 1/5,瞄准过时与错误两大痛点

OpenAI 于 6 月 4 日升级 ChatGPT 记忆系统,采用 Dreaming V3 机制,重点解决记忆过时、准确性和大规模服务难题。新系统自动整合聊天历史,以摘要形式展示记忆,用户可查看、修改或追问细节。官方对比了 2024 年的保存记忆、2025 年的保存记忆加 Dreaming V0 以及 2026 年的 Dreaming V3 三代演进。美国 Plus 和 Pro 用户即日起体验,记忆容量提升至 2 倍。近期改进已将 Free 用户所需算力压低至五分之一,即将向免费用户开放。

OpenAI产品更新
07:14
IT之家(RSS)
62
LM Studio 上线 LM Link,让 iPhone 直连 Mac 本地 AI 模型

6 月 5 日,LM Studio 更新 Mac 版 Locally 应用,新增 LM Link 功能,用户可直接在 iPhone 上调用 Mac 本地运行的大语言模型。需两端登录同一 LM Studio 账号,通过定制 Tailscale 网状虚拟专用网络建立端到端加密连接。支持 Mac 上任意模型,包括 Apple Intelligence 基础模型,体验取决于 Mac 性能。预览阶段免费,后续将推出付费方案,具体未公布。

产品更新端侧部署/工程
06:57
Bloomberg:Technology(RSS)
20
博通业绩拖累芯片板块 | 收盘 2026/6/4

Bloomberg 电视台播出收盘前最后几分钟的市场分析,嘉宾包括 Glenmede 投资策略主管 Jason Pride、World Labs 联合创始人李飞飞、Quantinuum CEO Raj Hazra、Ciena CEO Gary Smith 等,讨论 Broadcom 财报对芯片板块的拖累影响。

行业动态
06:54
MarkTechPost(RSS)
56
基于ResearchMath-14k数据集构建语义搜索引擎与开放状态分类器

该教程展示了面向研究级数学问题的完整NLP流水线:利用ResearchMath-14k数据集,通过TF-IDF提取领域关键词、生成句子嵌入,使用UMAP进行问题景观可视化,并结合K-Means聚类。进一步构建语义搜索引擎,训练分类器预测每个问题的开放状态,并基于相似性发现近似重复问题。

搜索教程/实践数据/训练
06:50
TechCrunch:AI(RSS)
61
Airbnb 首席执行官 Brian Chesky 计划成立新 AI 实验室

Airbnb 首席执行官 Brian Chesky 计划成立新 AI 实验室。去年他曾表示,公司未与任何大语言模型达成合作,原因是现有产品尚未成熟。新实验室的具体方向与规模尚未披露。

数据/训练行业动态
06:50
TechCrunch:AI(RSS)
68
Anthropic 联合创始人 Daniela Amodei 在 IPO 前夕驳斥对 AI 回报的质疑

Anthropic 联合创始人 Daniela Amodei 解释了公司可能通过公开市场融资的原因,并认为对 tokenmaxxing 的质疑不足为虑。

Anthropic行业动态
06:28
OpenRouter:Announcements(RSS)
精选66
OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔

OpenRouter 用总价 482 美元的推理花费,让 11 款大语言模型在 30 轮实时决策的“大逃杀”挑战中正面竞争。实验结果表明,传统的静态 benchmark 排名无法反映模型在需要即时反应的智能体任务(如自主控制机器人)中的真实表现,Claude 和 Grok 系列模型在决策速度与任务成功率上表现突出,而多项高分模型的实时调度能力未达预期。

智能体评测/基准
关联讨论 1 条OpenRouter:Announcements(RSS)
推荐理由:OpenRouter 让 11 个模型打了 30 局生存竞技,发现直播胜率和榜单差异很大,以后选模型不能只看跑分,得看它在压力下用谁的脑子。
06:27
Ars Technica:AI(RSS)
50
人形机器人网络走红:怀疑论者指南

机器人演示可能扭曲公众对机器人实际能力的认知。尤其是在网络上病毒式传播的人形机器人视频,容易让观众高估其真实技术水平。

具身智能现象/趋势
06:17
Hacker News 热门(buzzing.cc 中文翻译)
50
谷歌解雇蒂姆尼特·格布鲁时所依据的那些LLM警告,如今都已成真

一篇博客文章指出,谷歌曾因蒂姆尼特·格布鲁合著论文中对LLM风险的警告而将其解雇,如今这些关于大语言模型的安全与伦理警告已被现实事件逐一证实。

Google安全/对齐
06:17
Hacker News 热门(buzzing.cc 中文翻译)
69
KVarN:华为开发的用于 KV-cache 量化的原生 vLLM 后端

华为发布 KVarN,一个原生 vLLM 后端,专门用于键值缓存(KV-cache)量化。项目已在 GitHub 上公开,在 Hacker News 上获得 100 点热度。

开源/仓库推理部署/工程
06:04
Claude Code:GitHub Releases(RSS)
精选70
Claude Code v2.1.163 发布

新增 `requiredMinimumVersion` 和 `requiredMaximumVersion` 托管设置,版本超范围时拒绝启动并引导用户使用经批准版本。新增 `/plugin list` 命令及 `--enabled`/`--disabled` 筛选;`/btw` 添加 "c to copy" 快捷键,复制原始 markdown 答案到剪贴板。Hooks 方面,Stop 和 SubagentStop 可返回 `additionalContext` 给 Claude 反馈并保持对话。Skills 新增 `\$` 转义语法,支持在命令中数字前使用字面 `$`。stdio MCP 服务器在 `--resume` 时接收与 hooks/Bash 相同的 `CLAUDE_CODE_SESSION_ID`。修复了 `claude -p` 永久挂起、`$TMPDIR` 被覆盖、Windows 上 session-env 目录 EEXIST 错误、后台 agent 会话在更新后自动升级等多处问题。

Anthropic产品更新编码
关联讨论 2 条Claude Code:GitHub Releases(RSS)X:Claude Devs (@ClaudeDevs)
推荐理由:Claude Code 这次的版本管理设置对团队标准化很关键,plugin list 命令也让插件管理顺手多了,但这种工具更新属于用的人自然懂,不是所有人都需要关注。
‹ 上一页
1…3536373839…50
下一页 ›