AIHOT

全部动态论文 · 2148 条

全部一手资讯 X 论文

6月12日周五

6月11日周四

6月10日周三

6月12日

01:59

HuggingFace Daily Papers（社区热门论文）

APEX：用于无线边缘运维的网络原生时间序列基础模型

APEX 是一个网络原生、仅解码器的 Transformer 模型，专用于企业无线接入点（AP）遥测的预测与异常检测。它在约 4,500 个生产无线网络的 10 通道多元遥测数据上预训练，涵盖约 10 万条 AP 时间序列、每 AP 34 个指标。提供两个版本：APEX-Large（269M 参数，云部署）和 APEX-Edge（10.5M 参数，边缘部署）。在 192 步（4 天）的 DHCP 退化基准上，APEX-Large 比最强基础模型基线 Toto 降低 MAE 18%，比 SARIMA 降低 38%，异常检测 F1 达 0.93；APEX-Edge 可在 AP 级边缘硬件上实现亚秒级、保护隐私的推理。结果表明网络原生预训练是主动无线运维的实用基础。

数据/训练端侧论文/研究

00:30

AK@_akhaliq

通过假设树精炼迈向通用自主研究

智能体推理论文/研究

00:30

AK@_akhaliq

TRL-Bench 标准化跨范式表格编码器的表示级评估

数据/训练论文/研究评测/基准

00:00

AK@_akhaliq

用流形幂迭代重新设计混合专家路由器

数据/训练论文/研究

6月11日

22:59

HuggingFace Daily Papers（社区热门论文）

Reroute：面向视觉语言模型的可恢复视觉Token路由方法

视觉语言模型（VLM）将图像投影为大量视觉token，导致推理时注意力计算与KV缓存开销高昂。现有方法遵循“排序‑移除”范式，但token重要性随解码器深度变化，早期丢弃的token可能在后续层变得关键。Reroute是一种无需训练的可插拔模块，将永久移除替换为可恢复路由：被延迟的token绕过当前解码阶段，在下一路由决策时重新进入候选池。在LLaVA‑1.5与Qwen骨干上对FastV、PDrop和Nüwa变体的实验表明，Reroute在激进token压缩下提升了grounding能力，同时保持通用VQA性能。

多模态推理论文/研究

21:59

HuggingFace Daily Papers（社区热门论文）

SKIM：面向大语言模型的自适应多分辨率程序性技能压缩框架

可复用的自然语言技能被频繁调用时，将完整文本放入每个上下文会显著增加预填充成本和延迟。SKIM（SKIll coMpression）是一种自适应多分辨率软token压缩框架，专为程序性技能设计。它根据每项技能的复杂度生成不同数量的软token，在提升LLM推理效率的同时保留技能使用效果。实验表明，SKIM将技能压缩至原始token长度的30%到60%，且在任务性能上优于现有压缩方法。代码已开源。

推理论文/研究部署/工程

19:59

HuggingFace Daily Papers（社区热门论文）

次二次架构对比：xLSTM在代码预训练与时间序列任务中优于Mamba-2和Gated DeltaNet

在代码模型预训练、从大语言模型蒸馏代码模型以及时间序列基础模型预训练三项任务中，xLSTM、Mamba-2和Gated DeltaNet三种次二次架构中，xLSTM取得最佳整体性能。通过统一公式和机制分析发现，xLSTM的门控方案实现了更灵活稳定的记忆校正，其状态跟踪和记忆累积优势在合成长度泛化任务中得到验证。

推理编码论文/研究

18:59

HuggingFace Daily Papers（社区热门论文）

ART：基于艺术强化训练的多模态大语言模型微调方法

ART（Art-based Reinforcement Training）是一种参数高效微调方法，通过仅优化冻结多模态大语言模型的原始视觉输入（像素阵列）来注入信息，无需修改预编译计算图，从而可在 vLLM 等高性能推理引擎上以软提示方式运行。ART 支持任意微调目标，优化后的视觉输入可被风格化为计算艺术作品。在开源 Qwen 架构的不同规模模型上，ART 在数学和结构化工具使用基准测试中达到了与 LoRA 相当的准确率。

多模态数据/训练论文/研究

17:59

HuggingFace Daily Papers（社区热门论文）

语法约束解码可越狱大语言模型生成恶意代码：CodeSpear攻击与CodeShield防御

语法约束解码(GCD)本用于提升大语言模型(LLM)生成代码的语法可靠性，但研究发现其可被逆向用作攻击面。新攻击方法CodeSpear仅通过施加良性代码语法约束即可诱导LLM生成恶意代码。防御方法CodeShield在代码模态中对齐模型，使其在GCD下生成语义无害、结构多样的蜜罐代码，同时保留自然语言拒绝能力。在10个流行LLM、4个基准上的实验显示，CodeSpear比代表越狱基线的攻击成功率平均提高30个百分点以上，CodeShield能恢复安全并保持良性功能。该发现揭示了GCD的潜在安全风险。

安全/对齐编码论文/研究

17:59

HuggingFace Daily Papers（社区热门论文）

TRACE：面向高效智能体强化学习的统一 Rollout 预算分配框架

TRACE 针对多轮智能体 RL 中因提示复杂度差异和仅有最终奖励导致的奖励对比度不足问题，将每个 ReAct 轮次视为语义独立节点，把预算分配从 prompt 根节点扩展到中间前缀，形成树结构 rollout。它使用可共享预测器根据前缀历史估计条件成功概率，优先向易产生混合奖励的节点分配有限采样预算，从而增强策略更新信号。在典型智能体基准上，TRACE 以相同采样成本使 Qwen3-14B 在 Multi-Hop QA 上的准确率提升 2.8 个百分点。

智能体arXiv推理论文/研究

16:58

HuggingFace Daily Papers（社区热门论文）

时间序列基础模型嵌入用于剩余使用寿命估计

提出一种轻量学习方法：使用冻结的预训练时间序列基础模型 Chronos-2 提取上下文窗口特征，结合小型回归神经网络进行多元传感器流的剩余使用寿命（RUL）预测。在两种设备类型的真实工业数据上，Chronos-2 嵌入特征在相同预处理和评估协议下，一致优于循环、卷积、Transformer 和梯度提升基线。研究还发现更长的上下文窗口显著提升预测性能，表明时间序列基础模型为工业 RUL 估计提供了实用且数据高效的替代方案。

端侧论文/研究

13:58

HuggingFace Daily Papers（社区热门论文）

Reason， then Re-reason：跨视角回顾提升空间推理

针对第一人称视频空间推理中观测证据受限的问题，现有单次推理方法依赖语义先验无法解决几何歧义。论文提出无训练推理时框架ReRe：推理阶段MLLM从原始视频形成空间假设；重推理阶段通过观察合成的新视角视频验证或修正假设。采用Geometry-to-Video流水线，从预测3D几何渲染抬高斜视的全景新视角，保留MLLM原生视频接口。在VSI-Bench和STI-Bench上，ReRe显著提升开源MLLM性能，匹敌专有模型最优水平。

多模态推理论文/研究

12:58

HuggingFace Daily Papers（社区热门论文）

Claw-SWE-Bench：评估OpenClaw风格智能体框架编程能力的多语言基准

Claw-SWE-Bench是一个多语言SWE-bench风格基准和适配器协议，用于在公平设置下比较通用智能体框架（claws）的编程能力。完整基准包含350个GitHub issue解决实例，覆盖8种语言和43个仓库，来源于SWE-bench-Multilingual和SWE-bench-Verified-Mini。同时发布80实例的Lite子集用于快速验证。在完整基准上，OpenClaw搭配最小适配器仅得19.1% Pass@1，而完整适配器使用相同GLM 5.1骨干达到73.4%，表明适配器设计至关重要。模型选择改变Pass@1达29.4个百分点，框架选择改变27.4个百分点；相似精度的系统总API成本差异巨大。Claw-SWE-Bench将框架和成本核算作为SWE风格编码智能体评估的第一类维度。

智能体开源/仓库编码评测/基准

12:58

HuggingFace Daily Papers（社区热门论文）

用流形幂迭代重新设计混合专家模型路由器

MoE模型中路由器矩阵的每一行作为专家代理，通过计算与输入的相似度来决定激活哪些专家。理想情况下，每一行应编码对应专家矩阵的主奇异方向，使点积能更好反映token与专家的亲和度。然而现有设计缺少对齐约束。为此提出Manifold Power Iteration (MPI)方法，采用“Power-then-Retract”范式：先在路由器权重上执行幂迭代步骤，再通过回缩施加范数约束以保证效率和稳定性。理论表明MPI驱动路由器行收敛至对应专家的主奇异方向。在1B至11B参数规模的MoE模型预训练中证实该对齐能提升模型有效性。

数据/训练论文/研究

12:26

Rohan Paul@rohanpaul_ai

引导大语言模型？实际上，稀疏自编码器可以胜过简单基线

论文认为稀疏自编码器作为LLM控制工具并非此前认为的那么差，失败源于特征标注方式与模型内部实际因果不匹配。作者提出用监督管道替代模糊标签，验证特征活动是否真实追踪数据标签，使特征具有因果权重。例如，强制“酒精”特征增强可使模型输出转向酒精话题。论文还发现极高稀疏度并非必要。与提示工程相比，提示更强（模型经训练服从提示），而特征控制更像直接拨动机器。

安全/对齐论文/研究

11:58

HuggingFace Daily Papers（社区热门论文）

基于假设树优化的通用自主研究框架Arbor

Arbor是一个结合长期协调器、短期执行器和假设树优化（HTR）的通用自主研究框架。该框架通过持久化树结构跨时间链接假设、工件、证据和提炼洞察，将自主研究从局部尝试转变为累积过程。在模型训练、工具工程和数据合成等六个真实研究任务中，Arbor均取得最佳留出结果，平均相对留出增益超过Codex和Claude Code的2.5倍。在MLE-Bench Lite上，Arbor使用GPT-5.5达到86.36%的Any Medal，为对比中最优成绩。

智能体论文/研究

10:58

HuggingFace Daily Papers（社区热门论文）

Lius：基于持续指令微调的古邦马来语翻译模型

大语言模型在处理低资源语言翻译时性能常下降。研究团队针对古邦马来语提出一种微调方法：利用双语词典的显式词汇与语义特征设计指令集，并引入持续指令微调（CIT）范式。实验结果表明，模型Lius在多项评测指标上比标准指令微调模型提升4–6个百分点，超越神经机器翻译（NMT）和多语言LLM模型10–13个百分点，展现出减少对大规模平行数据依赖的潜力。

数据/训练论文/研究

10:58

HuggingFace Daily Papers（社区热门论文）

World Pilot：用世界动作先验引导视觉-语言-动作模型

World Pilot 是一种视觉-语言-动作（VLA）框架，通过世界动作模型（WAM）提供场景演进隐变量与预期轨迹两种先验，分别经 Latent Steering 和 Action Steering 注入决策链。在 LIBERO-Plus 零样本 OOD 基准上，总成功率达 84.7%，并在四个真实机器人操作任务中取得最高成功率，在视角、几何、变形状态和位姿变化场景下优势最显著。

具身智能多模态论文/研究

10:58

HuggingFace Daily Papers（社区热门论文）

精选73

Bebop：通过带拒绝采样的多token预测加速RL训练

Bebop系统研究多token预测（MTP）在大语言模型RL后训练中的加速瓶颈。发现MTP接受率与模型熵波动呈负线性关系；概率拒绝采样相比贪婪草稿采样能缓解熵干扰。提出端到端TV损失直接优化多步拒绝采样接受率，带来约10%提升，最高达95%接受率，额外推理吞吐提升25%。在Qwen3.5、Qwen3.6和Qwen3.7上，异步RL训练实现1.8倍端到端加速。预RL阶段的MTP训练结合e2e TV损失和拒绝采样可保持全程一致的加速，无需在线更新。

推理论文/研究

推荐理由：做RLHF的团队值得细看，MTP加拒绝采样直接把RL训练推到了1.8倍加速，还省去了在线更新MTP的成本。TV损失的设计让接受率提了10%，这套组合拳相当实用。

10:58

HuggingFace Daily Papers（社区热门论文）

世界模型自蒸馏：训练世界模型解决通用任务

提出结合自蒸馏与强化学习的可扩展框架，激发预训练视频扩散模型（Demonstrator）的任务解决能力。给定未标注场景图像，视觉语言模型（VLM）生成候选任务及详细步骤，条件化Demonstrator生成视频；通过蒸馏将执行知识迁移至仅以图像和简短任务提示为条件的Executor，无需配对任务-视频数据。进一步利用VLM反馈的强化学习优化Executor。在WorldTasks-Benchmark和DreamGen机器人基准上，Executor在VLM评估协议下超越Demonstrator，并有效迁移至机器人任务。

具身智能多模态论文/研究

10:58

HuggingFace Daily Papers（社区热门论文）

InternVideo3：多模态上下文推理增强基础模型的长时序智能体能力

InternVideo3框架通过多模态上下文推理（MCR）提升基础模型的长时序多模态任务能力。MCR将理解视为包含观察、指令、推理、工具行动和记忆的闭环过程，将长视频理解为证据积累与验证。为提升效率，引入多模态多头潜在注意力（M²LA），一种保留完整token流同时压缩KV-cache状态的token保持重参数化。训练阶段包括继续预训练、短到长监督微调、基于规则的强化学习和在线蒸馏。InternVideo3在Video-MME、MLVU、EgoSchema等基准上取得强性能，并实例化为带有检索工具的视频智能体，展现基于证据的鲁棒行为。

智能体多模态推理视频

10:58

HuggingFace Daily Papers（社区热门论文）

面向大语言模型智能体的环境工程综述

该综述系统研究了大语言模型智能体的环境工程生命周期，涵盖环境建模、合成、评估与应用。从八个属性和八个领域梳理代表性环境的发展路径；归纳自动环境合成的符号合成与神经合成两种范式及对应评估方法。从智能体-环境共同演化视角，总结四种智能体演化路径（记忆中心、编排中心、轨迹中心、探索中心）与三种环境演化范式（神经驱动、难度驱动、规模驱动）。最后展望环境即服务（EaaS）、多智能体环境和神经符号环境等方向。

智能体论文/研究

10:58

HuggingFace Daily Papers（社区热门论文）

RACES：递归自动化环境组合以提升推理泛化

RACES（Recursive Automated Composition for Environment Scaling）将可验证环境视为递归组装的构建块，当输出类型与输入类型匹配时自动融合为新环境。基于300个基础环境，定义SEQUENTIAL、PARALLEL、SORT、SELECT四种组合算子，诱导多样推理模式。在DeepSeek-R1-Distill-Qwen-14B上平均提升3.1分（从48.2到51.3），Qwen3-14B提升2.3分（从58.8到61.1），均在六个未见基准上测得。仅用50个基础环境即可达到300个环境的训练效果，环境利用效率显著。

推理数据/训练论文/研究

10:25

Rohan Paul@rohanpaul_ai

LLM安全法官在不同安全标准与危害类别上判定不一致

一项新研究指出，用大语言模型评判其他模型回答是否安全的“LLM安全法官”存在严重不稳定：将相同回答翻译或改写后，法官可能给出不同安全判定。在暴力、极端内容等明显危害场景下表现较好，但在需结合上下文判断的金融建议、信用评估、文化敏感回复等场景中可靠性显著下降。不同法官之间也常出现分歧，高原始一致性有时会掩盖低真实可靠性——因为许多法官默认选择同一标签。论文标题为“LLM Judges Inconsistently Disagree Across Safety Criteria and Harm Categories”。

arXiv安全/对齐论文/研究评测/基准

09:57

HuggingFace Daily Papers（社区热门论文）

LLM 作为评审在科学新颖性评估中的局限性

研究引入 RQ-Bench 基准，基于 arXiv 论文构建作者锚定的研究问题（RQ），用于测试新颖性判断。使用大语言模型进行独立或对比评审时，LLM 一致将模型生成的 RQ 评为高度新颖，产生“新颖性幻觉”，在对比评估中偏好更强。但领域专家得出相反结论，更偏好作者锚定的参考问题。许多生成 RQ 狭窄或受限于来源，LLM 评审常忽略该维度。LLM 评审与人类专家的矛盾结论对基于 LLM 评估科学新颖性的可靠性提出严重质疑。

arXiv论文/研究

09:57

HuggingFace Daily Papers（社区热门论文）

ICALens：无需训练字典即可解读语言模型表示

ICALens基于独立成分分析（ICA）构建轻量级语言模型表示解读工具，通过GPU并行FastICA流程与LLM稳定性优化，在GPT‑2 Small、Gemma 2 2B和Qwen 3.5 2B Base上高效恢复紧凑、可解释的方向，无需逐层梯度训练字典。在SAEBench上，ICA在稀疏探测任务中与公开SAE性能相当，并在中小预算目标探针扰动中优于SAE。结果表明ICA应被视为解读语言模型表示的高效互补首选透镜。

安全/对齐论文/研究

08:55

Rohan Paul@rohanpaul_ai

Agents' Last Exam 基准：AI 智能体在真实专家任务中远未达标

一篇新论文提出“Agents’ Last Exam”基准，测试 AI 智能体完成真实专家工作的能力。任务来自工程、金融、医学、法律、媒体、科学等 55 个数字工作领域的实际项目，要求智能体使用文件、浏览器、命令行、桌面软件等常规工具产出可交付成果。评测采用自动检查或严格评分标准。结果显示，当前最强智能体在最难任务层级的平均完全通过率仅 2.6%，远低于其基准测试分数所暗示的水平。论文指出，基准成功尚未转化为广泛的职场能力。

智能体arXiv论文/研究评测/基准

07:57

HuggingFace Daily Papers（社区热门论文）

CPPO：超越统一Token级别信任区域的LLM强化学习

现有PPO风格信任区域机制对所有token施加统一阈值，忽视自回归生成的非对称性和累积前缀漂移。CPPO通过位置加权阈值和累积前缀预算两种耦合机制进行优化：早期位置限制更严格以抑制序列级漂移，后期位置放宽约束以保障探索；同时动态追踪历史偏差，防止前缀沿累计误差。实验表明，该方法在不同模型规模下均能提升训练稳定性并显著提高推理准确率。

arXiv推理数据/训练论文/研究

06:25

AK@_akhaliq

SCAIL-2 统一可控角色动画与端到端上下文条件化

视频论文/研究

03:12

Google DeepMind@GoogleDeepMind

在塞拉利昂，激增的学生人数正超过可用教师资源。我们最新的研究探索了AI如何在这些环境中作为合作伙伴支持教育工作者--扩大他们的影响力，同时不取代其核心的专业知识与技能。🧵

DeepMind论文/研究

02:46

Google Research：Blog（网页）

精选63

Google Research提出审计机器遗忘新框架

Google Research 在 AISTATS 2026 发表正则化 f-散度核检验，用于高效审计 LLM 等模型的机器遗忘。该方法通过统计两样本检验判断模型是否真正“忘记”特定训练数据，避免完全重训的巨大成本。相比最大均值差异等现有工具，新框架理论上可在任意样本量下自然控制假阳性，且假阴性风险随可用样本增加可靠收敛至零，解决了大规模模型审计中计算成本过高的问题。

Google安全/对齐论文/研究

推荐理由：机器遗忘是AI合规的硬需求，但验证‘真忘了’一直是统计难题。谷歌这篇AISTATS论文提出了一套更灵敏的差异测试框架，做隐私审计的值得细看。

01:51

The Decoder：AI News（RSS）

精选70

Anthropic 研究：AI 数小时内即可从安全补丁构建漏洞利用

Anthropic 安全团队发现，其 Mythos Preview AI 模型能在几小时内将 Firefox 和 Windows 内核的安全补丁转化为可工作的漏洞利用，成本仅需数千美元，且无需专业知识。在微软自动更新到达任何设备之前，该模型已完成 8 条完整攻击链。Anthropic 认为传统的补丁节奏已经过时。

Anthropic安全/对齐

推荐理由：Anthropic这个研究给安全圈兜头一盆冷水，补丁发布后几小时AI就能写出利用代码，微软自动更新还没推送，攻击链已经跑通了。补丁节奏得彻底重设了。

00:56

HuggingFace Daily Papers（社区热门论文）

精选73

DeLM：去中心化多智能体系统框架

DeLM是一种去中心化多智能体系统框架，通过并行智能体、共享已验证上下文和任务队列避免中央控制器瓶颈。智能体异步认领子任务、读取累计进展、执行局部推理并写回紧凑的已验证更新。在SWE-bench Verified上，DeLM在Avg.@1、Pass@2和Pass@4指标中均取得最佳性能，相比最强基线提升最多10.5个百分点，每任务成本降低约50%。在LongBench-v2多文档问答上，DeLM在四个前沿模型家族中取得最高平均准确率，提升最多5.7个百分点。代码已开源。

智能体开源/仓库推理论文/研究

推荐理由：去中心化MAS把中心调度换成共享黑板，SWE-bench一口气提10.5个点还省一半成本，这个思路值得所有搞agent的团队认真看。

6月10日

23:28

IT之家（RSS）

Waymo推出ReD模型：模拟人类驾驶员在意外瞬间的避撞决策

Waymo与代尔夫特理工大学合作开发ReD（Reference Driver）认知模型，基于主动推理框架模拟人类驾驶员的避撞行为。模型包含“逼近感”判断纵向威胁、默认其他车辆遵守规则、意外阈值触发策略重评估，并还原单脚操作踏板习惯（切换停顿0.2秒）。与传统模型不同，ReD持续计算意外值并最小化自由能，实现主动避让。今年1月圣莫尼卡事故分析中，Waymo车辆减速至6英里/小时，而模型推算专注人类驾驶员可能以约14英里/小时撞上。代码已以学术非商业许可开源。

安全/对齐论文/研究

21:56

HuggingFace Daily Papers（社区热门论文）

Next Forcing：基于多块预测的因果世界建模

Next Forcing 提出多块预测（MCP）框架，受大语言模型多 token 预测启发，在主模型上添加轻量级辅助 MCP 模块，同时对多个未来时间步的视频块去噪。50fps 下训练 5k 步时相对 LingBot-VA 提升 93.1%，收敛速度加快 2.3 倍；在 RoboTwin 基准上达 94.1%（Clean）/93.5%（Random）新 SOTA。推理时保留 MCP 模块可实现 2 倍加速。在物理规律基准 PhyWorld 上也有显著提升，通用视频预训练 FVD 降低超 50%。

arXiv具身智能数据/训练视频

21:56

HuggingFace Daily Papers（社区热门论文）

自蒸馏中反馈对齐的作用

自蒸馏通过匹配学生（仅看问题）与自教师（还看上下文）的输出分布，使模型在无上下文时仍保持改进。研究比较三种上下文设计：二值奖励（GRPO）、参考解、以及步骤对齐的批评。步骤对齐批评效果最佳，Avg@12上比GRPO高16.11分，比参考解条件高5.27分。逐token优势分析表明，步骤对齐反馈仅针对推理失败的token，而参考解强制模型改变所有token行为，包括正确步骤。这说明反馈与推理步骤的结构对齐是自蒸馏效果的关键驱动因素。

arXiv推理数据/训练论文/研究

19:56

HuggingFace Daily Papers（社区热门论文）

FadeMem：面向自回归视频生成的距离感知内存合并机制

自回归视频生成器的历史 KV cache 随视频长度增长。FadeMem 提出距离感知内存合并机制，在固定缓存预算下将历史 KV 块组织成时间层次，利用频率依赖的时间衰减（细粒度细节快速去相关，粗粒度场景结构保持更久）。生成时新历史作为细粒度条目插入，较旧相邻条目按幂律调度逐步合并，形成近密远疏内存。无需改动架构，即可保留近期上下文并为身份与场景连贯性提供紧凑长程锚点。实验表明在主体一致性、背景稳定性和时间连贯性上优于现有有界缓存策略。

视频论文/研究

17:50

公众号：百度智能云（文心）

精选63

百度百舸联合复旦提出LU-KV框架，被ICML 2026录用

百度百舸团队与复旦大学合作提出Long-horizon Utility KV（LU-KV）框架，将头级KV Cache预算分配建模为面向长程边际效用的全局组合优化问题。LU-KV通过离线画像估计注意力头边际贡献曲线，结合凸包松弛与基于边际效用的贪心求解器，在较低开销下得到接近最优的预算配置，可适配SnapKV、KeyDiff等多类压缩方法。在LongBench和RULER基准上，80%压缩比下性能损失小，降低显存占用和推理延迟。相关论文被ICML 2026录用。

推理论文/研究

推荐理由：ICML接收的KV Cache压缩新方法，把缓存预算分配从看当前分数改成全局优化，能显著降低显存占用，做长上下文推理的值得细读。

16:56

HuggingFace Daily Papers（社区热门论文）

BrainSurgery：可重复且可靠的声明式权重操作工具，用于模型编辑与模型升级

BrainSurgery是一种针对神经网络checkpoint的“张量手术”工具，通过声明式YAML计划执行复杂的权重变换。它支持结构修改、数学变换、张量重塑，利用正则表达式和结构定位进行精准操作，并内置断言验证张量形状、数据类型和值，防止静默错误。工具覆盖从模型升级（upcycling）到LoRA提取等四个示例和三个案例研究，旨在提供可重复、可验证的模型编辑基础。

开源生态论文/研究部署/工程

16:56

HuggingFace Daily Papers（社区热门论文）

PsychoSafe：引导大语言模型生成心理学知情拒绝

PsychoSafe 是一种心理学导向的拒绝框架，将大语言模型的拒绝行为重构为结构化支持性沟通，基于循证干预策略。研究构建了包含8019条提示-响应对的语料库，覆盖五个高风险心理领域，采用提示工程和参数高效微调训练 Qwen 3.5 27B。在500条提示的验证集上，PsychoSafe 提示使拒绝质量较通用基线提升28.1%，其中外部资源转介提升46.8%、心理基础性提升34.8%，且不损害非拒绝任务性能。微调实现了近乎完美的拒绝与资源转介率，但降低了回复相关性。在 SORRY-Bench 和 XSTest 上表现强域内鲁棒性，但跨域泛化有限。

arXiv安全/对齐论文/研究