AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态资讯 · 1789 条
全部一手资讯X论文
4月28日周二
4月27日周一
4月26日周日
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月28日
12:34
HuggingFace Daily Papers(社区热门论文)
39
OmniShotCut:基于镜头查询Transformer的整体关系式镜头边界检测

针对现有镜头边界检测方法存在边界不可解释、遗漏细微间断、依赖噪声标注与过时基准等问题,本研究提出OmniShotCut方法。该方法将镜头边界检测构建为结构化关系预测任务,通过基于镜头查询的密集视频Transformer,联合估计镜头范围及其内外关系。为规避人工标注不精确,采用全合成过渡合成流程自动生成带精确边界及参数化变体的主要过渡类型。同时,发布了支持整体与诊断评估的现代宽领域基准OmniShotCutBench。

多模态视频论文/研究
11:16
IT之家(RSS)
68
阿里达摩院 AI 全球首次实现肠癌"无感"检测,登上国际肿瘤学顶刊

阿里巴巴达摩院联合广东省人民医院等机构,研发出肠癌筛查AI模型DAMO COCA。该模型基于平扫CT影像,采用两阶段深度学习架构,在国际上首次实现了无需肠道准备、患者“无感”的肠癌机会性筛查。在回顾2.7万人影像的试验中,模型精准识别出5例漏诊肠癌,敏感性达86.6%,特异性高达99.8%。与10名影像科医生相比,其敏感性显著高出20.4%,并能辅助医生将敏感性提升14.5%。相关成果已发表于顶级期刊《肿瘤学年鉴》。

多模态论文/研究部署/工程
08:28
Hugging Face:Blog(RSS)
精选58
Adaptive Ultrasound Imaging with Physics-Informed NV-Raw2Insights-US AI

NVIDIA 在 Hugging Face 上发布了一款名为 NV-Raw2Insights-US 的物理信息人工智能模型,专门用于自适应超声成像。该模型能够直接处理原始超声射频数据,实时生成高质量的诊断图像。它通过结合物理定律与深度学习,显著提升了图像分辨率和对比度,同时将传统处理流程中的多个步骤整合为单一前向传播,大幅提高了计算效率。这一进展有望推动超声设备向更便携、智能和精准的方向发展。

具身智能论文/研究部署/工程

推荐理由:NVIDIA 把物理先验塞进超声成像管线,从原始射频数据直接出诊断结果,跳过传统重建步骤。做医疗 AI 的值得拆一下这个端到端思路,但离通用场景太远。
08:00
HuggingFace Daily Papers(社区热门论文)
44
R^3-SQL:面向Text-to-SQL的排序奖励与重采样框架

R^3-SQL是一个新型Text-to-SQL框架,旨在解决现有方法的两大局限:对执行结果相同的等价SQL查询评分不一致,以及当候选池中缺失正确SQL时无法补救。该框架通过统一的排序奖励和智能重采样机制应对这些问题。它首先按执行结果对候选查询分组并排序以确保一致性,其评分结合了组间成对偏好与组内最佳排名和规模的点效用。同时,框架引入智能重采样机制,在判断正确SQL可能缺失时选择性地重新生成候选查询。在BIRD-dev数据集上,R^3-SQL取得了75.03%的执行准确率,在公开模型规模的方法中达到新的最高水平,并在五个基准测试中均表现出一致的性能提升。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
模型应以多快速度遵从监督?基于Tsallis损失连续体训练推理模型

研究提出基于Tsallis q-对数的损失函数族J_Q,用于在仅有输出级监督的后训练中调整推理模型。该族在利用极(q=0,对应RLVR)和密度估计极(q=1)间连续插值,所有成员共享相同梯度方向,仅通过标量因子P_{θ^{-q}}重加权。该机制解决了冷启动停滞问题:利用极逃离需Ω(1/p_0)时间,而密度估计极仅需Θ(log(1/p_0)),中间q值权衡逃离速度与噪声记忆。研究推导出两种蒙特卡洛估计器:梯度放大强化学习(GARL)与后验衰减微调(PAFT)。在多个数据集上,q=0.75的GARL显著缓解了冷启动停滞,在GRPO完全失败时成功逃离;在热启动中,低q的GARL在FinQA上表现主导,而PAFT在q=0.75时为其他数据集提供了稳定梯度,在HotPotQA上达到最佳结果47.9 maj@16。

arXiv推理数据/训练论文/研究
08:00
Apple Machine Learning Research(RSS)
精选62
LaDiR:潜在扩散模型增强 LLM 的文本推理能力

研究团队提出LaDiR推理框架,将连续潜在表征的表达能力与潜在扩散模型的迭代优化能力相结合,以增强现有大语言模型的推理性能。该框架首先构建一个结构化的潜在推理空间,通过扩散过程对潜在状态进行迭代细化,使模型能够全局性地重新审视和修正推理路径中的早期内容。这种方法突破了传统自回归解码在整体优化和多样化解决方案探索方面的限制,提升了链式思维生成的质量与效率。

推理数据/训练论文/研究

推荐理由:Apple 把扩散模型塞进 LLM 推理链,思路很野,用连续潜空间替代自回归 token 生成来解决「写到一半没法回头改」的老毛病。做推理优化或 diffusion 架构的值得细看,但离工程落地还远。
08:00
Apple Machine Learning Research(RSS)
45
StereoFoley: 从视频生成具有对象感知能力的立体声音频

StereoFoley是一个视频到音频的生成框架,能生成48kHz、语义对齐、时间同步且空间准确的立体声。现有视频生成音频模型大多局限于单声道或无法实现对象感知的立体声成像,主要受限于缺乏专业混音、空间准确的视频-音频数据集。该研究首先开发了一个从视频生成立体声的基础模型,在语义准确性上达到了与当前最先进V2A模型相当的性能。

多模态论文/研究
08:00
Apple Machine Learning Research(RSS)
49
条件扩散模型中组合泛化的局部机制

条件扩散模型展现出组合泛化能力,能生成超出训练分布的条件组合样本,但其机制尚不明确。研究聚焦于长度泛化,即生成比训练所见更多数量物体的图像。在受控的CLEVR场景中发现,模型仅在某些情况下能实现长度泛化,表明其并非总能掌握底层组合结构。通过分析扩散过程的局部动态,研究揭示了泛化成功与失败案例中条件交互模式的系统性差异,为理解生成式模型的组合推理边界提供了新视角。

图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
66
真实资本下链上语言模型代理的操作层控制研究

本研究通过一项为期21天的真实资本链上交易实验,探讨了自主语言模型代理的可靠性。在受控市场中,3,505个用户注资的代理交易真实ETH,产生了750万次调用、约30万次链上操作及2000万美元交易量,提交交易的结算成功率达99.9%。研究发现,可靠性不仅依赖于基础模型,更源于操作层设计,包括提示编译、策略验证与执行防护等。上线前测试揭示了纯文本基准难以评估的故障模式,如伪造交易规则和手续费瘫痪,通过针对性框架调整,相关故障率显著下降,受影响测试群体的资本部署率从42.9%提升至78.0%。研究表明,管理真实资本的代理需在从用户指令到结算的完整路径上进行评估。

智能体论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
54
FAMA:面向交互式工具使用环境的开源大语言模型故障感知元智能体框架

针对开源大语言模型在模拟真实对话的工具使用场景中,因规模较小、上下文有限导致的错误累积问题,研究团队提出故障感知元智能体框架FAMA。该框架首先分析基线智能体的故障轨迹以识别常见错误,随后在决策前启动最小规模的专用智能体,向工具使用智能体注入针对性上下文以应对这些故障。实验表明,FAMA使多种开源LLM在评估中的性能较基线提升最高达27%,证明通过专用智能体针对性处理常见故障,能有效提升多轮次工具使用智能体的可靠性。

智能体开源生态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
35
非独立同分布数据下基于多任务自动编码器的联邦学习样本选择方法

本文针对联邦学习中冗余或噪声样本导致模型性能下降的问题,提出一种基于多任务自动编码器的样本选择方法。该方法通过中央服务器协调,采用OCSVM、隔离森林和自适应损失阈值等无监督异常检测技术过滤客户端噪声样本,并引入中央服务器控制的多类深度支持向量数据描述损失以增强特征选择。在CIFAR10和MNIST数据集上的实验表明,在非独立同分布设置及高达40%的噪声水平下,基于损失的样本选择能显著提升模型精度,其中CIFAR10上最高提升7.02%。联邦SVDD损失进一步优化了特征选择,额外带来最高0.99%的精度提升。

数据/训练论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
52
PSP:一个面向印度语种TTS的、按音系维度划分的可解释口音基准

研究团队提出PSP(音素替换剖面),一种用于量化评估印度语种TTS系统口音的可解释基准方法。PSP将口音分解为六个互补维度:卷舌音坍缩率、送气音保真度、元音长度保真度、泰米尔语卷舌近音保真度、Frèchet音频距离以及韵律特征散度。通过在印地语、泰卢固语和泰米尔语上测试五个TTS系统,研究发现:卷舌音错误率随音系难度递增;PSP评估结果与传统可懂度指标排序存在差异;没有单一系统在所有维度上均表现最优。团队同时开源了包括母语参考中心向量、评分代码在内的一系列资源。

论文/研究评测/基准语音
08:00
HuggingFace Daily Papers(社区热门论文)
57
Praxy Voice:零商业数据成本,通过语音提示恢复与BUPS实现商业级印度语TTS

Praxy Voice提出一种无需商业训练数据、不重新训练声学解码器,即可将非印度语系基础TTS模型提升至商业级印度语输出质量的方法。其结合三项技术:BUPS统一音素空间将七种印度文字罗马化;仅在文本标记预测器上训练LoRA适配器;以及通过同语言参考音频与特定采样配置实现语音提示恢复。在泰卢固语、泰米尔语和印地语的评估中,该系统在音韵指标上达到或略微超越商业基线。针对语码混合场景,额外引入IndicF5分支,显著降低了混合语句的错误率。项目已开源相关资源。

开源生态论文/研究语音
08:00
HuggingFace Daily Papers(社区热门论文)
56
RADIO-ViPE:面向动态环境的开放词汇语义SLAM在线紧耦合多模态融合系统

RADIO-ViPE 是一个在线语义SLAM系统,能够在动态环境中实现几何感知的开放词汇关联,将任意自然语言查询与定位的3D区域和物体进行匹配。该系统直接处理原始单目RGB视频流,无需预先获取相机内参、深度传感器或位姿初始化。它通过将来自聚合基础模型的多模态嵌入与几何场景信息在初始化、优化和因子图连接中进行紧耦合,提升了多模态地图的一致性。优化过程采用了自适应鲁棒核函数,以同时处理主动移动的物体和因智能体移动而改变位置的场景元素。实验表明,RADIO-ViPE 在动态TUM-RGBD基准测试中取得了最先进的结果,其性能可与依赖标定数据和静态场景假设的离线开放词汇方法相竞争。该系统为自主机器人和无约束野外视频流提供了鲁棒的开放词汇语义基础。

具身智能多模态论文/研究
00:46
CMU:Machine Learning Blog
精选58
介绍ARFBench:基于真实事件的时间序列问答基准

每年系统故障导致损失超万亿美元,工程师需通过分析时间序列数据快速定位问题。时间序列问答(TSQA)是关键运维任务,对AI模型构成挑战。为此,研究团队推出ARFBench基准,基于Datadog真实内部事件及遥测数据构建。测试显示,当前领先的大型语言模型、视觉语言模型和时间序列基础模型在ARFBench上表现均有较大改进空间。团队提出混合TSFM-VLM模型,其整体性能接近前沿水平,为TSQA任务提供了新评估框架和改进方向。

论文/研究评测/基准部署/工程

推荐理由:CMU 和 Datadog 联手搞了个基于真实事故的时序问答基准,结论很诚实,现有模型全拉胯。做 SRE Agent 的团队该看看,这比合成数据的 benchmark 有说服力得多。
4月27日
08:00
HuggingFace Daily Papers(社区热门论文)
49
扩散模型作为通用分割学习器

研究提出DiGSeg框架,将预训练扩散模型转化为通用分割器。该方法将输入图像与真实掩码编码为潜变量,作为扩散U-Net的条件输入,并通过并行CLIP文本通路注入多尺度语言特征,实现文本与视觉表征的对齐。实验表明,该框架在标准语义分割基准上取得领先性能,并在开放词汇泛化及跨域迁移(医疗、遥感、农业)中表现优异,且无需针对特定领域调整模型架构。这证明扩散模型不仅能用于图像生成,也可作为强大的通用视觉理解模型,缩小了生成与理解任务间的差距。

图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
X2SAM:面向图像与视频的统一分割多模态大语言模型

X2SAM是一个统一的分割多模态大语言模型,它将图像中的任意分割能力扩展至视频。该模型结合大语言模型与存储引导视觉特征的掩码记忆模块,能依据对话指令和视觉提示生成时间一致的视频掩码,并支持图像与视频输入下的通用、开放词汇、指代、推理及交互式分割。研究团队提出了视频视觉基础分割基准V-VGD,用于评估模型根据交互式视觉提示分割视频物体轨迹的能力。通过跨异构数据集的统一联合训练,X2SAM在视频分割上表现优异,在图像分割基准上保持竞争力,同时保留了通用的图像与视频对话能力。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
用于可微分图像表示的软各向异性图

本文提出软各向异性图(SAD),一种基于图像平面自适应站点参数化的显式可微分图像表示方法。SAD通过各站点定义各向异性度量与加权距离,并依据像素前K个站点的softmax混合计算颜色,形成具有可学习温度的软加权Voronoi划分,在保持清晰边界的同时保留有效梯度。该方法支持基于前K映射的高效渲染,并采用受跳转扩散启发的传播方案更新站点。在Kodak数据集上,SAD以2.2秒编码时间达到46.0 dB PSNR,训练速度比先进基线快4-19倍,且在相同码率下性能更优。SAD还能无缝集成至可微分流程,并具备快速随机访问与紧凑存储优势。

图像生成论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
48
从技能文本到技能结构:智能体技能的调度-结构-逻辑表示法

当前LLM智能体技能多以文本描述,导致机器难以解析利用。本研究基于经典知识表示理论,首次提出结构化技能表示法——调度-结构-逻辑表示法,将技能解耦为调度信号、执行结构和逻辑证据。通过基于LLM的标准化器实现该方法,并在技能发现与风险评估任务上评估。结果显示,该方法显著优于纯文本基线:技能发现的MRR从0.573提升至0.707,风险评估的宏观F1分数从0.744提升至0.787。这表明显式、基于来源的结构化表示能提升技能的可搜索性与可审查性,是迈向更可检查、可重用、可操作技能表示的重要实践步骤。

智能体MCP/工具论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
Learning from Noisy Preferences: 一种用于直接偏好优化的半监督学习方法

研究指出,将人类多维度的视觉偏好压缩为二元胜负标签会产生严重的标签噪声,误导扩散模型直接偏好优化训练。为解决此问题,团队提出了Semi-DPO方法。该方法将标注一致的图像对视为干净数据,将存在冲突的视为带噪声的未标注数据。训练过程首先在共识过滤的干净子集上进行,然后利用该模型作为隐式分类器为噪声集生成伪标签,进行迭代优化。实验表明,Semi-DPO取得了最先进的性能,显著提升了与复杂人类偏好的对齐度,且无需额外人工标注或显式的奖励模型。代码和模型将在指定GitHub仓库开源。

图像生成数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
68
微调后的安全漂移:来自高风险领域的证据

研究分析了100个模型(包括医疗和法律领域广泛部署的微调模型),发现常规微调会导致模型安全性能出现显著、异质且常相互矛盾的变化。模型在某些安全评测上提升的同时,在其他评测上明显退化,且不同评测工具结论分歧巨大。这表明基础模型的安全属性无法在下游适配中稳定保持,当前依赖基座模型评估的治理与部署模式存在严重局限。若不在部署相关场景中显式重新评估微调模型,将无法有效管控下游风险,这种缺陷在高风险领域尤为突出,并对现行问责范式构成挑战。

安全/对齐现象/趋势论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
大语言模型通过潜在蒸馏进行探索

本文提出“探索性采样”解码方法,以增强大语言模型生成内容的语义多样性。该方法在推理时训练一个轻量级“蒸馏器”,通过预测模型深层隐藏状态来建模其表示转换过程,并将预测误差作为新颖性信号,以此重新加权候选token,引导解码偏向未被充分探索的语义模式。该方法实现了异步训练-推理流水线,最坏情况下开销低于5%。实验表明,该方法显著提升了推理模型的Pass@k效率,在数学、科学和代码生成基准测试中表现出稳健的泛化能力,并在创意写作中打破了多样性与连贯性之间的权衡。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
Diffusion Templates:可控扩散的统一插件框架

针对现有可控扩散方法因架构孤立、流程不兼容导致的碎片化问题,研究团队提出统一开源插件框架Diffusion Templates。该框架通过模板模型、模板缓存和模板管道三大核心组件,实现基础模型推理与可控能力注入的解耦。其系统级接口设计支持KV-Cache、LoRA等多种异构能力载体。基于此构建的模型库覆盖了结构控制、图像编辑、超分辨率等十类任务,展现了框架在模块化、可组合性及跨模型可扩展性方面的统一能力。所有代码、模型与数据集将开源。

图像生成开源生态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
42
基于大语言模型的对话用户模拟研究综述

用户模拟因其广泛的应用潜力在计算机科学中长期扮演重要角色,而对话行为的模拟是核心研究领域。大语言模型的进展通过生成高保真合成用户对话,显著推动了该领域发展。本文综述了基于LLM的对话用户模拟最新进展,提出一个涵盖用户粒度和模拟目标的新分类法,并系统分析了核心技术与评估方法。研究旨在向学界同步该领域最新动态,并通过识别开放挑战、在统一框架下梳理现有工作,进一步促进未来研究。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
40
推荐系统公平性的离线评估指标

随着公平与负责任人工智能相关立法推进,推荐系统公平性评估日益重要,但现有众多离线公平性指标缺乏稳健性分析,其局限性未被充分认知。研究系统评估了基于用户与物品、群体与个体等不同维度的公平性指标,通过理论与实证分析揭示了其在可解释性、表达力与适用性上的缺陷。针对这些不足,研究提出了新的评估方法与改进指标,并制定了实际场景中公平性指标的选择指南,推动推荐系统公平性离线评估领域的发展。

现象/趋势论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
AutoGUI-v2:一个综合性的多模态GUI功能理解基准

为实现真正的数字自主性,研究团队推出了AutoGUI-v2基准,旨在评估智能体对图形用户界面(GUI)的深度功能理解与交互结果预测能力。该基准通过一种新颖的视觉-语言模型与人类协作流程构建,递归解析多平台截图,生成了涵盖六个操作系统的2,753项任务,严格测试区域与元素级语义理解、功能定位及动态状态预测。评估结果显示,基于智能体数据微调的开源模型在功能定位上表现优异,而商业模型则在功能描述上领先。关键发现是,所有模型在面对非常见操作的复杂交互逻辑时均表现不佳,表明深度功能理解仍是当前面临的核心挑战。

智能体多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
54
GoClick:用于自主GUI交互的轻量级元素定位模型

本文提出GoClick,一个仅含2.3亿参数的轻量级视觉语言模型,用于图形用户界面元素定位。针对资源受限设备,模型采用编码器-解码器架构,在小参数量下优于仅解码器架构。通过渐进式数据精炼流程,从1080万原始数据中筛选出380万高质量样本进行训练,显著提升定位精度。实验表明,GoClick在多项基准测试中达到与大型模型相当的准确度,同时保持小体积和高推理速度。集成于设备-云端协作框架时,能有效协助云端任务规划器精确定位元素,提升任务成功率。

智能体端侧论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
54
TCOD:探索多轮自主智能体中的时序课程策略蒸馏

策略蒸馏在多轮智能体任务中存在轨迹级KL不稳定问题,即KL散度随错误累积上升,导致训练不稳定。为此,研究提出时序课程策略蒸馏框架TCOD,通过课程学习控制学生模型接触的轨迹深度,从短轨迹逐步扩展到长轨迹。在ALFWorld、WebShop和ScienceWorld基准上的实验表明,TCOD有效抑制KL散度上升,提升训练稳定性,并将智能体性能较原始策略蒸馏最高提升18个百分点。进一步评估显示,TCOD甚至能超越教师模型性能,并泛化至教师失败的任务。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
用数据编程:基于原始语料库的自改进大语言模型的测试驱动数据工程

研究提出“用数据编程”新范式,通过将结构化知识作为训练与评估的共同基础,将数据工程生命周期精确映射至软件开发流程:训练数据即源代码,模型训练即编译,基准测试即单元测试。模型失败可被分解为概念缺失或推理链断裂,并能追溯到具体数据缺陷,通过针对性修补实现改进。该方法在十六个学科中得到验证,修复周期能带来模型性能和架构的持续提升,且不损害通用能力。研究同时开源了结构化知识库、基准测试套件和训练语料库。

开源生态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
Co-Director:一种智能生成视频叙事的分层多智能体框架

针对当前智能体视频生成流程存在的语义漂移与级联失败问题,研究团队提出了Co-Director。该框架将视频叙事构建为全局优化问题,其核心是分层参数化设计:全局层采用多臂老虎机探索有潜力的创意方向,局部层通过多模态自优化循环来缓解身份漂移并确保序列一致性,从而平衡叙事策略探索与创意配置利用。为进行评估,团队构建了包含400个场景的个性化广告数据集GenAD-Bench。实验表明,Co-Director在生成连贯性上显著优于现有先进基线,并能无缝泛化至更广泛的电影叙事场景。

智能体视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
Meta-CoT:增强图像编辑中的细粒度与泛化能力

Meta-CoT提出一种新的图像编辑范式,通过两级分解提升模型的理解细粒度和任务泛化能力。该方法首先将任意编辑操作分解为(任务、目标、所需理解能力)三元组,以增强对编辑意图的细粒度理解;其次将编辑任务拆解为五个基础元任务,使训练仅需在这些元任务上进行,结合新引入的“思维链-编辑一致性奖励”机制,促使模型更准确地利用推理信息进行编辑。实验表明,该方法在21项编辑任务上实现了15.8%的整体性能提升,并能有效泛化到未见过的编辑任务。相关代码、基准测试和模型已开源。

图像生成多模态论文/研究
4月26日
10:20
IT之家(RSS)
52
融合活体脑细胞与电子技术,新型生物计算机可完成模式识别

普林斯顿大学研发出一种融合活体脑细胞与嵌入式电子技术的三维生物电子计算机,能完成模式识别任务。该器件在环氧树脂基底上构建了微型导线与电极的三维网状支架,培育了数万个神经元形成大型三维网络,实现了对神经元电活动的高精度记录与刺激。在六个月的研究中,系统成功区分了两种不同的输入脉冲模式。研究人员计划扩大器件规模以处理更复杂任务,并期望借此探索大脑的低能耗运算机制,为降低人工智能系统功耗提供新途径。相关论文已发表于《自然・电子学》期刊。

具身智能数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
Talker-T2AV:基于自回归扩散建模的联合语音-视频生成

Talker-T2AV提出了一种自回归扩散框架,用于联合生成语音和视频。其核心设计是将高级语义建模与低级细节渲染解耦:一个共享的自回归语言模型在统一的块级标记空间中对音视频进行联合推理,而两个轻量级的扩散Transformer头则分别解码出帧级的音频和视频潜在表示。该方法避免了现有模型在去噪过程中全程强制跨模态纠缠的弊端,更符合语音驱动面部合成任务的特点。在语音肖像基准测试中,该模型在唇部同步准确性、视频质量和音频质量上均优于双分支基线,实现了比级联方法更强的跨模态一致性。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
人格特质影响大语言模型叙事中的性别偏见:英印双语实证研究

本研究通过六款先进大语言模型生成23,400个故事,系统探讨人格特质对性别偏见的影响。研究采用HEXACO和黑暗三联征人格框架,以特定性别、职业生成印度职场人士的英语和印地语故事。结果显示,人格特质能显著影响性别偏见的程度与方向,黑暗三联征人格比HEXACO特质更易引发性别刻板印象,且这种关联因模型和语言而异。这表明大语言模型的性别偏见具有动态性和情境依赖性,在实际应用的人格驱动系统中,可能加剧教育、职业等内容中的不平等表征危害。

安全/对齐数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
PageGuide:辅助用户在网页中导航与定位信息的浏览器扩展

PageGuide是一款浏览器扩展,通过视觉叠加将大语言模型的回答直接锚定在网页中,以解决用户在杂乱页面中定位信息、完成多步骤任务和对抗干扰内容三大需求。它提供三种模式:Find模式原位高亮答案来源以供验证;Guide模式分步显示操作指南引导用户执行;Hide模式帮助隐藏干扰内容。一项涉及94名用户的研究表明,该工具在所有模式下均显著优于无辅助浏览,例如Hide模式使任务准确率大幅提升、完成时间缩短70%,Guide模式提高任务完成率,Find模式则减少80%的Ctrl+F使用并缩短任务时间。代码与演示已开源。

智能体MCP/工具论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
学习识别3D LiDAR异常分割中的分布外物体

在自动驾驶和机器人感知中,异常分割对区分已知类与未知物体至关重要,但3D领域研究有限。本文提出一种高效新方法,直接在特征空间操作,通过建模内点类的特征分布来约束和识别异常样本。针对现有公开数据集场景简单、异常实例少及传感器分辨率域差异问题,我们构建了混合真实-合成3D LiDAR异常分割数据集,基于成熟语义分割基准,包含多样分布外物体和复杂环境。大量实验表明,该方法在现有真实数据集上达到最优性能,在新数据集上也有竞争力,验证了方法有效性和数据集实用性。代码与数据集已公开。

具身智能数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
RaV-IDP:基于重建验证的可靠智能文档处理框架

智能文档处理管道常因缺乏验证机制,导致提取错误无声传递至下游系统。RaV-IDP框架创新性地引入重建作为核心组件,在提取每个实体后,通过专用重建器将结果渲染回与原文档区域可比的形式,并由比较器评估重建与原始截图的保真度,生成无需标注的质量信号。若保真度低于实体类型阈值,系统触发基于GPT-4.1 Vision的结构化回退机制并重复验证循环,始终以原始文档区域为锚点,避免循环依赖。该框架还提供了每阶段评估方法,将管道组件与基准配对,相关代码已在GitHub开源供实验使用。

检索增强论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
63
ClawMark:一个面向多轮次、多日、多模态协作智能体的动态世界基准测试

ClawMark是一个针对长期协作智能体的新型基准测试,旨在模拟外部环境独立变化的真实工作场景。它构建于一个状态可动态演化的沙盒环境,包含文件系统、电子邮件等五类服务,覆盖13个专业场景下的100项任务。评估完全依赖1537个确定性Python检查器对服务状态进行评分,未使用LLM作为评判工具。对七个前沿智能体系统的测试表明,最强模型加权得分为75.8,但严格任务完成率仅为20.0%,说明智能体常能取得部分进展却难以完整达成工作流。分析发现,性能在首次环境更新后普遍下降,适应动态变化仍是核心挑战。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
59
视觉-语言-动作模型安全:威胁、挑战、评估与机制

视觉-语言-动作模型作为具身智能的统一基础,其安全面临物理不可逆、多模态攻击面、实时防御延迟等新挑战。本文统一梳理该领域,沿攻击与防御两条时间轴组织研究,将威胁类型与其可缓解阶段对应。内容涵盖安全定义与模型基础,并从攻击、防御、评估与部署四个维度展开综述,分析训练时与推理时的多种威胁与防御机制,探讨现有评估基准及六大部署领域的安全问题,最后指出具身轨迹认证鲁棒性、物理可实现防御等关键开放问题。

具身智能安全/对齐论文/研究
07:20
IT之家(RSS)
53
Anthropic 搭建了一个 AI 智能体交易测试平台

Anthropic 公司搭建了一个名为“交易计划”的 AI 智能体交易测试平台,模拟二手市场由智能体代理买卖,使用真实货币结算。实验邀请 69 名员工参与,每人获得 100 美元预算,共达成 186 笔交易,总价值超过 4000 美元。测试发现,更高级的智能体能带来更优交易结果,但用户未察觉收益差距,暴露了智能体能力差异的潜在风险。此外,智能体的初始指令对成交概率和定价无显著影响。

智能体Anthropic安全/对齐论文/研究
‹ 上一页
1…404142434445
下一页 ›