AIHOT

全部动态资讯 · 1789 条

全部一手资讯 X 论文

4月28日周二

4月27日周一

4月26日周日

4月28日

12:34

HuggingFace Daily Papers（社区热门论文）

OmniShotCut：基于镜头查询Transformer的整体关系式镜头边界检测

针对现有镜头边界检测方法存在边界不可解释、遗漏细微间断、依赖噪声标注与过时基准等问题，本研究提出OmniShotCut方法。该方法将镜头边界检测构建为结构化关系预测任务，通过基于镜头查询的密集视频Transformer，联合估计镜头范围及其内外关系。为规避人工标注不精确，采用全合成过渡合成流程自动生成带精确边界及参数化变体的主要过渡类型。同时，发布了支持整体与诊断评估的现代宽领域基准OmniShotCutBench。

多模态视频论文/研究

11:16

IT之家（RSS）

阿里达摩院 AI 全球首次实现肠癌"无感"检测，登上国际肿瘤学顶刊

阿里巴巴达摩院联合广东省人民医院等机构，研发出肠癌筛查AI模型DAMO COCA。该模型基于平扫CT影像，采用两阶段深度学习架构，在国际上首次实现了无需肠道准备、患者“无感”的肠癌机会性筛查。在回顾2.7万人影像的试验中，模型精准识别出5例漏诊肠癌，敏感性达86.6%，特异性高达99.8%。与10名影像科医生相比，其敏感性显著高出20.4%，并能辅助医生将敏感性提升14.5%。相关成果已发表于顶级期刊《肿瘤学年鉴》。

多模态论文/研究部署/工程

08:28

Hugging Face：Blog（RSS）

精选58

Adaptive Ultrasound Imaging with Physics-Informed NV-Raw2Insights-US AI

NVIDIA 在 Hugging Face 上发布了一款名为 NV-Raw2Insights-US 的物理信息人工智能模型，专门用于自适应超声成像。该模型能够直接处理原始超声射频数据，实时生成高质量的诊断图像。它通过结合物理定律与深度学习，显著提升了图像分辨率和对比度，同时将传统处理流程中的多个步骤整合为单一前向传播，大幅提高了计算效率。这一进展有望推动超声设备向更便携、智能和精准的方向发展。

具身智能论文/研究部署/工程

推荐理由：NVIDIA 把物理先验塞进超声成像管线，从原始射频数据直接出诊断结果，跳过传统重建步骤。做医疗 AI 的值得拆一下这个端到端思路，但离通用场景太远。

08:00

HuggingFace Daily Papers（社区热门论文）

R^3-SQL：面向Text-to-SQL的排序奖励与重采样框架

R^3-SQL是一个新型Text-to-SQL框架，旨在解决现有方法的两大局限：对执行结果相同的等价SQL查询评分不一致，以及当候选池中缺失正确SQL时无法补救。该框架通过统一的排序奖励和智能重采样机制应对这些问题。它首先按执行结果对候选查询分组并排序以确保一致性，其评分结合了组间成对偏好与组内最佳排名和规模的点效用。同时，框架引入智能重采样机制，在判断正确SQL可能缺失时选择性地重新生成候选查询。在BIRD-dev数据集上，R^3-SQL取得了75.03%的执行准确率，在公开模型规模的方法中达到新的最高水平，并在五个基准测试中均表现出一致的性能提升。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

模型应以多快速度遵从监督？基于Tsallis损失连续体训练推理模型

研究提出基于Tsallis q-对数的损失函数族J_Q，用于在仅有输出级监督的后训练中调整推理模型。该族在利用极（q=0，对应RLVR）和密度估计极（q=1）间连续插值，所有成员共享相同梯度方向，仅通过标量因子P_{θ^{-q}}重加权。该机制解决了冷启动停滞问题：利用极逃离需Ω(1/p_0)时间，而密度估计极仅需Θ(log(1/p_0))，中间q值权衡逃离速度与噪声记忆。研究推导出两种蒙特卡洛估计器：梯度放大强化学习（GARL）与后验衰减微调（PAFT）。在多个数据集上，q=0.75的GARL显著缓解了冷启动停滞，在GRPO完全失败时成功逃离；在热启动中，低q的GARL在FinQA上表现主导，而PAFT在q=0.75时为其他数据集提供了稳定梯度，在HotPotQA上达到最佳结果47.9 maj@16。

arXiv推理数据/训练论文/研究

08:00

Apple Machine Learning Research（RSS）

精选62

LaDiR：潜在扩散模型增强 LLM 的文本推理能力

研究团队提出LaDiR推理框架，将连续潜在表征的表达能力与潜在扩散模型的迭代优化能力相结合，以增强现有大语言模型的推理性能。该框架首先构建一个结构化的潜在推理空间，通过扩散过程对潜在状态进行迭代细化，使模型能够全局性地重新审视和修正推理路径中的早期内容。这种方法突破了传统自回归解码在整体优化和多样化解决方案探索方面的限制，提升了链式思维生成的质量与效率。

推理数据/训练论文/研究

推荐理由：Apple 把扩散模型塞进 LLM 推理链，思路很野，用连续潜空间替代自回归 token 生成来解决「写到一半没法回头改」的老毛病。做推理优化或 diffusion 架构的值得细看，但离工程落地还远。