AIHOT

全部动态论文 · 2148 条

6月9日周二

6月8日周一

6月9日

22:26

IT之家（RSS）

美国宾夕法尼亚州立大学研发出光忆阻器，模拟人眼适应机制，解决自动驾驶汽车在光线剧烈变化时失去感知的问题。该器件将氧化钛与塑料PEDOT:PSS结合，通过类似“出汗”和膨胀自动调节感光，数秒完成强光到暗光切换（人眼需20-30分钟）。4×4阵列与AI神经网络测试，在极亮背景中识别暗光字母“F”，7轮训练后准确率达95%。已申请临时专利，未来可用于工厂机器人和视障人士人工视觉设备。

端侧论文/研究

21:04

Google DeepMind：Blog（RSS）

精选67

Gemini Guided Learning 随机对照试验：在塞拉利昂等地提升参与度并加速学习

一项在塞拉利昂等地开展的随机对照试验显示，Gemini 的 Guided Learning 功能能够提升学生参与度并加速学习。

DeepMindGoogle论文/研究

推荐理由：DeepMind在塞拉利昂做了一个严格RCT，初步证明AI引导学习能提升参与度和学习速度，对教育科技方向的信号意义很强，做AI教育产品的应该仔细读一下。

20:21

Tencent Hy@TencentHunyuan

🚀推出UniRL，一个用于统一多模态模型的RL基础设施。附带两种新RL算法：DRPO和Flow-DPPO。一个覆盖扩散/流匹配模型、LLM/VLM以及统一多模态模型的RL循环👇 代码：http：//github.com/Tencent-Hunyuan/UniRL （是的--U（you）-ni-（need） RL 😉）

GitHub多模态开源/仓库推理

关联讨论 1 条

19:44

Rohan Paul@rohanpaul_ai

Transformer QKV投影必要性研究

一篇论文系统研究了Transformer注意力中QKV投影的必要性，发现Key和Value可共享同一投影（Q-K=V变体），仅增加3.1%的困惑度，便将KV cache削减50%，大幅降低推理内存。最佳变体保留Query独立，使注意力保持方向性。与GQA和MQA结合时，可分别实现87.5%和96.9%的cache缩减。弱变体Q=K-V因导致因果注意力过于对称且无cache节省而无效。

arXiv推理论文/研究部署/工程

16:55

HuggingFace Daily Papers（社区热门论文）

精选70

用对抗性黑客-修补循环强化Agent基准测试

对五个终端Agent基准测试的1,968个任务审计发现，323个（16%）可被前沿模型仅凭任务描述进行奖励黑客攻击。研究者提出hacker-fixer loop方法：三个LLM agent轮流作为黑客尝试绕过验证器、修补者拒绝每次漏洞、求解者确认修补后仍接受合法方案。在KernelBench上，该循环将公开报告漏洞的攻击成功率从62%降至0%。弱agent也能防御强黑客：Gemini 3 Flash循环使Gemini 3.1 Pro和Claude Opus 4.7在KernelBench上的攻击成功率分别从76%和61%降至0%；在Terminal Bench的77个任务上，从39%降至17%。发布Terminal Wrench（323个可攻击环境、3,632条攻击轨迹）及修补后的验证器与实现。

智能体安全/对齐论文/研究

推荐理由：现有 Agent 基准的验证器太容易被钻空子了，这篇论文挖出 16% 可 hack 的任务，还提出用三个 LLM 自动对抗修补的循环方法，做 RL 评估的值得细读。