AIHOT

全部动态一手 · 399 条

全部一手资讯 X 论文

2月20日周日

12月5日周日

9月24日周五

7月11日周日

5月31日周一

4月24日周六

3月21日周日

1月2日周六

10月29日周四

8月6日周四

6月7日周日

5月16日周六

4月7日周二

1月29日周三

11月10日周日

9月5日周四

6月23日周日

5月5日周日

3月14日周四

1月31日周四

12月27日周四

11月30日周五

10月13日周六

8月12日周日

6月24日周日

5月5日周六

4月8日周日

2月19日周一

1月23日周二

12月31日周日

12月15日周五

10月29日周日

10月15日周日

9月28日周四

8月20日周日

8月1日周二

7月22日周六

7月8日周六

6月21日周三

没有更多了

2月20日

08:00

Lilian Weng：Lil'Log（RSS）

精选57

数据不足情况下的学习第二部分：主动学习

监督学习任务的性能依赖于高质量标注数据，但获取大量标注样本成本高昂。主动学习是一种在标注预算有限、但允许投入部分人工标注资源的条件下，应对标注数据不足的范式。其核心思路是智能地选择最具信息量的样本进行标注，以在有限预算内最大化模型性能的提升。该方法旨在解决当面临标注数据受限时，如何通过策略性采样来高效利用标注资源的问题。

教程/实践数据/训练

推荐理由：这是 Lilian Weng 数据不足系列的第二篇，把主动学习的核心采样策略和实际权衡讲得很清楚，做数据标注和 ML 工程的同学值得复习一遍。

12月5日

08:00

Lilian Weng：Lil'Log（RSS）

43

Learning with not Enough Data Part 1： Semi-Supervised Learning（数据不足时的学习第一部分：半监督学习）

监督学习任务的性能通常随高质量标签数量的增加而提升，但大规模标注数据的获取成本高昂。在标签稀缺的场景下，半监督学习作为一种有效的机器学习范式，通过同时利用大量无标签数据与少量标签数据来提升模型性能。面对有限的标注数据，本文重点探讨了四种常用的半监督学习方法，为数据受限条件下的模型训练提供了技术路径。

教程/实践数据/训练

9月24日

08:00

Lilian Weng：Lil'Log（RSS）

47

如何在大量GPU上训练超大规模模型？

训练大型神经网络面临GPU内存需求巨大和训练时间漫长的双重挑战。文章系统梳理了多种主流的并行训练范式，以及模型架构与内存优化设计方案，为跨多GPU训练超大规模神经网络提供了可行路径。文中进一步补充了专家选择路由等新技术，并提及本文的精简升级版已作为《训练大型神经网络的技术》发布于OpenAI官方博客。

OpenAI教程/实践数据/训练部署/工程

7月11日

08:00

Lilian Weng：Lil'Log（RSS）

49

什么是扩散模型？

扩散模型是一种新型生成模型，具备灵活学习任意复杂数据分布的能力，并可对分布进行解析评估。近期研究表明，扩散模型能够生成高质量图像，其性能已与最先进的GAN相竞争。该文章自发布以来持续更新，陆续加入了无分类器引导、GLIDE、unCLIP、Imagen、潜在扩散模型、渐进蒸馏、一致性模型等新方法与模型架构内容。

OpenAI图像生成教程/实践

5月31日

08:00

Lilian Weng：Lil'Log（RSS）

38

对比表征学习

对比表征学习的目标是学习一种嵌入空间，使相似的样本对彼此靠近，而不相似的样本对彼此远离。该学习方法既适用于监督学习场景，也适用于无监督学习场景。在无监督数据任务中，对比学习是自监督学习领域最有效的方法之一，在计算机视觉和自然语言处理等任务中展现出优异性能。

OpenAI教程/实践

4月24日

08:00

Shunyu Yao：Blog（RSS）

33

论无根基意义学习的可证明局限

本文探讨了一个根本性问题：语言意义能否仅从形式数据（如文本语料）中学习？研究通过理论模型论证，即使模型能获得近乎无限的文本数据并具备查询任意两段文本语义等价性的强大“神谕”能力，也无法真正习得意义。文章以代码断言为喻，强调从形式通向意义需要一个最小的“接地点”，即对基本断言含义的初始理解。作者指出，现有模型在复杂任务上的局限正是纯形式学习不足的体现，并提出了一个关键理论问题：这个必要的“接地点”可以小到何种程度，才能启动有意义的学习？

大佬观点推理

3月21日

08:00

Lilian Weng：Lil'Log（RSS）

36

降低语言模型中的毒性

大型预训练语言模型因使用海量网络数据进行训练，不可避免地会习得部分毒性行为与偏见。为确保其在真实应用场景中的安全部署，必须对模型生成过程进行严格的安全控制。文章将从三个核心方面探讨降低语言模型毒性的方法：训练数据集的筛选与收集、对有毒内容的检测机制，以及模型本身的去毒化技术。

OpenAI安全/对齐教程/实践

1月2日

08:00

Lilian Weng：Lil'Log（RSS）

32

可控神经文本生成

可控神经文本生成是当前人工智能研究的热点，旨在引导大型语言模型生成具有特定属性的文本。现代语言模型虽在多项自然语言处理任务上表现先进，但控制生成内容属性仍面临挑战。主流方法包括引导解码策略、智能提示设计和模型微调。自2021年以来，该领域持续更新：2月发布版本2.0，修正拼写错误并添加多项新研究；5月集成 P-tuning 和 Prompt Tuning 等提示优化技术；9月引入未似然训练方法，进一步提升生成控制的精准度。这些进展推动了可控文本生成在实际应用中的发展。

教程/实践数据/训练

10月29日

08:00

Lilian Weng：Lil'Log（RSS）

31

如何构建开放域问答系统？

文章探讨了构建开放域问答系统的方法，指出该类系统能够回答事实性知识相关问题，可应用于聊天机器人或AI助手等场景。文中分析了闭卷和开卷两种技术路线，并提及在已有强大预训练语言模型的前提下，如何实际搭建这类系统。文章在2020年11月12日更新后，新增了使用OpenAI API（测试版）进行闭卷事实问答的具体示例。

检索增强搜索教程/实践

8月6日

08:00

Lilian Weng：Lil'Log（RSS）

36

神经架构搜索

神经架构搜索（NAS）自动化网络架构工程，旨在通过学习网络拓扑以在特定任务上获得最佳性能。该方法将搜索过程分解为搜索空间、搜索算法和子模型进化策略三个核心组件，回顾了多种优化思路，推动技术向更高效、更快捷和更经济的方向发展。当前主流模型架构虽由人类专家设计，但系统化的自动学习方法有望探索更广泛的架构空间，提升发现高性能解决方案的可能性。

OpenAI其他教程/实践

6月7日

08:00

Lilian Weng：Lil'Log（RSS）

45

深度强化学习中的探索策略

文章聚焦于强化学习中探索与利用的核心矛盾，指出智能体需在快速寻求最优解与避免过早陷入局部最优之间取得平衡。文章系统介绍了多种提升深度强化学习中探索效率的常见方法，并特别在2020年6月的更新中，于“前向动力学”章节增加了“通过分歧进行探索”的相关内容。文中强调，现代强化学习算法已能高效实现利用，但如何实现有效探索仍是一个开放性的研究课题。

OpenAI推理教程/实践

5月16日

08:00

Shunyu Yao：Blog（RSS）

14

作者因特定环境刺激变得怀旧，重新拾起一个项目。经过一个多小时二十几个commits的调整，实现了理想的Minimalism风格。回顾高中时期和OI阶段的百度贴吧、空间等经历，感叹许多人事物在短短几年内难以物理回溯。然而，精神世界的回忆可通过符号融入语言之河，以Minimalism方式将消散的故事链接进千年生活。这种对记忆与语言连接的思考，可能启发了作者对智能和语言的研究。

大佬观点现象/趋势

4月7日

08:00

Lilian Weng：Lil'Log（RSS）

39

Transformer家族

这篇技术博客于2023年1月27日进行了大幅重构更新，以纳入2020年以来发布的一系列新型Transformer模型。文章主要探讨了如何改进原版Transformer架构，使其能够实现更长的注意力跨度、降低内存与计算资源消耗，并提升在强化学习任务中的解决能力。更新后的完整内容已转移至作者的新文章《Transformer家族 Version 2.0》中。

OpenAI教程/实践

1月29日

08:00

Lilian Weng：Lil'Log（RSS）

33

强化学习中的课程学习方法

课程学习作为一种渐进式教学方法，通过分解复杂任务并提供由易到难的学习序列，显著提升了强化学习模型解决复杂问题的能力。文章系统介绍了该方法在强化学习领域的应用框架，涵盖任务特定课程设计、基于课程的学习策略等关键技术，并特别提及了程序化内容生成技术与知识蒸馏新路径。最新更新于2020年2月增加了相关技术章节，进一步扩展了课程学习的实现维度与实践参考。

OpenAI教程/实践数据/训练

11月10日

08:00

Lilian Weng：Lil'Log（RSS）

29

自监督表示学习

本文聚焦自监督表示学习，这是一种利用未标注数据通过监督学习范式进行训练的关键技术。文章全面覆盖了在图像、视频以及控制问题中应用的自监督学习任务。自2020年1月9日首次更新以来，文章不断演进，新增了对比预测编码部分；2020年7月8日引入了双模拟主题，探讨DeepMDP和DBC模型。期间，曾系统介绍动量对比方法，包括MoCo、SimCLR、CURL、MoCo V2和BYOL，但于2021年5月31日将这部分内容整合到独立的对比表示学习文章中。通过这些关键更新，文章反映了自监督学习领域的快速进展和研究动态。

OpenAI教程/实践数据/训练

9月5日

08:00

Lilian Weng：Lil'Log（RSS）

精选57

进化策略是一种在目标函数解析形式未知或无法直接计算梯度时，用于优化模型参数的黑箱优化算法。它作为随机梯度下降的替代方案，适用于多种优化场景。文章介绍了模拟退火、爬山法、Nelder-Mead方法等经典进化策略，并探讨了该方法在深度强化学习中的应用。通过评估目标函数值而非依赖梯度信息，进化策略为复杂优化问题提供了有效路径。

教程/实践数据/训练

推荐理由：这篇五年前的进化策略入门，至今仍是理解黑箱优化的最佳起点，Lilian Weng的笔法清晰，做RL的朋友可以当字典翻。

6月23日

08:00

Lilian Weng：Lil'Log（RSS）

27

元强化学习

Meta-RL是将元学习应用于强化学习任务的方法。其核心在于，智能体在经历了一系列任务的分布训练后，能够通过内部活动动态自主生成新的强化学习算法，从而快速高效地解决全新的任务。文章首先追溯了Meta-RL的起源，随后深入剖析了该方法的三个关键组成部分。

OpenAI教程/实践数据/训练

5月5日

08:00

Lilian Weng：Lil'Log（RSS）

51

域随机化用于仿真到真实迁移

机器人领域中，深度强化学习模型常在仿真器中训练以获取大量数据，但部署到真实机器人时面临仿真与现实之间的差距，导致任务失败。这一差距源于物理参数（如摩擦、阻尼、密度）不一致以及物理建模错误（如软体碰撞）。域随机化（DR）通过随机化训练环境中的属性，以简单有效的方式缩小这一差距，提升模型在真实世界中的适应能力。

教程/实践

3月14日

08:00

Lilian Weng：Lil'Log（RSS）

42

深度神经网络是否严重过拟合？

深度神经网络因参数众多且训练误差易达完美，常被认为会严重过拟合，却仍能有效泛化到样本外数据，这一悖论困扰着许多从传统机器学习转型的研究者。文章更新于2019年5月27日，新增了Lottery Ticket Hypothesis部分，该假说通过网络稀疏性为理解泛化能力提供了新视角。内容从困惑切入，分析深度学习与传统方法的差异，探讨过拟合问题的本质，但未提供具体实验数据或指标。

大佬观点数据/训练

1月31日

08:00

Lilian Weng：Lil'Log（RSS）

20

广义语言模型

2018年以来，自然语言处理领域取得显著进展。以OpenAI GPT和BERT为代表的大规模预训练语言模型，通过通用的模型架构在多种语言任务上达到了领先水平。这些模型无需依赖标注数据进行预训练，使研究者能够不断扩展训练规模，推动了性能的持续提升。文章后续还持续更新了ULMFiT、GPT-2、ALBERT、RoBERTa、T5、GPT-3、XLNet、BART和ELECTRA等后续模型的发展情况。

OpenAI教程/实践模型发布

12月27日

08:00

Lilian Weng：Lil'Log（RSS）

15

目标检测第四部分：快速检测模型

本篇为“目标检测入门”系列的第四部分，聚焦于提升检测速度的单阶段模型，主要包括 SSD、RetinaNet 以及 YOLO 系列。与第三部分介绍的 R-CNN 系列（如 Fast/Faster R-CNN）不同，这些模型跳过了显式的区域提议生成步骤，直接在密集采样的区域上进行检测，从而在保持较高准确性的同时大幅提升处理速度，使其更适用于自动驾驶等对实时性要求较高的应用场景。

其他教程/实践

11月30日

08:00

Lilian Weng：Lil'Log（RSS）

47

元学习：学习快速学习

元学习，又称“学会学习”，旨在设计能够快速适应新任务或环境的模型，仅需少量训练样本。其主流方法包括三类：基于度量的方法，通过学习高效的距离度量；基于模型的方法，利用带有内部或外部存储的（循环）网络；以及基于优化的方法，通过显式优化模型参数以实现快速学习。此外，文章提及已有中文翻译版本可用。

教程/实践数据/训练

10月13日

08:00

Lilian Weng：Lil'Log（RSS）

28

基于流的深度生成模型

作为生成模型的第三种类型，基于流的模型与GAN和VAE不同，它能够显式地学习输入数据的概率密度函数。文章回顾了前两类模型在显式学习真实数据概率密度函数方面的困难，并指出基于流的模型通过可逆和可计算的概率密度估计，为处理高维数据生成提供了新的方法框架。

OpenAI教程/实践

8月12日

08:00

Lilian Weng：Lil'Log（RSS）

41

从自编码器到Beta-VAE：生成模型的演进之路

本文系统梳理了自编码器系列模型的演进历程。自编码器通过瓶颈神经网络结构学习高维数据的压缩表示，其副产品是可用于降维、特征提取等任务的潜在编码。文章重点介绍了变分自编码器（VAE）及其关键变体Beta-VAE，它们通过引入概率框架和解缠约束，显著提升了生成能力。此外，还涵盖了去噪、稀疏等经典改进模型，并补充了后续发展如VQ-VAE与TD-VAE的相关内容。

OpenAI图像生成教程/实践数据/训练

6月24日

08:00

Lilian Weng：Lil'Log（RSS）

30

注意力？注意力！

本文系统探讨了注意力机制的起源、发展及其在深度学习中的关键作用，涵盖Transformer、SNAIL、Pointer Network和Neural Turing Machines等模型。文章通过多次更新记录了该领域的演进过程：2018年10月新增Pointer Network与Transformer实现链接；同年11月补充Neural Turing Machines；2019年7月修正“self-attention”术语使用；2020年4月提供改进型Transformer模型的后续文章链接。最后总结了注意力机制的深远影响，并推荐了相关论文、博客与开源实现资源。

OpenAI教程/实践

5月5日

08:00

Lilian Weng：Lil'Log（RSS）

31

使用Tensorflow + OpenAI Gym实现深度强化学习模型

该教程详细展示了如何在Tensorflow和OpenAI Gym环境中实现多种经典深度强化学习算法。文章提供了完整的实践代码，并已开源在GitHub仓库“lilianweng/deep-reinforcement-learning-gym”。内容聚焦于将理论转化为实际编程操作，旨在指导读者通过动手实践掌握模型的具体实现方法。

智能体OpenAI开源/仓库教程/实践

4月8日

08:00

Lilian Weng：Lil'Log（RSS）

精选55

策略梯度算法

该文章系统梳理了策略梯度算法的发展脉络，深入解析其工作原理，并详细介绍了从基础到前沿的多种算法，包括PPO、SAC、TD3、IMPALA等主流方法。文章自2018年起持续更新，陆续新增了D4PG、SVPG、PPG等新算法，并补充了关于PPO的最新讨论。文中还提供了韩语及中文等多个语言版本的翻译，便于不同读者参考。

智能体OpenAI教程/实践数据/训练

推荐理由：这篇是当年策略梯度方法的“圣经”级综述，现在看虽然有些过时，但想理解PPO、SAC的来龙去脉还得从这儿啃起。

2月19日

08:00

Lilian Weng：Lil'Log（RSS）

36

深入浅出强化学习（长文）

这是一篇系统性的强化学习入门综述，内容涵盖从基础概念到经典算法的完整知识路径。文章旨在为初学者搭建清晰的认知框架，避免其在专业术语中迷失。它详细梳理了强化学习的主要算法，并于近期更新了SARSA和Q-learning算法的描述，使两者的差异更加清晰。作为一篇长文，它还提供了中文翻译版本，以帮助中文读者理解这一人工智能的重要分支。

教程/实践数据/训练

1月23日

08:00

Lilian Weng：Lil'Log（RSS）

47

多臂老虎机问题及其解决方案

多臂老虎机问题是阐释探索与利用困境的经典范例。文章分析了该问题的核心矛盾：在未知选项中尝试新可能性（探索）与坚持已知最优选择（利用）之间的权衡。内容以在线推荐系统为例，说明算法需要平衡对成熟广告方案与潜在更优新方案的选择。文中提及针对伯努利多臂老虎机的具体算法实现代码已公开，展示了解决该问题的不同探索策略。

推理教程/实践

12月31日

08:00

Lilian Weng：Lil'Log（RSS）

40

目标检测入门指南第三部分：R-CNN家族

本文系统介绍了R-CNN（基于区域的卷积神经网络）家族的四个核心模型：R-CNN、Fast R-CNN、Faster R-CNN和Mask R-CNN。这些模型一脉相承，后续版本在速度上相较于前代实现了显著优化与提升。文章涵盖了该系列模型从基础架构到高效推理的演进脉络，并特别针对R-CNN补充了边界框回归等关键技术细节与常见优化技巧的深入解析。

OpenAI教程/实践

12月15日

08:00

Lilian Weng：Lil'Log（RSS）

24

目标检测入门第二部分：CNN、DPM与Overfeat

本文作为系列教程的第二部分，重点介绍了目标检测发展中的几个经典模型。文章解析了用于图像分类的卷积神经网络，包括AlexNet、VGG和ResNet，阐述了它们如何通过深度架构推动图像分类性能的突破。同时，详细讲解了早期用于目标识别的DPM（可变形部件模型）与Overfeat模型，说明了它们在特征提取与区域提议方面的创新思路。内容梳理了从分类到检测的技术演进脉络，为理解现代目标检测方法奠定了基础。

多模态教程/实践

10月29日

08:00

Lilian Weng：Lil'Log（RSS）

23

物体检测入门第一部分：梯度向量、HOG 和 SS

物体检测入门系列第一部分发布，聚焦基础概念，介绍梯度向量、HOG（方向梯度直方图）算法和选择性搜索用于图像分割。文章针对无计算机视觉经验的读者，以通俗方式解释传统物体检测技术，不涉及深度神经网络。内容涵盖梯度向量计算、HOG 算法原理及选择性搜索的图像分割应用，旨在激发学习兴趣。深度学习模型将在后续 Part 2 和 Part 3 中详细探讨。

图像生成教程/实践

10月15日

08:00

Lilian Weng：Lil'Log（RSS）

22

学习词嵌入

词嵌入是一种将词汇表示为数值向量的密集表达方法，能够通过多种语言模型学习得到。这种表示形式可以揭示词语之间隐藏的关系，例如“猫”与“小猫”的向量差类似于“狗”与“小狗”的向量差。文章介绍了几种用于学习词嵌入的模型，并阐述了其损失函数的设计原理，旨在帮助机器学习模型理解和处理自然语言文本。

教程/实践数据/训练

9月28日

08:00

Lilian Weng：Lil'Log（RSS）

35

基于信息论的深度学习剖析

Naftali Tishby教授在生前演讲中提出，信息论可应用于研究深度神经网络的训练过程，核心是信息瓶颈

教程/实践数据/训练

8月20日

08:00

Lilian Weng：Lil'Log（RSS）

46

从 GAN 到 WGAN

生成对抗网络（GAN）在模拟图像、语言和音乐等现实世界内容的生成任务中成果显著，但其训练过程常因不稳定和难以收敛而受阻。Wasserstein GAN（WGAN）针对这一问题，引入 Wasserstein 距离作为平滑度量，用于优化概率分布间的距离测量，从而提升训练稳定性并促进模型收敛。该研究深入解析了 GAN 的数学原理，并展示了 WGAN 如何通过改进度量方式克服 GAN 的固有训练缺陷。

图像生成教程/实践

8月1日

08:00

Lilian Weng：Lil'Log（RSS）

46

如何解释机器学习模型的预测？

随着机器学习模型渗透到医疗保健、司法系统和金融行业等关键领域，理解其决策过程并确保符合伦理要求或法律规范变得至关重要。本文回顾了模型可解释性的研究进展，覆盖两个主要方面：一是可解释模型及其特定解释方法，二是针对黑盒模型的解释策略。文章还探讨了可解释人工智能的开放讨论，强调提升模型透明度和可信度的必要性，以促进负责任的应用。这些研究为模型在敏感领域的部署提供了理论支持。

安全/对齐教程/实践

7月22日

08:00

Lilian Weng：Lil'Log（RSS）

22

使用 RNN 预测股票价格：第 2 部分

Part 2 教程在 Part 1 构建循环神经网络预测单一股票价格的基础上，扩展了模型能力，使其能同时处理多只股票的价格预测。为此，作者引入股票符号嵌入向量作为输入特征，以区分不同股票价格序列的独特模式。这一方法改进旨在增强模型的通用性和准确性，完整工作代码已开源在 GitHub 仓库 lilianweng/stock-rnn，方便读者复现和进一步研究。

其他教程/实践

7月8日

08:00

Lilian Weng：Lil'Log（RSS）

17

基于RNN预测股票价格：第一部分

该教程介绍了如何使用Tensorflow构建循环神经网络（RNN）来预测股票市场价格，其中第一部分重点针对标准普尔500指数进行预测。教程提供了完整可运行的代码，托管于GitHub仓库。

教程/实践数据/训练

6月21日

08:00

Lilian Weng：Lil'Log（RSS）

18

面向好奇者的深度学习概述

本文源于作者为Affirm公司举办的WiMLDS x Fintech聚会所做的演讲，旨在分享其近期对深度学习领域的学习心得。文章以2016年AlphaGo与围棋九段世界冠军李世石的系列赛为引，回顾了AlphaGo以4-1的比分取胜，这一标志性事件突显了当年人工智能领域的重大突破。作者借此概述了深度学习模型及其应用，为同样对这一领域感兴趣的读者提供了入门指引。

教程/实践