神经正切核是一种用于解释神经网络在梯度下降训练过程中演化行为的核方法。它深入阐释了为何宽度足够的神经网络能够一致收敛至经验损失函数的全局最小值,即使在参数量远超训练样本数的过参数化情况下亦是如此。研究进一步探讨了在神经网络具有无限宽度的设定下,通过刻画神经正切核来证明其在不同初始化条件下能够确定性收敛的理论依据。
神经正切核是一种用于解释神经网络在梯度下降训练过程中演化行为的核方法。它深入阐释了为何宽度足够的神经网络能够一致收敛至经验损失函数的全局最小值,即使在参数量远超训练样本数的过参数化情况下亦是如此。研究进一步探讨了在神经网络具有无限宽度的设定下,通过刻画神经正切核来证明其在不同初始化条件下能够确定性收敛的理论依据。
处理图像生成文本(如图像描述和视觉问答)的技术已有多年研究。传统方法通常依赖目标检测网络作为视觉编码器来捕捉视觉特征,再通过文本解码器生成文字。该内容聚焦于一种特定的技术路径,即扩展预训练的通用语言模型,使其具备处理视觉信号的能力,从而完成视觉语言任务。
在训练数据有限的情况下,文章探讨了两种生成合成数据的核心方法。一是数据增强,通过对现有样本施加变换、扭曲等操作生成新数据点,同时保持关键属性不变,这种方法在文本和图像领域已有较多应用。二是生成全新数据,尤其依赖强大的预训练语言模型(如GPT、LLaMA),在极少甚至没有原始数据时,能够通过上下文学习生成高质量的合成数据点,显著拓展了小样本学习的可能性。
监督学习任务的性能依赖于高质量标注数据,但获取大量标注样本成本高昂。主动学习是一种在标注预算有限、但允许投入部分人工标注资源的条件下,应对标注数据不足的范式。其核心思路是智能地选择最具信息量的样本进行标注,以在有限预算内最大化模型性能的提升。该方法旨在解决当面临标注数据受限时,如何通过策略性采样来高效利用标注资源的问题。
监督学习任务的性能通常随高质量标签数量的增加而提升,但大规模标注数据的获取成本高昂。在标签稀缺的场景下,半监督学习作为一种有效的机器学习范式,通过同时利用大量无标签数据与少量标签数据来提升模型性能。面对有限的标注数据,本文重点探讨了四种常用的半监督学习方法,为数据受限条件下的模型训练提供了技术路径。
训练大型神经网络面临GPU内存需求巨大和训练时间漫长的双重挑战。文章系统梳理了多种主流的并行训练范式,以及模型架构与内存优化设计方案,为跨多GPU训练超大规模神经网络提供了可行路径。文中进一步补充了专家选择路由等新技术,并提及本文的精简升级版已作为《训练大型神经网络的技术》发布于OpenAI官方博客。
扩散模型是一种新型生成模型,具备灵活学习任意复杂数据分布的能力,并可对分布进行解析评估。近期研究表明,扩散模型能够生成高质量图像,其性能已与最先进的GAN相竞争。该文章自发布以来持续更新,陆续加入了无分类器引导、GLIDE、unCLIP、Imagen、潜在扩散模型、渐进蒸馏、一致性模型等新方法与模型架构内容。
对比表征学习的目标是学习一种嵌入空间,使相似的样本对彼此靠近,而不相似的样本对彼此远离。该学习方法既适用于监督学习场景,也适用于无监督学习场景。在无监督数据任务中,对比学习是自监督学习领域最有效的方法之一,在计算机视觉和自然语言处理等任务中展现出优异性能。
本文探讨了一个根本性问题:语言意义能否仅从形式数据(如文本语料)中学习?研究通过理论模型论证,即使模型能获得近乎无限的文本数据并具备查询任意两段文本语义等价性的强大“神谕”能力,也无法真正习得意义。文章以代码断言为喻,强调从形式通向意义需要一个最小的“接地点”,即对基本断言含义的初始理解。作者指出,现有模型在复杂任务上的局限正是纯形式学习不足的体现,并提出了一个关键理论问题:这个必要的“接地点”可以小到何种程度,才能启动有意义的学习?
大型预训练语言模型因使用海量网络数据进行训练,不可避免地会习得部分毒性行为与偏见。为确保其在真实应用场景中的安全部署,必须对模型生成过程进行严格的安全控制。文章将从三个核心方面探讨降低语言模型毒性的方法:训练数据集的筛选与收集、对有毒内容的检测机制,以及模型本身的去毒化技术。
可控神经文本生成是当前人工智能研究的热点,旨在引导大型语言模型生成具有特定属性的文本。现代语言模型虽在多项自然语言处理任务上表现先进,但控制生成内容属性仍面临挑战。主流方法包括引导解码策略、智能提示设计和模型微调。自2021年以来,该领域持续更新:2月发布版本2.0,修正拼写错误并添加多项新研究;5月集成 P-tuning 和 Prompt Tuning 等提示优化技术;9月引入未似然训练方法,进一步提升生成控制的精准度。这些进展推动了可控文本生成在实际应用中的发展。
文章探讨了构建开放域问答系统的方法,指出该类系统能够回答事实性知识相关问题,可应用于聊天机器人或AI助手等场景。文中分析了闭卷和开卷两种技术路线,并提及在已有强大预训练语言模型的前提下,如何实际搭建这类系统。文章在2020年11月12日更新后,新增了使用OpenAI API(测试版)进行闭卷事实问答的具体示例。
神经架构搜索(NAS)自动化网络架构工程,旨在通过学习网络拓扑以在特定任务上获得最佳性能。该方法将搜索过程分解为搜索空间、搜索算法和子模型进化策略三个核心组件,回顾了多种优化思路,推动技术向更高效、更快捷和更经济的方向发展。当前主流模型架构虽由人类专家设计,但系统化的自动学习方法有望探索更广泛的架构空间,提升发现高性能解决方案的可能性。
文章聚焦于强化学习中探索与利用的核心矛盾,指出智能体需在快速寻求最优解与避免过早陷入局部最优之间取得平衡。文章系统介绍了多种提升深度强化学习中探索效率的常见方法,并特别在2020年6月的更新中,于“前向动力学”章节增加了“通过分歧进行探索”的相关内容。文中强调,现代强化学习算法已能高效实现利用,但如何实现有效探索仍是一个开放性的研究课题。
作者因特定环境刺激变得怀旧,重新拾起一个项目。经过一个多小时二十几个commits的调整,实现了理想的Minimalism风格。回顾高中时期和OI阶段的百度贴吧、空间等经历,感叹许多人事物在短短几年内难以物理回溯。然而,精神世界的回忆可通过符号融入语言之河,以Minimalism方式将消散的故事链接进千年生活。这种对记忆与语言连接的思考,可能启发了作者对智能和语言的研究。
这篇技术博客于2023年1月27日进行了大幅重构更新,以纳入2020年以来发布的一系列新型Transformer模型。文章主要探讨了如何改进原版Transformer架构,使其能够实现更长的注意力跨度、降低内存与计算资源消耗,并提升在强化学习任务中的解决能力。更新后的完整内容已转移至作者的新文章《Transformer家族 Version 2.0》中。
课程学习作为一种渐进式教学方法,通过分解复杂任务并提供由易到难的学习序列,显著提升了强化学习模型解决复杂问题的能力。文章系统介绍了该方法在强化学习领域的应用框架,涵盖任务特定课程设计、基于课程的学习策略等关键技术,并特别提及了程序化内容生成技术与知识蒸馏新路径。最新更新于2020年2月增加了相关技术章节,进一步扩展了课程学习的实现维度与实践参考。
本文聚焦自监督表示学习,这是一种利用未标注数据通过监督学习范式进行训练的关键技术。文章全面覆盖了在图像、视频以及控制问题中应用的自监督学习任务。自2020年1月9日首次更新以来,文章不断演进,新增了对比预测编码部分;2020年7月8日引入了双模拟主题,探讨DeepMDP和DBC模型。期间,曾系统介绍动量对比方法,包括MoCo、SimCLR、CURL、MoCo V2和BYOL,但于2021年5月31日将这部分内容整合到独立的对比表示学习文章中。通过这些关键更新,文章反映了自监督学习领域的快速进展和研究动态。
进化策略是一种在目标函数解析形式未知或无法直接计算梯度时,用于优化模型参数的黑箱优化算法。它作为随机梯度下降的替代方案,适用于多种优化场景。文章介绍了模拟退火、爬山法、Nelder-Mead方法等经典进化策略,并探讨了该方法在深度强化学习中的应用。通过评估目标函数值而非依赖梯度信息,进化策略为复杂优化问题提供了有效路径。
Meta-RL是将元学习应用于强化学习任务的方法。其核心在于,智能体在经历了一系列任务的分布训练后,能够通过内部活动动态自主生成新的强化学习算法,从而快速高效地解决全新的任务。文章首先追溯了Meta-RL的起源,随后深入剖析了该方法的三个关键组成部分。
机器人领域中,深度强化学习模型常在仿真器中训练以获取大量数据,但部署到真实机器人时面临仿真与现实之间的差距,导致任务失败。这一差距源于物理参数(如摩擦、阻尼、密度)不一致以及物理建模错误(如软体碰撞)。域随机化(DR)通过随机化训练环境中的属性,以简单有效的方式缩小这一差距,提升模型在真实世界中的适应能力。
深度神经网络因参数众多且训练误差易达完美,常被认为会严重过拟合,却仍能有效泛化到样本外数据,这一悖论困扰着许多从传统机器学习转型的研究者。文章更新于2019年5月27日,新增了Lottery Ticket Hypothesis部分,该假说通过网络稀疏性为理解泛化能力提供了新视角。内容从困惑切入,分析深度学习与传统方法的差异,探讨过拟合问题的本质,但未提供具体实验数据或指标。
2018年以来,自然语言处理领域取得显著进展。以OpenAI GPT和BERT为代表的大规模预训练语言模型,通过通用的模型架构在多种语言任务上达到了领先水平。这些模型无需依赖标注数据进行预训练,使研究者能够不断扩展训练规模,推动了性能的持续提升。文章后续还持续更新了ULMFiT、GPT-2、ALBERT、RoBERTa、T5、GPT-3、XLNet、BART和ELECTRA等后续模型的发展情况。
本篇为“目标检测入门”系列的第四部分,聚焦于提升检测速度的单阶段模型,主要包括 SSD、RetinaNet 以及 YOLO 系列。与第三部分介绍的 R-CNN 系列(如 Fast/Faster R-CNN)不同,这些模型跳过了显式的区域提议生成步骤,直接在密集采样的区域上进行检测,从而在保持较高准确性的同时大幅提升处理速度,使其更适用于自动驾驶等对实时性要求较高的应用场景。
元学习,又称“学会学习”,旨在设计能够快速适应新任务或环境的模型,仅需少量训练样本。其主流方法包括三类:基于度量的方法,通过学习高效的距离度量;基于模型的方法,利用带有内部或外部存储的(循环)网络;以及基于优化的方法,通过显式优化模型参数以实现快速学习。此外,文章提及已有中文翻译版本可用。
作为生成模型的第三种类型,基于流的模型与GAN和VAE不同,它能够显式地学习输入数据的概率密度函数。文章回顾了前两类模型在显式学习真实数据概率密度函数方面的困难,并指出基于流的模型通过可逆和可计算的概率密度估计,为处理高维数据生成提供了新的方法框架。
本文系统梳理了自编码器系列模型的演进历程。自编码器通过瓶颈神经网络结构学习高维数据的压缩表示,其副产品是可用于降维、特征提取等任务的潜在编码。文章重点介绍了变分自编码器(VAE)及其关键变体Beta-VAE,它们通过引入概率框架和解缠约束,显著提升了生成能力。此外,还涵盖了去噪、稀疏等经典改进模型,并补充了后续发展如VQ-VAE与TD-VAE的相关内容。
本文系统探讨了注意力机制的起源、发展及其在深度学习中的关键作用,涵盖Transformer、SNAIL、Pointer Network和Neural Turing Machines等模型。文章通过多次更新记录了该领域的演进过程:2018年10月新增Pointer Network与Transformer实现链接;同年11月补充Neural Turing Machines;2019年7月修正“self-attention”术语使用;2020年4月提供改进型Transformer模型的后续文章链接。最后总结了注意力机制的深远影响,并推荐了相关论文、博客与开源实现资源。
该教程详细展示了如何在Tensorflow和OpenAI Gym环境中实现多种经典深度强化学习算法。文章提供了完整的实践代码,并已开源在GitHub仓库“lilianweng/deep-reinforcement-learning-gym”。内容聚焦于将理论转化为实际编程操作,旨在指导读者通过动手实践掌握模型的具体实现方法。
该文章系统梳理了策略梯度算法的发展脉络,深入解析其工作原理,并详细介绍了从基础到前沿的多种算法,包括PPO、SAC、TD3、IMPALA等主流方法。文章自2018年起持续更新,陆续新增了D4PG、SVPG、PPG等新算法,并补充了关于PPO的最新讨论。文中还提供了韩语及中文等多个语言版本的翻译,便于不同读者参考。
这是一篇系统性的强化学习入门综述,内容涵盖从基础概念到经典算法的完整知识路径。文章旨在为初学者搭建清晰的认知框架,避免其在专业术语中迷失。它详细梳理了强化学习的主要算法,并于近期更新了SARSA和Q-learning算法的描述,使两者的差异更加清晰。作为一篇长文,它还提供了中文翻译版本,以帮助中文读者理解这一人工智能的重要分支。
多臂老虎机问题是阐释探索与利用困境的经典范例。文章分析了该问题的核心矛盾:在未知选项中尝试新可能性(探索)与坚持已知最优选择(利用)之间的权衡。内容以在线推荐系统为例,说明算法需要平衡对成熟广告方案与潜在更优新方案的选择。文中提及针对伯努利多臂老虎机的具体算法实现代码已公开,展示了解决该问题的不同探索策略。
本文系统介绍了R-CNN(基于区域的卷积神经网络)家族的四个核心模型:R-CNN、Fast R-CNN、Faster R-CNN和Mask R-CNN。这些模型一脉相承,后续版本在速度上相较于前代实现了显著优化与提升。文章涵盖了该系列模型从基础架构到高效推理的演进脉络,并特别针对R-CNN补充了边界框回归等关键技术细节与常见优化技巧的深入解析。
本文作为系列教程的第二部分,重点介绍了目标检测发展中的几个经典模型。文章解析了用于图像分类的卷积神经网络,包括AlexNet、VGG和ResNet,阐述了它们如何通过深度架构推动图像分类性能的突破。同时,详细讲解了早期用于目标识别的DPM(可变形部件模型)与Overfeat模型,说明了它们在特征提取与区域提议方面的创新思路。内容梳理了从分类到检测的技术演进脉络,为理解现代目标检测方法奠定了基础。
物体检测入门系列第一部分发布,聚焦基础概念,介绍梯度向量、HOG(方向梯度直方图)算法和选择性搜索用于图像分割。文章针对无计算机视觉经验的读者,以通俗方式解释传统物体检测技术,不涉及深度神经网络。内容涵盖梯度向量计算、HOG 算法原理及选择性搜索的图像分割应用,旨在激发学习兴趣。深度学习模型将在后续 Part 2 和 Part 3 中详细探讨。
词嵌入是一种将词汇表示为数值向量的密集表达方法,能够通过多种语言模型学习得到。这种表示形式可以揭示词语之间隐藏的关系,例如“猫”与“小猫”的向量差类似于“狗”与“小狗”的向量差。文章介绍了几种用于学习词嵌入的模型,并阐述了其损失函数的设计原理,旨在帮助机器学习模型理解和处理自然语言文本。
生成对抗网络(GAN)在模拟图像、语言和音乐等现实世界内容的生成任务中成果显著,但其训练过程常因不稳定和难以收敛而受阻。Wasserstein GAN(WGAN)针对这一问题,引入 Wasserstein 距离作为平滑度量,用于优化概率分布间的距离测量,从而提升训练稳定性并促进模型收敛。该研究深入解析了 GAN 的数学原理,并展示了 WGAN 如何通过改进度量方式克服 GAN 的固有训练缺陷。
随着机器学习模型渗透到医疗保健、司法系统和金融行业等关键领域,理解其决策过程并确保符合伦理要求或法律规范变得至关重要。本文回顾了模型可解释性的研究进展,覆盖两个主要方面:一是可解释模型及其特定解释方法,二是针对黑盒模型的解释策略。文章还探讨了可解释人工智能的开放讨论,强调提升模型透明度和可信度的必要性,以促进负责任的应用。这些研究为模型在敏感领域的部署提供了理论支持。
Part 2 教程在 Part 1 构建循环神经网络预测单一股票价格的基础上,扩展了模型能力,使其能同时处理多只股票的价格预测。为此,作者引入股票符号嵌入向量作为输入特征,以区分不同股票价格序列的独特模式。这一方法改进旨在增强模型的通用性和准确性,完整工作代码已开源在 GitHub 仓库 lilianweng/stock-rnn,方便读者复现和进一步研究。