OpenAI被讽ClosedAI金沙澳门官网dkk?语言模型并没有

作者: 互联网资讯  发布:2019-12-01

前一段时间,OpenAI 丢出了两枚炸弹,一是公布了当前最先进的语言模型,二是选择与开源「Say Goodbye」。他们担心 GPT-2 模型太好,会被不怀好意的人滥用。近来,很多研究者呼吁 OpenAI 尽快开源这个 15 亿参数量的大模型,因为它并不能真正「理解」自然语言。

金沙澳门官网dkk 1

其实想想也是,语言模型只能确定自然语句或语法的正确性,它并不能对自然语言的逻辑进行建模。很快机器学习社区就发起了一个暗讽 GPT-2 的帖子:为了防止滥用,我是不是不应该公布在 MNIST 训练的 23064 层残差网络?

世界上最大的语言模型来了,顺便还破了个记录!英伟达宣布,目前已经训练出了世界上最大的语言模型——MegatronLM。这个模型有多大?83亿个参数!比谷歌的 BERT 大24倍,比 OpenAI 的 GPT-2 大5.6倍!不仅如此,英伟达还宣布打破了实时对话 AI 的记录——耗时53分钟就可以训练出行业标准的BERT模型、2毫秒左右就能对答案做出推断。AI硬(he)件(dan)厂商英伟达今天宣布,他们在NLP模型上取得了三大突破,为今后会话AI的落地应用铺平了道路。

金沙澳门官网dkk 2

英伟达用自己的硬件与并行计算软件相结合,在BERT模型的训练和推理上创下三项世界纪录:

很多人认为谷歌的 BERT是一种「暴力美学」,它美的地方在于提出了新型双向语言建模任务,辅以大数据、大模型最终能打造暴力美感,但 GPT-2 并没有给我们这种感觉。

1.最快的BERT训练速度,只需53分钟

也许现在随着模型变得越来越大,我们能更好地「迁移」到其它任务,如知识问答和情感分析等。但是从 fast.ai 的 ULMFit、OpenAI 的 GPT、AI2 的 ELMO、到谷歌的 BERT 以及刚刚公布的 GPT-2,真正具有美感的还是少数,不论是新架构还是新任务,闪亮的创新点才是重点。

2.最快的BERT推理速度,只需2.2ms

金沙澳门官网dkk 3

3.最大的BERT模型,包含83亿参数

热门的 Reddit 帖子

今年以来,NLP领域的“军备竞赛”越来越激烈。基于Transformer架构的模型,如谷歌的XLNet和Facebook的RoBERTa,在GLUE、SQuAD这些基准测试榜单头名争夺中你方唱罢我登场。

OpenAI 发布惊艳的研究成果不足为奇。真正让人意外的是他们决定不开源完整的研究成果,表示担心自己的技术被不怀好意的人用来制造垃圾邮件和假新闻。这一做法在 Reddit、Twitter 等平台上激起了热烈讨论,媒体也争相报道,讨论 AI 研究如何变得「危险到不能公布」。

两大公司为了刷榜的消耗了大量的时间和计算资源。为了提高BERT的训练速度,谷歌堆上了1024块TPU,用76分钟训练出了BERT模型。Facebook用上了1024个英伟达V100 GPU。

OpenAI 担心技术被不当利用无可厚非,但我并不赞同他们拒绝开源 GPT-2 这种做法。首先,只有某几种类型的危险技术才应该受到控制。基于此,我认为拒绝开放完整的 GPT-2 模型既没必要,也不利于 AI 的未来发展。

英伟达也不甘示弱,用1472个V100 GPU首次实现在一个小时之内训练完BERT模型。

欺骗性和破坏性的技术

英伟达表示,这项研究能够帮助企业使用实时会话AI更自然地与客户互动,帮助开发人员将最先进的NLP模型大规模部署在应用程序中。

我把有可能被滥用的现代技术大体分为欺骗性技术和破坏性技术。破坏性技术主要在物理领域运行,如化学武器、实验室工程超级病毒、致命自动化武器或原子弹。

最大的BERT模型

而欺骗性技术则主要在我们的头脑中运行,可能被不怀好意的人大范围地用于操纵或控制人类。如 deepfakes、Photoshop 或互联网、印刷机。除了自动化武器之外,关于 AI 滥用的的担忧也属于这一类别。

英伟达使用了92个DGX-2H节点、1,472个V100 GPU的DGX SuperPOD系统来训练BERT模型,将BERT-Large训练时间从几天缩短到到53分钟。

金沙澳门官网dkk 4

如果你觉得上面的堆硬件太过暴力,英伟达也给出更低配置下的训练速度。他们在“只有”16个V100 GPU的NVIDIA DGX-2用2.8天内训练了BERT-Large,展示了英伟达GPU对于会话AI的可扩展性。

Deepfakes 允许操作者将面部表情叠加到其他人的脸上。

考虑到开发人员对大型NLP模型不断增长的需求,英伟达建立并训练了世界上最大的基于Transformer的语言模型GPT-2 8B,它具有83亿个参数,是BERT-Large的24倍、GPT-2的5.6倍。

对于比较危险的破坏性技术,保护社会的唯一方法就是严格限制来源。如果没有其它控制机制,仅仅拒绝公布一项危险技术的细节是远远不够的:技术的快速发展使任何成果都可能会在几年内被独立复制,除非被某种外力强行阻止。以这种方式抑制某项技术是极其笨拙的,也不是万无一失的。恐怖分子总有机会搜集放射性材料造出脏弹,但我们现在别无选择:如果人们能够轻易从网上获取零部件和组装方法来自己组装原子弹,那地球就会成为一片坟场。

GPT-2 8B模型使用原生PyTorch进行训练,在512 GPU上有8路模型并行和的64路数据并行。实验是在DGX SuperPOD上进行的,其基准模型为12亿个参数,适用于单个V100 GPU。在单个GPU上运行此基线模型的端到端训练pipeline可实现39 TeraFLOPS的算力,这是V100 GPU的理论峰值算力的30%。

然而,对于欺骗性技术,却有一个更高效的替代方案。与其压制一项技术,不如将其威力公之于众。尽管这听上去有些违反直觉,但如果公众广泛意识到被操纵的可能性,欺骗性技术将失去很大威力。虽然对核武器的了解无法使我们免受其威胁,但如果对语音合成技术的最新进展有所了解,我们会对「奥巴马说中文」这件事更加怀疑。子弹不会长眼睛,但根据我们对现代照片编辑技术的了解,普京不太可能真的会骑熊。

通过8路并行模型将模型扩展到512个GPU上的83亿个参数,NVIDIA团队在整个应用程序中实现了高达15.1 PetaFLOPS的持续性能,并且与基线相比达到了76%的扩展效率。

金沙澳门官网dkk 5

为了研究这些几十亿参数的Transformer网络,英伟达还开源了Megatron项目。

你可以在网上找到普京骑任何东西的照片。

最快的推理速度

举一个具体的例子,我们可以看看一种有可能引发混乱但并没有摧毁现代社会的技术:Photoshop。解析 GPT-2

上面的推理部分太过“烧钱”,而英伟达在BERT推理上取得的进步可以让普通开发者也能用上。因为现在一些实时处理的任务也开始用上了Transformer,比如语音合成、语音识别。

通过具体分析文本生成,OpenAI 展示了一些模型生成的故事案例,并表明 GPT-2 可能会带来一些危险应用。为了方便起见,我们在下面复制了独角兽故事的前提和模型生成的前两段。前提:科学家们震惊地发现,在安第斯山脉一个偏远且没被开发过的山谷里,生活着一群独角兽。更加让人讶异的是,这些独角兽说着完美的英语。模型:这群生物有着独特的角,因此科学家将其命名为 Ovid's Unicorn。这些长着四支银白色角的生物之前并不为科学家所知。而今在将近两个世纪后,这一奇怪现象的神秘面纱终于得到了探索。

但是Transformer在这些落地化场景中却遇到了困难。这是因为在推理部署阶段,计算性能会面临巨大的挑战。以BERT为原型的多层Transformer模型,其性能常常难以满足在线业务对于低延迟和高吞吐的要求。

金沙澳门官网dkk 6

于是,英伟达提出了Faster Transformer,并在GitHub上开源了代码。

虽然从直观上而言,语言模型只能判断一句话是「人话」的概率,它并不会内在理解自然语言的逻辑,更不用说理解背后的知识了。但是从 OpenAI 给出的案例而言,GPT-2 似乎能理解自然语言的逻辑,我们只能认为这也许是大数据拟合的力量吧。值得注意的是,除了多次运行模型并手动挑选最佳样本外,故事前提也是精心挑选的。特别是前提介绍了说英语的独角兽,这很容易掩盖更深层次的问题:生成的无意义句子能拟合无意义的前提。

Faster Transformer是一个BERT Transformer单层前向计算的高效实现,代码简洁,后续可以通过简单修改支持多种Transformer结构。

即便考虑上述情况,这个短样本仍然存在着严重的连贯性缺陷。第一句暗示独角兽只有一支角,而生成的第二句却表明有四支角;前提表明发现独角兽是最近的新闻,而第三句却又暗示独角兽两个世纪前就被发现了。因为模型不能建模自然语言的逻辑,因此这种不连贯或相互矛盾会大量出现在文本生成中。

目前优化集中在编码器的前向计算。底层由CUDA和cuBLAS实现,支持FP16和FP32两种计算模式,其中FP16可以充分利用Volta和Turing架构GPU上的张量核心单元。

这些挑刺可能看起来作用不大,但它们却揭示了深度学习模型中普遍存在的一个更深层次的问题:GPT-2 并没有真正「理解」它所生成的文本。其实生成一目了然的自然语句非常容易,例如后现代作文生成器和 Mathgen,它们都是用上下文无关的语法生成「语法正确」的句子,不过这些句子并没有任何语义含义。毕竟对于大多数不熟悉数学的读者而言,下面两个方程式都像胡言乱语。

英伟达使用运行TensorRT的T4 GPU,仅在2.2毫秒内就对BERT-Base SQuAD数据集进行了推理,远低于许多实时应用的10毫秒处理阈值。

金沙澳门官网dkk 7

英伟达测试了不同生产环境下Faster Transformer前向计算的执行时间以及与TensorFlow XLA的性能比较。

生成语法正确的句子很容易,但确保句子连贯很难。

在小batch size情况下,12层Transformer在P4和T4上的性能表现如下:

不过公平地说,GPT-2 超过了其它大多数语言生成模型,但是离人类水平的连贯性语言还有很长的路要走。此外重要的是,OpenAI 展示的样本都没到被恶意使用的水平。

固定句子长度为32,标准模型和裁剪模型在不同batch size下,12层Transformer在V100上实现了2倍的速度提升:

此外,GPT-2 并没有显著超过其它开源语言模型,研究者在论文中也表示并不确定表现能超过 BERT 等语言模型。BERT 表示,它们的双向编码器提供的性能比单向语言模型要好。GPT 系列的模型都是传统的单向语言模型,但 OpenAI 并没有详细地对比 GPT-2 与其它前沿语言模型。由于 OpenAI 并没有微调它们的模型,因此我们也不能直接对比各模型在自动文本摘要或机器翻译等下游任务上的性能。开源完整模型的重要性

为了实现这一壮举,英伟达利用模型的并行性,将一个神经网络分割成多个部分,创建了因数据太大无法容纳在单个GPU的训练模型。

有些人可能认为开源完整的模型不是很有必要,只要披露研究结果就行了。但这种想法是不对的。

最重要的是,代码已开源!

AI 研究发展如此之快的部分原因就是开源,研究人员可以在眨眼之间复现已有的研究,而不必从头开始重建之前的工作。作为 AI 研究领域最具影响力的机构之一,OpenAI 强大的开源历史毫无疑问激励了其他人来做同样的事。如果 OpenAI 的新政策违背了这一趋势,其他研究人员可能也会效仿,而这会对为这个领域带来巨大利益的开源文化造成威胁。

GitHub项目地址:-LM

此外,开源促使信息向大众传播。通过开源,thispersondoesnotexist.com 网站在 ProductHunt 上获得了最高的排名。通过开源,艺术家们制作了首幅 AI 生成的画作并在佳士得拍卖行出售。虽然 OpenAI 的研究博客仅被热爱机器学习的从业者所阅,但是建立在开源基础上的研究可以接触到更广泛的受众,而这些人不太可能会看到最初的研究声明。

MegatronLM,堪称 NLP 界的“威震天”!

金沙澳门官网dkk 8

有钱任性:训练史上最大语言模型需要多少GPU?

去年,这幅 AI 生成的画作卖了近 50 万美元。

更大的语言模型对于诸如文章完成、问题回答和对话系统等NLP任务非常有用。最近,训练最大的神经语言模型已经成为提高NLP应用水平的最佳方法。

开源也确保了研究的合理性。这个领域有很多名不副实的研究,而研究人员是否可以通过检查开源代码来复现非比寻常的研究结果非常重要。以 OpenAI 的声望,没有人会质疑其研究结果,不管它有没有开源,但这一声望是建立在其先前的开源工作上的。在研究中,即使你没有作假,其他人也可能会作假。而没有开源就没有办法来验证,研究人员和公众都无法穿透迷雾寻求真相。

最近的两篇论文,BERT和GPT-2,展示了大规模语言建模的好处。这两篇论文都利用了计算机和可用文本语料库的进步,在自然语言理解、建模和生成方面显著超越了当前的最优水平。

这也并不是说所有东西都应该不假思索地开源。那些危险的破坏性技术绝对不能让其他人轻易获得。即使是欺骗性的技术,如果非常危险,就有必要在发表论文和公布代码之间增加延迟时间,以防止带有恶意的快速反应者在公众还没消化研究成果之前趁机而入。如果 OpenAI 认为 GPT-2 就属于这种技术,那我会建议他们晚点再开源模型。结语

金沙澳门官网dkk,训练这些模型需要数以百计exaflops级的计算力和巧妙的内存管理,以换取减少内存占用的重新计算。然而,对于超过10亿参数的超大型的模型,单个GPU上的内存不足以匹配模型以及训练所需的参数,需要利用模型并行性来将参数分割到多个GPU上。有几种建模并行性的方法,但是它们很难使用,因为它们依赖于自定义编译器,或者扩展性很差,或者需要对优化器进行更改。

AI 研究从开源文化中获益良多。虽然多数学科的最新研究获取渠道收费昂贵,但任何有网络的人都可以和斯坦福教授一样访问最前沿的 AI 研究,做实验和克隆开源代码库一样简单,而租赁云端的 GPU 仅需几美分/小时。我们致力于通过公开发布学习材料、新的研究成果以及开源我们的项目来实现人工智能的民主化,这也是 AI 领域发展如此迅速的原因。

在这项工作中,我们通过对现有PyTorch transformer实现进行少量有针对性的修改,实现了一种简单而有效的模型并行方法。我们的代码是用原生Python编写的,利用混合精度训练,并利用NCCL库在GPU之间进行通信。

我很赞赏 OpenAI 出色的新研究,它突破了语言建模和文本生成的限制。我也感谢他们深思熟虑,愿意参与一场关于研究伦理的讨论。尽管这个话题非常重要,但却很少有人讨论。OpenAI 提出了人工智能滥用的问题,这的确是我们要考虑的问题,但不应成为不开源其研究的理由。

我们通过在512个GPU上训练一个transformer语言模型证明了这种方法的有效性,该模型具有8路模型并行性和64路数据并行性,83亿参数,使其成为有史以来规模最大的基于transformer的语言模型,其大小为BERT的24倍,GPT-2的5.6倍。我们已经在GitHub存储库中发布了实现此方法的代码。

我真诚地希望,2019 年机器学习不会从一个开放的系统转变为封闭的系统,这对该领域的发展既不安全也没有帮助。为了我们的未来,OpenAI,请开源你们的语言模型。

我们的实验是在英伟达的DGX SuperPOD上进行的。在没有模型并行性的情况下,我们可以在单个V100 32GB GPU上训练一个12亿参数的基线模型,并在整个训练过程中保持39 TeraFLOPS,这是DGX2-H服务器上单个GPU理论峰值的30%。

我们将模型参数扩展到83亿,使用512个GPU,通过8路模型并行化,在整个应用程序中我们实现了高达15.1 PetaFLOPS的持续性能,与单GPU相比,扩展效率达到76%。图1显示了扩展的结果。

图1:模型并行(蓝色):多达8路模型并行弱扩展,每个GPU大约有10亿个参数(例如2个GPU有20亿参数,4个GPU有40亿参数)。模型+数据并行(绿色):类似于模型并行的64路数据并行的配置。

多GPU并行性

训练模型的典型范例是利用 weak scaling 方法和分布式数据并行性,根据GPU的数量来扩展训练批大小。这种方法允许模型在更大的数据集上进行训练,但有一个约束,即所有参数必须适合一个GPU。

模型并行训练可以通过跨多个GPU划分模型来克服这一限制。近年来出现了几个通用模型并行框架,如GPipe和Mesh-TensorFlow。gPipe在不同的处理器上划分层组,而Mesh-TensorFlow使用层内模型并行性。我们的方法在概念上类似于Mesh-TensorFlow,我们关注层内并行性并融合GEMM以减少同步。然而,我们只对现有PyTorch transformer实现进行了一些有针对性的修改,以便使用模型并行性来训练大型transformers。我们的方法很简单,不需要任何新的编译器或代码重新连接来实现模型并行性,并且可以通过插入一些简单的primitives(图2中的f和g 算子)完全实现。

我们利用 transformer网络的结构,通过添加一些同步primitives来创建一个简单的模型并行实现。

transformer层由一个self attention block和一个2层的多层感知器(MLP)组成。我们分别在这两个模块中引入模型并行性。

如图2a所示,这是MLP的结构,由两个GEMM组成,中间有一个GeLU非线性,后面有一个dropout层。我们以列并行方式划分第一个GEMM。这使得GeLU 非线性可以独立地应用于每个分块GEMM的输出。模块中的第二个GEMM沿着行并行化,直接获取GeLU层的输出,不需要任何通信。然后,在将输出传递到dropout层之前,跨GPU减少第二个GEMM的输出。这种方法将MLP block中的GEMM跨GPU分割了,只需要在正向传递(g算子)中执行一个all-reduce操作,在反向传递(f算子)中执行一个all-reduce操作。

图2:(a): MLP, (b):transformer的self attention block。

如图2(b)所示,在self attention block上,我们利用multihead attention操作中的固有并行性,以列并行方式划分与键,查询和值相关联的 GEMM。

这使得我们可以在GPU之间分割每个attention head参数和工作负载,并且不需要任何即时通信来完成self attention。

本文由金沙澳门官网dkk发布于互联网资讯,转载请注明出处:OpenAI被讽ClosedAI金沙澳门官网dkk?语言模型并没有

关键词: