人工智能模型的规模是越大越好吗?-30的倍数是多少

频道:虚拟货币 日期: 浏览:0

可以产生流畅文本的人工智能系统,如OpenAI的ChatGPT,是技术行业的最新宠儿。但是,当面对需要推理来回答的数学问题时,这些

大型语言模型(LLM)

经常会失败。以这个代数问题为例:

平行于y = 4x + 6的线通过(5,10)。这条线与y轴相交的点的 y 坐标是多少?

虽然LLM有时可以正确回答这些类型的问题,但它们经常弄错。在一项对其推理能力的早期测试中,ChatGPT在面对中学数学问题“MATH”数据集中的问题样本时得分仅为26%。

这是意料之中的:给定输入文本,LLM只是根据构成模型训练数据的单词、符号和句子的统计规律生成新文本。如果仅仅学习语言模式可以让LLM可靠地模仿数学推理,那将是令人惊讶的。

但早在2022年6月,谷歌创建的Minerva已经在某种程度上超过了期望。Minerva在MATH数据集中的得分为50%,这一结果震惊了一些人工智能研究人员。

Minerva的优势在于它接受了与数学相关的数据的训练。但谷歌的研究提出了该模型表现如此出色的另一个重要原因——它的庞大规模。它的大小大约是ChatGPT的三倍。

Minerva的结果暗示了一些研究人员长期以来一直怀疑的事情:训练更大的LLM,并提供给它们更多的数据,可以让他们能够通过模式识别来解决需要推理的任务。如果是这样,一些人工智能研究人员表示,这种“越大越好”的策略可能会为更强大的人工智能提供一条途径。

但有理由怀疑这一论点。LLM仍然会犯明显的错误,一些科学家认为,更大的模型只是在属于其训练数据相关范围内做得更好,而不是获得回答全新问题的能力。

这场辩论现在正在人工智能的前沿展开。商业公司觉得更大的AI模型可以得到更好的结果,因此他们正在推出更大的LLM——每个LLM的训练和运行成本高达数百万美元。但这些模型有很大的缺点。除了担心它们的输出不可信以及可能会加剧错误信息的传播之外,它们价格昂贵且消耗大量能量。

模型参数随着年代的发展呈指数增大

批评者认为,最终,大型LLM将永远无法模仿或获得使他们能够始终如一地回答推理问题的技能。相反,一些科学家表示,更小、更节能的人工智能才应是发展的方向——部分原因是大脑学习和建立联系的方式。

更大更好?

像ChatGPT和Minerva这样的LLM是由计算单元(也称为人工神经元)组建的巨大网络,按层排列。LLM的大小是通过它有多少参数(描述神经元之间连接强度的可调值)来衡量的。训练这样的网络,要求它预测已知句子的屏蔽部分并调整这些参数,以便算法下次做得更好。

在数十亿个人工表达上重复训练,神经网络就会学习模拟人类语言的内部表征。在这个阶段,LLM被称为

预训练

:其参数捕获了它在训练期间看到的书面语言的统计结构,包括文本中的所有事实、偏见和错误。然后,可以用专用数据对其进行“

微调

”。

例如,为了构建Minerva,研究人员从Google的Pathways语言模型(PaLM)开始,该模型具有540亿个参数,并在780亿的数据集上进行预训练。数据可以是单词、数字或某种信息单位;在PaLM的案例中,数据是从英语和多语言网络文档、书籍和代码中收集的。其后,在科学论文和数学相关网页的数百亿个数据上微调 PaLM ,产生了Minerva。

Minerva 可以回答这样的提示:小于520的30的最大倍数是多少?LLM似乎正在思考这些步骤,但它所做的只是将问题转化为一系列符号,生成一个统计上合理的后续符号,将其附加到原始序列,然后循环这一过程。

谷歌研究人员使用8亿、62亿和540亿个参数的底层预训练PaLM模型,微调了三种大小的Minerva。Minerva的性能随着规模而提高。在整个MATH数据集上,最小的模型有25%的准确率,中型模型达到43%,最大的模型突破了50%大关。

三种大小的Minerva的测试成绩

最大的模型也使用了最少的微调数据——它只利用了26亿个数据进行微调,而最小的模型却利用了164亿个数据进行了微调。但是最大的模型花了一个月的时间来微调,是最小模型时间的8倍。理想情况下,最大的模型应该在更多的数据上进行微调,这本可以带来更好的性能,但是计算费用却变得不可承受。

标度定律

最大的Minerva模型表现最好,这与标度定律的研究一致——这些定律表明性能如何随着模型大小而提高。2020年的一项研究表明,当给定以下三件事之一时,模型表现更好:更多参数、更多训练数据或更多“计算”(训练期间执行的计算操作数量)。结果表明,性能随着参数数量的某种幂指数而提高。然而,研究人员并不完全知道原因是什么,这些定律纯粹是经验性的。

为了获得最佳结果,2020年的研究表明,随着训练数据的翻倍,模型大小应该增加五倍。去年的工作对此略有修改。今年三月,总部位于伦敦的人工智能公司DeepMind认为,最好同时扩大模型大小和训练数据,并且在更多数据上训练的较小模型比在较少数据上训练的大型模型效果更好。例如,DeepMind的Chinchilla模型有70亿个参数,并在1.4万亿个数据上进行了训练,而其280亿参数的Gopher模型在300亿个数据上进行了训练。Chinchilla在旨在评估LLM所学内容的任务上优于Gopher。

去年十月,麦吉尔大学的伊桑·卡瓦列罗(Ethan Caballero)与里什(Rish)等人的一篇报告说,在规模和性能之间发现了更复杂的关系。在某些情况下,性能与模型大小的比例关于与多个幂指数相关。

例如,在一个拟合一般方程的假设场景中,性能首先逐渐提高,然后随着模型大小的增大而更快地提高,但随后随着参数数量的继续增加而略有下降,然后再次增加。这种复杂关系的特征取决于每个模型的细节及其训练方式。最终,研究人员希望能够提前预测这一点,因为任何LLM都会持续扩大规模。

规模的问题

在讨论进行的同时,人们对大型语言模型的趋势已经存在紧迫的担忧。训练大型LLM所涉及的数据集,计算能力和费用限制了他们的发展。OpenAI尚未确认创建ChatGPT的成本,但其他人根据所涉及的计算估计,预训练GPT-3(ChatGPT的前身)的成本将超过400万美元。运行ChatGPT每月可能花费数百万美元,因为免费聊天机器人现在正在提供大量的访问服务。

无论谁来建造它们,LLM也引起了对电力消耗的担忧。例如,谷歌报告说,训练PaLM在大约两个月内花费了大约3.4千兆瓦时。这是大约300个美国家庭的年能源消耗。谷歌在其数据中心训练了PaLM,据称该数据中心使用89%的无碳能源,主要由风能和其他可再生能源提供动力。但对人工智能模型行业的一项调查显示,大多数仍然主要使用由化石燃料供电的电网进行训练。随着多家公司开始训练和使用更大的模型,他们可能会消耗更多的电力。

更智能更小?

因此,对于许多科学家来说,迫切需要降低LLM的能耗:使神经网络更小,更高效,也许更智能。除了训练LLM的能源成本(虽然很大,但这是一次性的),推理所需的能量(LLM回答查询)可能会随着用户数量的增加而激增。

相比之下,我们自己的大脑比任何LLM都要复杂和大得多,有860亿个神经元和大约100万亿个突触连接。然而,人类大脑消耗的功率在20到50瓦之间。

因此,一些研究人员希望模仿大脑的各个方面,将有助于LLM和其他神经网络变得更小,更智能,更高效。

大脑整体智力和效率的一个来源可能是它的反馈连接。LLM本质上是“前馈”网络。这意味着信息的单向流动:从输入通过LLM层到其输出。大脑的连接方式则不同。例如,在人类视觉系统中,神经元将接收视觉信息的大脑区域连接到更靠后的区域。但也有一些反馈连接允许神经元之间以相反的方向传递信息。反馈连接的数量可能是前馈连接的十倍,但LLM没有反馈连接。

包含前馈和反馈连接的人工神经网络通常称为递归神经网络(RNN)。这种网络可以识别随时间变化的数据模式。这是所有自然智能如何体验世界和学习的基础。但是RNN带来了挑战,它们很难训练而且训练缓慢,因此很难将它们扩展到当前LLM的规模。

大脑效率高的另一个原因是生物神经元大多保持安静——它们只是偶尔呈现活动高峰。相比之下,大多数神经网络中的人工神经元需要持续开启。研究人员正在研究尖状人工神经元(模仿真实神经元),但很难将训练标准神经网络的算法适应尖状神经元的网络。尽管如此,使用小数据集的研究表明,具有尖状神经元的RNN优于具有标准神经元的RNN,并且理论上的计算效率高出三个数量级。

然而,只要这种尖状网络仅在软件中模拟,它们就无法提供真正的效率提升(因为模拟它们的硬件仍然消耗功率)。这些计算元素需要内置到硬件中,在仿神经芯片上实现它们的优点。

节能的LLM

与此同时,研究人员正在尝试不同的方法,使现有的LLM更节能,更智能。2021年7月,DeepMind报告了一个名为RETRO的系统,该系统将LLM与外部数据库相结合。LLM使用在推理过程中从该数据库中检索到的相关文本来帮助它进行预测。DeepMind的研究人员表明,一个5亿参数的LLM加上一个包含2万亿个数据的数据库,比25倍参数的LLM的性能还要高。

同月,谷歌研究院的科学家报告了另一种大规模提高能源效率的方法。他们的GLaM模型有1.2万亿个参数。但这些参数并不代表一个巨大的神经网络;在内部,它们与其他层一起分布在64个较小的神经网络之间。LLM经过训练,在推理过程中,它仅使用了其中两个网络来完成任务;总体而言,LLM仅使用其超过万亿的总参数中的8%进行推理。根据谷歌的说法,GLaM使用的计算资源与训练GPT-3所需的计算资源相同,但由于训练软件和硬件的改进,只消耗了大约三分之一的功率。在推理过程中,GLaM使用了GPT-3所需的一半计算资源。当在相同数量的数据上进行训练时,它的性能优于GPT-3。

然而,为了进一步改进,即使是这些更节能的LLM似乎也注定要变得更大,消耗更多的数据和计算。研究人员将观察规模变大会出现哪些新行为。

定制隔热隔音门窗

欧大师隔热门窗

欧大师铝合金门窗加盟

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 931614094@qq.com 举报,一经查实,本站将立刻删除。