中国人民大学 | 大型语言模型综述

AI 1年前 (2023) admin

586 0 0

原文标题：A Survey of Large Language Models
原文作者：Wayne Xin Zhao, Kun Zhou*, Junyi Li*, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, Beichen Zhang, Junjie Zhang, Zican Dong, Yifan Du, Chen Yang, Yushuo Chen, Zhipeng Chen, Jinhao Jiang, Ruiyang Ren, Yifan Li, Xinyu Tang, Zikang Liu, Peiyu Liu, Jian-Yun Nie and Ji-Rong Wen
原文链接：https://arxiv.org/pdf/2303.18223v10.pdf
笔记作者：朱奕杰@无糖实习
指导：马永霄@无糖
编辑：黄诚@安全学术圈

1. 研究介绍

通常，大型语言模型（LLM）是指包含数千亿（或更多）参数的Transformer语言模型，这些参数是在大量无标签文本数据上训练的。LLM表现出很强的理解自然语言和解决复杂任务的能力。

2. GPT-1

2017年，Google团队首次提出基于自注意力机制 (Self-attention) 的Transformer模型，并将其应用于自然语言处理。OpenAI应用了这项技术，于2018年发布了最早的一代大型模型GPT-1。

GPT-1采用语言建模（预训练+微调）的训练方法。

语言建模 (Language modeling) 就是指预测句子中下一个出现的单词的任务。更精确的说法是，给定已经出现的所有单词，求下一个单词出现的概率分布。

特点：建立了GPT系列的核心架构；确定了使用上文预测下一单词的基本原则。

3. GPT-2

2019年，GPT-2发布，训练方法的核心仍然是语言建模，但是模型的参数数量提高到15亿个(1.5B)。

GPT-2借鉴了之前微软的一个叫做MT-DNN的预训练语言模型，采用了多任务语言模型，这样能进一步地提升模型的泛化能力。

4. GPT-3

2020年，GPT-3诞生，模型的参数数量达到了创纪录的1750亿个(175B)。技术路线上则去掉了GPT-1的微调步骤，直接输入自然语言当作指示，给GPT训练读过文字和句子后就能回答问题的能力，同时包含了更为广泛的主题。GPT-3在许多任务上的表现远远超过了之前的语言模型，是当时最大的模型之一。

特点：提示补全，上下文学习，Few-shot Learning

参数数量提高到 1750 亿
强大的零样本和少样本学习能力
生成的文本质量非常高，实验表明人们很难区分其生成的文本是否由人类编写

GPT-3的技术创新主要体现在以下几个方面：

模型规模：GPT-3使用了非常庞大的模型，包含1750亿个参数，比之前最大的模型GPT-2的参数量增加了10倍以上。这个庞大的模型使得GPT-3能够学习到更多的语言知识和规律，从而具备更强的语言生成和理解能力。
零样本学习：GPT-3采用了零样本学习技术，也就是说它能够在没有任何人工标注数据的情况下进行新任务的学习和执行。这是因为GPT-3能够从大规模的预训练模型中提取出通用的语言知识，从而可以快速适应新任务的要求。
多样性生成：GPT-3在生成文本时，采用了多样性生成技术，可以生成多种不同语言风格的文本，从而提高了文本的生成质量和多样性。
多语言支持：GPT-3支持多种不同的语言，包括英语、法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语、俄语、阿拉伯语和中文等，这使得GPT-3能够应用于全球范围内的自然语言处理任务。
低资源学习：GPT-3支持在低资源情况下进行学习和执行，这使得它可以被广泛应用于一些资源有限的场景，例如移动设备等。

5. GPT-3.5

GPT-3.5是GPT-3的升级版本，由OpenAI于2021年发布。与GPT-3相比，GPT-3.5在模型大小、语言理解和生成能力等方面都得到了提升。此外，GPT-3.5使用了更加先进的预训练方法和语言生成技术，进一步提升了其在自然语言处理任务中的表现。

GPT-3.5的主要技术创新包括以下几个方面：

更大的模型规模：这意味着GPT-3.5能够更好地学习到自然语言的规律和语义，从而提高其在各种语言处理任务中的性能。
多层次的预训练方法：GPT-3.5采用了一种名为Electra的预训练方法，该方法通过替换输入文本的一部分，让模型尝试预测被替换的文本，从而提高模型的预测准确率和泛化能力。与传统的预训练方法相比，Electra能够更好地利用大规模数据集中的语言模式和规律，提高模型的泛化能力和效果。
更加精细的模型微调：GPT-3.5采用了一种名为PET（Prompt-based Extraction of Templates）的模型微调方法，该方法可以根据特定的任务和领域，针对性地设计输入模板，从而提高模型在各种任务中的表现。PET方法不仅能够提高模型的性能，还可以缩短模型的训练时间和数据量，是一种非常有效的模型优化方法。

6. InstructGPT/ChatGPT

指示学习（Instruct Learning）和提示学习（Prompt Learning）

指示学习是谷歌Deepmind的Quoc V.Le团队在2021年的一篇名为Finetuned Language Models Are Zero-Shot Learners文章中提出的思想。指示学习和提示学习的目的都是去挖掘语言模型本身具备的知识。不同的是提示学习是激发语言模型的补全能力，例如根据上半句生成下半句，或是完形填空等。指示学习是激发语言模型的理解能力，它通过给出更明显的指令，让模型去做出正确的行动。

InstructGPT/ChatGPT都是采用了GPT-3的网络结构，通过指示学习构建训练样本来训练一个反应预测内容效果的奖励模型，最后通过这个奖励模型的打分来指导强化学习模型的训练。

7. 人类反馈强化学习（Reinforcement Learning from Human Feedback，RLHF）

人类反馈强化学习（Reinforcement Learning from Human Feedback，RLHF）是一种机器学习方法，旨在使智能系统从环境中学习，以最大化某种特定目标。该方法通过引入“奖励”和“惩罚”信号，让系统自行探索环境并学习最佳行为策略。

第一步：预训练语言模型+有标签数据微调（可选）

第二步：训练奖励模型

第三步：通过强化学习微调语言模型

训练流程：

根据采集的SFT数据集对GPT-3进行有监督的微调（Supervised FineTune，SFT）；
收集人工标注的对比数据，训练奖励模型（Reword Model，RM）；
使用奖励模型作为强化学习的优化目标，利用PPO算法微调SFT模型。

8. OpenAI Codex

OpenAI Codex 是 OpenAI 开发的人工智能模型。它解析自然语言并生成代码作为响应。它为 GitHub Copilot 提供支持，这是一种用于特定 IDE（如 Visual Studio Code 和 Neovim）的编程自动完成工具。Codex 是 GPT-3 模型的后代，经过微调以用于编程应用程序。

训练方法：使用代码+文本训练

特点：采用大模型思维链chain-of-thought (CoT)

9. GPT-4

2023年，GPT-4发布。GPT-4是一个大型多模态模型，即可以支持文本以外的内容，例如可同时接收图像和文本输入，理解图像内容，生成文本输出。尽管GPT-4在许多现实世界的场景中表现仍不如人类，但它在各种专业和学术基准上已经接近人类水平的表现。例如，它通过了模拟的律师考试，分数在应试者的前10%左右；相比之下，GPT-3.5的分数则在后10%左右。在机器对话中，GPT-3.5和GPT-4之间的区别并不大。但当任务的复杂性达到一定阈值时，区别就体现出来了，GPT-4比GPT-3.5更可靠，更有创造性，能够处理更细微的指令。

基本性能：

考试得分

为了了解这两种模型之间的差异，OpenAI在各种基准上进行了测试，包括参加考试。OpenAI并没有为这些考试做专门的训练，考试中的一些问题是模型在训练中看到的。可以发现，GPT-4的表现胜过GPT-3.5，而且在某些学科上能获得相当高的分数，例如在USABO（美国生物奥林匹克竞赛），GPT-4的表现可以超过大部分人类选手。但是，我们也发现，在竞技性编程竞赛网站，或者说算法竞赛网站Codeforces中，GPT-4表现得较差，其评级 (Rating) 在倒数5%，低于 95% 以上的人类选手表现。这说明GPT-4解决那些需要动脑筋的算法竞赛问题的能力还不够。

OpenAI还在为机器学习模型设计的传统基准上评估了GPT-4。GPT-4的性能大大超过了现有的大型语言模型，与大多数最先进的（SOTA）模型并驾齐驱。

跨语言能力

为了初步了解处理其他语言的能力，OpenAI将MMLU基准（一套涵盖57个主题的14000个多选题）翻译成不同的语言。在测试的26种语言中的24种语言中，GPT-4的表现优于GPT-3.5和其他LLM（Chinchilla，PaLM）的表现。

技术架构：

与前几代GPT模型一样，GPT-4也是基于Transformer架构构建的。正如前面所说的，Transformer是一种基于自注意力机制（Self-Attention Mechanism）的深度学习网络，可以更好地处理长文本序列和建立语义关系。GPT-4将会是目前最大规模的Transformer模型，拥有超过1万亿个参数。相比之下，GPT-3的参数数量为1750亿个。

在GPT-4中，OpenAI可能会使用更先进的预训练技术和模型优化方法，以进一步提高模型的性能和效率。例如，它可能会探索更先进的模型结构和超参数调整方法，以使模型更加精细和高效。此外，GPT-4也可能会集成更多的人机交互功能，使其能够更好地理解和响应用户的需求和意图，从而提供更优质的服务和体验。

10. 总结

最后我们来对GPT的发展历程进行总结与回顾。

最早发布了GPT-1，采用的是预训练+微调的训练方法；不久后发布了GPT-2，方法的核心变化不大，但是参数数量提高到15亿，并且采用了多任务方式，进一步提升模型的泛化能力；随后发布了GPT-3，GPT-3在许多任务上的表现远远超过了之前的语言模型，其参数数量进一步提高到1750亿，是当时最大的模型之一。在GPT-3的基础上，发布了InstructGPT和ChatGPT，采用了人类反馈强化学习，与人类的交互能力进一步变强。到如今，发布了GPT-4，相比于之前的GPT模型，GPT-4更可靠，更具创造性，能够处理更细微的指令。到目前为止，GPT-4是最大规模的Transformer模型。

论文团队信息

论文团队：Gaoling School of Artificial Intelligence and School of Information, Renmin University of China, Beijing, China; Jian Yun Nie is with DIRO, Universit´e de Montr´eal, Canada.

安全学术圈招募队友-ing
有兴趣加入学术圈的请联系 secdr#qq.com

原文始发于微信公众号（安全学术圈）：中国人民大学 | 大型语言模型综述

版权声明：admin 发表于 2023年6月29日下午11:47。
转载请注明：中国人民大学 | 大型语言模型综述 | CTF导航

文本对抗综述（一）

admin

432

[论文工具] LaTeX常见错误及解决方法汇总笔记（eps2pdf失败 | 特殊符号 | 参考文献未显示或越界）

admin

128

Agentic LLM Vulnerability Scanner

admin

基于DGCNN和概率图的轻量级信息抽取模型

admin

360

SecGPT-Mini 一个在cpu上可体验的网络安全大模型

admin

白泽团队：探索用LLM提高漏洞库质量

admin

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

中国人民大学 | 大型语言模型综述

1. 研究介绍

2. GPT-1

3. GPT-2

4. GPT-3

5. GPT-3.5

6. InstructGPT/ChatGPT

7. 人类反馈强化学习（Reinforcement Learning from Human Feedback，RLHF）

8. OpenAI Codex

9. GPT-4

10. 总结

论文团队信息

G.O.S.S.I.P 阅读推荐 2023-06-29

机器学习的自动调参

相关文章

暂无评论

相关文章

中国人民大学 | 大型语言模型综述

1. 研究介绍

2. GPT-1

3. GPT-2

4. GPT-3

5. GPT-3.5

6. InstructGPT/ChatGPT

7. 人类反馈强化学习（Reinforcement Learning from Human Feedback，RLHF）

8. OpenAI Codex

9. GPT-4

10. 总结

论文团队信息

G.O.S.S.I.P 阅读推荐 2023-06-29

机器学习的自动调参

相关文章

暂无评论

广告位

相关文章