客户至上 专业立本 协同创新 追求卓越
视野 | 揭开ChatGPT的科技面纱
ChatGPT自2022年年底发布以来,已经累积了1亿用户。在互联网过去20年的发展中,没有哪个消费级互联网应用的用户增长速度有如此之快。但少有人知的是,这种新潮的智能工具的原理究竟是什么?
ChatGPT是OpenAI公司推出的一个能说会道的AI对话机器人。GPT的英文全称是Generative Pretrained Transformer(直译为生成预训练转换器),是一款通用的自然语言生成模型。这个模型经过互联网上巨大的语料库培训,能根据输入的文字内容,对应生成文字答案,也就是聊天问答。
ChatGPT之所以能够产生如此强烈的反响,很大程度上是因为它在语言能力上的显著提升。相较于其他AI机器人,它在以下几个方面有很大的提升。
其一,用户实际意图的理解。使用过类似聊天机器人或者人工智能客服的朋友,一定会经常遇到AI机器人兜圈子、答非所问的情况。而ChatGPT在这方面有了质的飞跃,不会像其他聊天AI那样“胡说八道”,即便嘴硬也会条理分明、逻辑清晰。
其二,强悍的上下文衔接能力。人们不仅能够问ChatGPT一个问题,而且可以不断细化地追问,让它不断地改进回答内容。它会根据谈话的语境和问题进行上下文理解,最终达到你想要的答案。
其三,ChatGPT比其他AI更能理解知识与逻辑。在你向它询问一个需要解决的问题时,它并不只是简单地给出答案,同时还会告诉你解决方案的步骤。这种兼容大量知识、同时富含逻辑的能力非常适合编程。因此,我们可以在网上看到非常多的关于ChatGPT如何解释、修改甚至生成完整代码的案例。
ChatGPT之所以表现得如此出色,得益于以下几个方面。
首先是海量的训练数据。ChatGPT如此智能的重要原因是,其庞大的训练数据量级。从GPT到GPT2再到GPT3,OpenAI将模型参数从1.17亿提升到15亿,然后爆炸式地提升到1750亿,以至于GPT3比以前同类型的语言模型参数量增加了十倍以上。训练的数据容量也从最初的5GB提升至45TB,而量变引起质变,经过大量的训练所得出的答案自然让人满意。
其次是广泛的通用性。ChatGPT可以回答各种类型的问题,上知天文下知地理,历史、艺术更是不在话下。具有这样强悍的知识体系以及通用性的主要原因是,OpenAI一直避免在早期架构和训练阶段针对某个特定的行业或者类别做调教,而是不断地提高模型的通用性,通过回答各种没有见过的问题,增加宽广度,提升泛化能力。通用性的提升需要更多的数据和参数进行训练。与巨大的数据和参数量相伴而来的,便是庞大的训练成本。有数据显示,GPT3训练一次的费用为460万美元,总成本更是高达惊人的1200万美元。
其三是“善解人意”的反馈模型。ChatGPT的最大优势就是对用户实际意图的理解,善解人意得益于反馈模型。为了实现对用户意图的理解,ChatGPT引入了“人类老师”(也就是标记人员),这些“人类老师”通过标记,训练出一个反馈模型。这个反馈模型类似于一个打分机制,模仿人类喜好给GPT的结果进行评价,然后通过这个反馈模型再去训练GPT。
其四是连续的对话能力。ChatGPT之所以会采用聊天这种交互方式,是由底层的模块组件所决定的。Transformer的语言模型有Encoder和Decoder两个组件,可以简单地理解为Transformer=Encoder+Decoder。
Encoder的运算逻辑关注的是全部信息,类似于“完形填空”,它会根据上下文的内容计算得出空白内容。而Decoder模块的运算逻辑是关注前侧信息,不关注后侧,这种结构天然地适合聊天问答这种场景。
既然Decoder组件只关注前半部分的内容,为什么在使用ChatGPT的时候,聊天对话则是连续的、顺畅的?它是怎么实现这样的功能呢?其实,语言模型产生答案的方法,实际上是建立在一个个token上的。
这里的token,可以理解为一个个单词。ChatGPT为了回答人们提出的问题,从第一个词开始,就反复将提问和对应的回答作为全部内容用作下次输入。之后,再生成下一个token,直至产生一个完整答案。这样,便完成了对话的连贯性。
虽然ChatGPT的出现被称为人工智能发展的一个里程碑事件,但也有人认为,这只不过是一个营销泡沫。因为用户在使用ChatGPT时已经发现有一些不如人意的地方。ChatGPT相较于以前的人工智能,的确有了巨大的进步,而这个巨大进步是在短短的5年内实现的。
笔者相信,在不久的将来,ChatGPT会以更快的速度迭代,因为除了研发公司的不断改进之外,全球庞大的用户聊天记录,也会转化为下一代模型的训练数据。
*本文首发于《法治日报·法治周末》2023年2月16日