徐谦超级记忆术,解密 - ChatGPT为何能“打败”众多大模型,除了千亿级参数,还有什么?

极简大道 极简大道 2023-04-21 超级记忆术 阅读: 175
摘要: 每经记者:文巧 每经编辑:高涵ChatGPT在互联网上的风暴已经上演了许久。近期,在谷歌Bard和微软必应(Bing)接连翻车的情况下,市场对ChatGPT的态度已经从“新鲜”开始向“理性”过渡。不过,国内外资本对ChatGPT的热捧仍然有持续之势。诚然,全世界都见证了ChatGPT的强大,但实际上,在自然语言处理(NLP)领域, ChatGPT并非第一个基于大型语言模型的产物。早在2018年,NLP领域演变出来的另一个产物BERT问世,一度被认为在自然语言理解类任务中发挥得非常出色。

每经记者:文巧 每经编辑:高涵

ChatGPT在互联网上的风暴已经上演了许久。近期,在谷歌Bard和微软必应(Bing)接连翻车的情况下,市场对ChatGPT的态度已经从“新鲜”开始向“理性”过渡。不过,国内外资本对ChatGPT的热捧仍然有持续之势。

诚然,全世界都见证了ChatGPT的强大,但实际上,在自然语言处理(NLP)领域, ChatGPT并非第一个基于大型语言模型的产物。早在2018年,NLP领域演变出来的另一个产物BERT问世,一度被认为在自然语言理解类任务中发挥得非常出色。

那么,是什么让ChatGPT一经问世就获得了前所未有的关注?它到底强大在哪里?凭什么在众多大型语言模型中脱颖而出?

关于上述问题,《每日经济新闻》记者采访了马萨诸塞大学(又称麻省大学)洛厄尔分校计算机科学教授Jie Wang。他认为,ChatGPT最主要的突破在于其背后架构GPT-3.5中使用的few-shots(小样本)和用户反馈的技术。而且,ChatGPT拥有其他语言模型所不具备的千亿级别参数规模,也允许它能够捕获更复杂的语言模式和关系。

人类已经经历了数次超级工具的诞生,例如,互联网和智能手机,其引发的科技革命极大地改变了人们的思维和生活方式。在Jie Wang看来,如果用ChatGPT来代表基于大型通用语言模型的应用,那么ChatGPT有潜力成为下一个改变世界的超级工具。


技术原理:一场“概率游戏”

ChatGPT之所以能够成为一个现象级的火爆应用,在于它能够自动生成类似于人类撰写的文本,这一点非常引人注目,也非常出乎意料。那么,为什么ChatGPT能够如此出色地生成有意义的文本呢?

我们先从ChatGPT所属的NLP领域说起。NLP,即自然语言处理,是人工智能的一个领域,专注于让计算机能够理解、解释和生成人类语言。

人类语言非常丰富和微妙,可以根据上下文、语气和其他因素以多种不同的方式表达,如何处理人类语言的复杂性和可变性也成为NLP领域的主要任务之一。NLP技术是ChatGPT能够出色地生成类似于人类撰写的文本的基础。

“最先进的NLP技术是文本到文本的转换,它基于一个超大型的多层编码器-解码器神经网络,这个神经网络能在超大规模的无监督数据集上对数十亿参数进行训练,“在谈及NLP时,Jie Wang向《每日经济新闻》记者介绍道。

在对NLP的主要任务有一个基本的理解之后,我们再来谈谈ChatGPT的技术原理。众所周知的是,ChatGPT是一种聊天机器人产品,它基于OpenAI的大型语言模型架构GPT-3.5。

2月15日,计算机科学家Stephen Wolfram在推特发表了一篇万字长文来解释ChatGPT的工作原理。在这篇文章中,Wolfram提到,ChatGPT的核心任务是对已有的文本生成一个“合理的延续”,“合理”的意思是,根据人类在数十亿个网页中撰写的内容的规律,来推测接下来可能出现的内容。

Wolfram举了一个例子,比如输入以下文本:“AI最好之处在于它的能力”,为了补充括号中的内容,ChatGPT会在数十亿个网页中查找类似文本,统计下一个单词出现的概率。最终,ChatGPT会生成一个可能的单词列表,并给出每个单词的概率排名。这就是它的“概率游戏”。

图片来源:文章截图


脱颖而出的背后:创新训练方式、千亿参数规模

实际上,ChatGPT并非第一个基于大型语言模型的产物。早在2018年,NLP领域演变出来的另一个基于大型语言模型的产物——BERT已经出世,并一度被认为在自然语言理解类任务中发挥得非常出色。那么,为什么相比之下,只有ChatGPT能够引起如此大的轰动呢?

首先在于GPT-3.5训练方式上的创新。

GPT-3.5的前身是GPT-3。据Jie Wang介绍,“GPT-3之前的大型语言模型,通常是通过在非常大的数据集上使用自我监督学习的方式,来计算多个任务的单词和句子之间的上下文关系,从而达到训练深度神经网络的目的。不过,这样一个经过训练的模型仍然需要进行微调(fine-tuning)来执行特定任务。”

值得注意的是,BERT所使用的方式就是微调。这种方式的局限性就在于,“微调既费时又费钱,”Jie Wang说道,“通常需要特定的标记数据集。”

当GPT-3出现后,问题得到了解决,这也是ChatGPT最具突破性的创举的基础。“GPT-3仅使用几个特定的任务示例来简化微调的过程,这些任务示例被称作‘few shots’(小样本),”Jie Wang解释道,“它产生的结果与最先进的微调过程获得的结果相同或相似,这项技术大大提高了生产率。GPT-3.5则进一步使用用户反馈来提高few shots生成结果的准确性。”

也就是说,“(ChatGPT)主要的突破是GPT-3.5中使用的‘few-shots’结合用户反馈的技术,”Jie Wang向《每日经济新闻》记者总结道。

(编者注:few shots learning即小样本学习,在机器学习领域中泛指从少量标注数据中学习的方法和场景。)

那么,如何来理解few shots呢?这里我们需要理解另一个概念——提示(prompting)。“提示是ChatGPT接受用户反馈的形式,”Jie Wang说道。

prompting实际上就是给模型一点小提示。举一个非常简单的例子,当每经记者使用ChatGPT辅助新闻写作时,需要ChatGPT对一段较长的新闻进行归纳总结或生成一个标题。这时,可以给ChatGPT一点小提示——例如,Mary是“《纽约时报》”一位“非常资深”的编辑,她需要几个“吸睛的”标题。

通过引号中三个关键词的提示,相比于简单地要求“生成一个标题”,这些小提示会让ChatGPT生成的内容得到明显提升。

其次,ChatGPT的强大还在于其超大的参数规模。ChatGPT基于8000亿个单词的语料库(或45TB的文本数据),包含了1750亿个参数。8000亿是ChatGPT的训练数据,1750亿是它从这些训练数据中所学习、沉淀下来的内容。

“之前最大的模型也只是百亿参数,不是千亿级别的,”Jie Wang说道。公开资料显示,这种更大的参数规模允许ChatGPT能够捕获更复杂的语言模式和关系,从而提高复杂自然语言处理任务的准确性。

据美国《时代周刊》上月中旬的报道,为了训练ChatGPT,OpenAI雇佣了时薪不到2美元的肯尼亚外包劳工,他们所负责的工作就是对庞大的数据库手动进行数据标注。报道中提到,OpenAI在2021年底与位于旧金山的外包公司Sama签署了三份总价值约20万美元的合同,为其数据库中的有害内容进行标记。

图片来源:每日经济新闻 刘雪梅 摄(资料图)


商业落地:离通用AI还有多远?

ChatGPT已经展现了在NLP领域的强大能力,那么,它是否可以从NLP领域走向其他AI领域呢?

Jie Wang认为答案是肯定的。“在T5、GPT-3和GPT-3.5中发展起来的主要技术,即自我监督学习、few-shot微调,以及结合用户反馈的方式,当然可以在其他AI领域进一步修改和应用,”他向《每日经济新闻》记者说道。

看看BERT就知道了,虽然“出身”于NLP领域,但已经广泛应用于其他AI领域。据Jie Wang介绍,BERT这类语言模型,基于递归神经网络(RNN)、双向长短期记忆(Bi-LSTM)等来计算捕获潜在语义和句法信息的单词和句子,这些神经网络构建技术已广泛应用于图像处理等其他领域。

科技研究和咨询公司Gartner在近期发布的一篇报告中提及了ChatGPT的集中应用方向,一是开放API访问权限。据悉,微软就计划为即将推出的Azure OpenAI ChatGPT提供API;二是在销售、营销、个性化教育以及个性化医疗保健领域得以应用。

不过,目前来看,ChatGPT广泛的商业落地仍然还有一些难题。“我能看到的其中一个障碍是,ChatGPT提供的结果是不可信任的,”Jie Wang说道。

OpenAI的首席执行官Sam Altman此前也曾在推特上表示,ChatGPT还有很大的局限性,它在某些方面非常出色以至于给人一种误导的印象。“现在依赖它来做任何事情都是错误的,我们在稳健性和准确性上还有很多工作要做,”他这样写道。

在许多人的幻想中,未来的某一天,会出现具备与人类同等智慧、或超越人类的AI,能表现正常人类所具有的所有智能行为,它能思考、能判断,有思想、有伦理——这就是通用AI。ChatGPT能够引起如此轰动的原因也在于,有人认为,它的出现似乎让世界看到了通用AI的曙光。

人类已经经历了数次超级工具的诞生,互联网和智能手机的出现引发了科技革命,并且极大地改变了人们的思维和生活方式。在Jie Wang看来,如果用ChatGPT来代表基于大型通用语言模型的应用,那么ChatGPT有潜力成为下一个改变世界的超级工具。“我认为它有可能改变人们开展业务的方式,”他说道。

不过,现实情况是,ChatGPT离通用AI的终点,仍然还有一段很长的路要走。

每日经济新闻

其他相关

怎样让记忆力提高,鱼的记忆力只有七秒,草根秀:八岁神童过目不忘 超强记忆堪称最强大脑

作者: 极简大道 时间:2024-01-07 阅读: 141
齐鲁网讯 草根秀又跟大家见面啦,入正题之前,小编想问大家一个问题,你们小时候幻想过自己有超能力吗?小编曾经无数次的幻想过自己跟别人不一样,可以瞬间转移、过目不忘、穿越时空……停停停!言归正传,今天要说的这几个还真的跟超能力有关系,更重要的是,他们都是来自山东卫视《中国少年派》的小朋友。八岁萌娃展示过目不忘本领...
过目不忘记忆力训练,怎样让记忆力提高,期末阶段适用于小学高年级及中学的超强记忆方法:循环记忆法!

过目不忘记忆力训练,怎样让记忆力提高,期末阶段适用于小学高年级及中学的超强记忆方法:循环记忆法!

作者: 极简大道 时间:2024-01-07 阅读: 160
当我们接触某个事物时,该事物在我们大脑里基本能维持不到1秒的时间;第二次接触该事物,记忆能维持在1到2秒;第三次能维持1分钟左右;第四次能维持半个小时;第五次能维持一两个小时;第六次能维持七八个小时;第七次,能维持高达十几个小时。而在隔天、隔周进行重复记忆的话,记忆时间还能持续更久。要想形成长久记忆,必须多次接触需要记住的信息,这种“循环记忆法”非常适用于期末复习。...
记忆大师课,一分钟记忆术,记忆专家周日再次免费授课,预约请从速

记忆大师课,一分钟记忆术,记忆专家周日再次免费授课,预约请从速

作者: 极简大道 时间:2023-11-22 阅读: 134
楚天都市报讯(记者黄珍实习生刘雪昊)超强记忆法火了!上周日,众多妈妈带着孩子来楚天都市报免费试听,不少人点赞:超强记忆法真棒!不熬夜苦读,不死记硬背,孩子短训10分钟就牢记了20个英语单词。应众多家长请求,本周日(20日)下午2点,楚天超强记忆冬令营再推免费试听课,快和孩子一起免费体验吧!楚天超强记忆冬令营将在寒假闪亮登场,5天4夜让孩子记忆水平迅速提高2至5倍,终身受益。营地设在湖北省奥体中心,由专业教学团队封闭管理,前80名免费赠送36课时强化巩固。主讲老师:中国记忆实战专家解少萍,成功指导多名学生获得世界脑力锦标赛亚军,指导学生单科成绩最高提高30分。上周日的试听课上,古田四年级女生黄心怡、徐东八年级女生沈美成等通过记忆法指导,在现场短训10分钟后,牢记了50个随机数字或20个英语四级单词,真正体验到了轻松高效的学习方法。...

最强大脑记忆力课程,记忆大师课,学习力差的人正被社会所淘汰,《无限可能》教你练就快速学习力

作者: 极简大道 时间:2023-11-22 阅读: 130
去年曾留意到这样一则新闻:华为宣布为了优化员工结构,花10亿补贴辞退的7000名老员工。其中大多数人都为34岁以上合同到期的员工。看到这则新闻的80后估计都要慌了。大家在心慌的同时不如好好想一下,到底是什么样的人会在公司失去竞争力,会被这个社会所淘汰?我想一定是那些安于现状,个人发展速度明显跟不上企业以及社会发展速度的人优先被淘汰。大家都知道华为是一个技术创新型的企业,只有掌握核心技术,能够不断进行技术创新的人,才是职场中的“常青树”,才会不用担心被职场淘汰的可能。不学习或者学习力差的人,总是慢人一步,最后会被远远甩在身后。...

年度爆文