Toolformer：Meta AI 论文揭示大语言模型可利用工具提升能力

今天我们要讲的是GPT 4，但其实我一开始准备这个视频的时候，我是要讲这篇论文的，这是Meta AI在2月初发布的一篇论文。这个大的语言模型可以使用工具。比如它可以调用各种API，比如日历、计算器、浏览器等，可以极大的提升这个大语言模型的各种能力。。因为我们知道，无论模型有多大，无论模型多么牛逼，它都无法连接到互联网。所以这意味着一旦训练完成，这个模型就不可能知道最近发生了什么。而且这个模型不知道时间，它无法完成很多与这个时间或者这个新信息相关的任务，所以即使再强，它的局限性也是非常大的。但一旦这个大的语言模型能够连接到互联网并且能够使用工具，可能性就会无限扩展。所以最近推出了这个插件，它实际上是一个工具或者类似技术的应用。它可以连接成百上千个API，这样这个大型语言模型只是一个交互工具，实际上可以完成各种任务。它也可以是现有的工具，这不仅会提高准确性。例如，如果你计算一道数学题，使用计算器肯定可以正确计算出来。您不需要依赖大型语言模型进行推理。有时可能推理是错误的。同时，它可以不断更新其知识库，而且由于它现在已连接到互联网，因此确实开辟了无限的可能性。换句话说，这实际上是一篇值得精读的论文。但后来Meta AI在2月底推出了LLAMA论文，他们的模型参数不小心泄露了，所以可玩性很强，论文难度也不大。所以我想先玩一下LLAMA模型，然后再先讲一下LLAMA论文。于是，我们一不小心迎来了近年来AI发展史上最疯狂的一周。

3月8日，微软发布了它，这意味着聊天时不仅可以使用文字，现在你可以同时使用图片和文字，还可以根据你的指令生成图片。

然后在3月9日，微软德国的CTO宣布，下周我们将会有GPT 4。这个GPT 4不再是单一语言模型，而是多模态模型，而且它还可以处理视频。

然后演出于 3 月 9 日再次上映。大黄大子传播模式一两年后，这种肝就几乎消失了。突然他们训练了一个10亿参数的模型，直接把Giga Gan带回了舞台。生成效果和速度并不逊色于Dolly两款模型。

然后3月10日星期五似乎就没有消息了。也许我错过了什么。然后我度过了一个看似正常的周末，但接下来却是不正常的一周，首当其冲。 3 月 13 日星期一，斯坦福大学使用这个 LLAMA 提出了这个 7 模型，使用的是这个 self 方法。他们训练了一个自己的模型，叫做，这个模型实际上和这个模型相当。后者可能是175 B型号，所以效果非常惊艳。然后我还在看这篇论文，想着等两天有空了，或者周末好好看看这个模型是怎么做的。

然后在 3 月 14 日星期二，GPT 4 首当其冲。真的被释放了。这确实是一个多模式模型。虽然它在输入端只能接受图像，无法生成图像，但确实如期而至。已发布。

同一天，Cloud也公布了他们的palm模型的API使用方式，并且还表示将把palm模型融入到doc和sheet的使用中。

然后在3月14日的同一天，他们推出了自己的大型语言模型云，这是上次谈到的。可能是目前最大的竞争对手。他们的主要关注点是这种安全性。

随后3月14日同一天，另一家大型语言模型公司adapt.AI宣布刚刚完成3.5亿美元B轮融资。同时他们表示，他们的模型还可以使用软件和工具，所以3月14日真是漫长的一天。

3 月 15 日星期三， Tu 的公司推出了第五代车型，结果非常出色。之前大家都抱怨这个AI不能用人手画图。有时它有三个手指，有时它有六个手指。然后马德说我会教你如何做人。它可以很好地处理各种手部细节，甚至是剪刀手。也不是问题。

然后是 3 月 16 日星期四，这是一周的高潮。微软宣布了GPT加持，号称是地球上最强大的生产力提升工具。我们可以帮助您写电子邮件、制作会议摘要、撰写文档、制作预算表、制作 PPT 以及回答各种问题。总之，所有与办公相关的任务，也就是相关的任务，基本上都可以完成，至少达到你要求他们做或者他们可以帮你做的程度，所以很多公众号都说微软彻底改变了生活10 亿工人。。而且，那两天，各种媒体都挤满了屏幕，基本上都是在播放这个一分钟的短视频。然后周五好像就没有新消息了。不知道周五没有人发布新产品是否正常，但无论如何，这周的周五就算了吧。所有的风头都将被GPT 4和GPT 4盖过。

事实上，肯定还有很多其他的大新闻。例如，2.0已经发布。从这个版本号我们就可以看出这是一个比较大的更新。各方面的优化，尤其是编译器的优化，都做得非常好。好的。 3月15日星期三就宣布了，但估计知道的人不多，都淹没在GPT 4的热潮中了。

既然GPT 4如此受大家欢迎和期待，那么今天我们就先来说说GPT 4。 Open i其实发布了一份关于GPT 4的技术报告，和之前关于大语言模型的论文是一样的。它有 99 页长。但事实上，这次非常不寻常的是，这份技术报告中并没有这样的报道。任何技术细节主要是为了展示结果，展示你的模型有多好，展示有什么局限性和缺点，而是关于模型本身和训练本身。而他们是如何一步步改进模型的，又是如何让模型变得更加安全的呢？连一个字都没有提，所以很快就引起了大家的不满。比如这个框架的创始人说GPT 4论文在这里。这本书有99页，读起来太费力了。让我为您节省一些时间。其实GPT 4里有这么一句话，我们用的在黑客方面是非常强大的。

随后马斯克也来凑热闹。毕竟之前是马斯克等人创立的。随后在2月，马斯克表示，创建Open i就是为了对抗这种霸权。其目的只是为了做这个公开的、非公司的。但现在它已经变成了 Close AI。它已经成为一家闭源、以利润为导向的公司，并由另一个巨头微软控制。这根本不是他原本的计划，但这是在二月。什么时候。然后到了3月份，3月14日GPT 4出来后，3月15日马斯克又回来调侃了，他说自己很困惑。当时作为非公司人士，他说捐了一个亿。结果因为发展良好，成为了一家以利润为导向的公司，而且还是一家估值300亿美元的大公司。如果这是合法的，为什么其他人不这样做呢？这嘲讽的力度也是十足。

那么最后一个AI的创始人Emad，就是去年AIGC整波浪潮的推手。他趁势出来招人。因为毕竟之前所说的开放式AI，现在已经变成了封闭式AI。那他呢？他要接过这个接力棒，继续做下去，所以他在这里发英雄帖，特别是对那些说，如果你真想真正做的话，可以申请我公司的工资福利，这些都是匹配，但你可以做任何开放的人工智能项目。你想让我做什么？你可以做的事情没有任何限制，这听起来很不错。

GPT4

说了这么多，我们还是回到正题吧。说到GPT 4，今天主要关注open i博客。这个 GPT 4 网页基本上是 99 页技术报告的缩写。精简版，所有需要的内容都已经有了。

作者表示，我们创建的这个GPT 4，是open a在制作大型模型过程中最新的里程碑式的作品。 GPT 4 是一种多模态模型，接受文本或图像输入，最终输出为纯文本。然后作者强调，目前还无法将 GPT 4 与现实世界中的其他版本进行比较。但在许多专业或学术数据集或任务上，GPT 4 有时可以达到人类水平甚至超越人类水平。

事实上，GPT 4刚发布的时候，虽然很多人欢呼雀跃，但也有很多人感到非常失望。当然，失望并不是因为模型不够强大，而是因为等待时间比较长，期望太高。。因为GPT 4模型的传闻从去年就开始流传，而且他们的论文中也确实表示GPT 4模型确实是在去年8月份训练的，并且从那时起就一直在做各种任务。测试以保证其安全性和可控性，所以去年有很多传言说GPT 3有1750亿个参数，而GPT 4已经达到了1万亿个参数的规模，是一个像吴霸这样巨大的存在。那么再加上去年AIGC的浪潮，特别是文盛影音的浪潮，你觉得GPT 4也能做这个图像生成吗？尤其是就在GPT 4公布之前，微软又发表了两篇论文，一篇叫，另一篇叫，都是大型的多模态模型，既可以做文本生成，又可以做图像生成，即输入和输出都可以包括文字和图像，所以大家认为这个GPT 4理所当然应该能够生成这个图像，更何况它还有这个音频模型。而且，德国CTO还表示，GPT 4可以通过这种方式处理视频。所以大家更加好奇了。你认为GPT 4真的可以捕获图像、文本、语音和视频吗？一切都可以做，一切都可以生成，所以期望非常高。

当结果最终公布时，只能接受图像和文本的输入，输出也只能是文本。而且，现在公布的API是付费功能，尚不支持图片上传。这仍然是一个内部测试版功能。所以最终你会是一个增强版。总之，无论你是震惊还是失望，GPT 4 都应该非常强大。不用说，正常的聊天、参加各种考试也是轻而易举的事。再过一段时间，我们基本上就可以在各种考试中碾压人类选手了，写代码也不成问题了。这是我的老本领了。它已经推出很久了。 open i 的 CO Greg 在宣布 GPT 4 的时候，还做了一个非常有趣的 demo。他在餐巾纸上写下了他可能想要的这个网站的设计。。他将这个草图上传到GPT 4并要求GPT 4生成它，这就是如何制作这个网站的源代码。那么GPT 4不仅直接生成了这段代码，而且这段代码也可以运行。

然后居然生成了一个网站，看起来就像他在餐巾纸上画的草图一样，所以编码能力极其强大，而且最近很多人也用它来测试自己是否可以通过面试，微软和大公司的面试。在面试过程中，我发现GPT 4一般都能通过，至少对于入门级程序员来说是这样。 GPT 4 还可以帮助您制作游戏、进行 3D 城市建模和进行投资。有人在上分享说，他给了 GPT 4100 美元，然后要求 GPT 4 给他这个投资建议。最终GPT 4帮他赚了1000多块钱，各方面都强得离谱。

显示结果

那么我们来看看如何将这个结果一一展示出来。一开始，作者重复了他在摘要中所说的话，说GPT 4基本上可以实现这种类似人类的性能。然后他举了一个非常有说服力的例子，那就是GPT 4现在可以通过律师资格考试，而且不仅通过了，而且在所有参加考试的人中排名前10%，所以是Top 。相比之下，open我说过，就在GPT 4之前，GPT 3.5的成绩非常差。他在律师考试中只能排名倒数10%，这意味着他无法通过律师考试。为了卖掉这一代车型，他们也非常严厉地diss了上一代车型。这张律师资格证书其实非常难拿，而且非常有价值。律师这个职业也是非常丰富和受人尊敬的，所以这就是为什么open i把这个结果放在论文的摘要和第一段中，因为它可以非常引人注目。

我现在播放的也是以前热搜过的视频。这是一个儿子和他的妈妈在检查律师资格考试的成绩，然后他们看到了考试后两个人喜极而泣的真实表现，可见这次考试在大学中很受欢迎。在大多数普通人心中的地位。结果现在GPT 4轻松通过了，估计以后会有更多人哭了。

我们回来看open i说他们花了6个月的时间不断对齐GPT 4。其实align的意义不仅仅是让这个模型去掉人类的，也是希望这个模型能够生成的输出是符合人的三观，安全有用。这其实说明这个确实是去年8月份开发的。我已经在3月份完成了GPT 4的训练，接下来的半年我会为此进行测试和准备，所以我非常有诚意。

然后Open i表示，在对齐的过程中，他们不仅使用了自己设计的对抗性惩罚，还故意找模型的毛病，故意给出特别难的例子来看看它的表现如何。另外，他们发布之后，因为和用户的互动很多，很多人在网上分享了他们的用户体验。有的人非常惊讶，有的人则觉得特别糟糕。他们还列出了这些特别糟糕的例子。，所有这些经验和教训都被吸取了，然后用来提高GPT 4的性能。所以最后他们说现在的GPT 4是他们迄今为止最好的模型。虽然还远未达到完美，但在尊重事实、可控性、安全性等方面已经取得了长足进步。

然后open i的下一段接着说，在过去的两年里，他们重建了他们的整个深度学习，这是和微软云一起重建的，他们是专门为了他们的GPT训练而重建的。设计了一个超级计算集群。一年前，open i 使用这个系统来训练他们的 GPT 3.5，这是它所基于的模型。他们发现了更多错误并修复了它们。所以在GPT 4的训练过程中，他们发现自己的GPT 4训练比以往更加稳定。这种稳定不仅是我们普通意义上的稳定，也是训练中的稳定。硬件设施没有什么问题。一节训练直接结束，亏损不跑掉。还有另一个更重要或更强大的功能。也就是说，他们可以准确地预测这个模型训练的结果。这个我们一会儿会详细阐述，但是简单总结一下，对于这么大的模型，如果你只知道每次运行后的结果，你就会知道这组参数好不好，你就会知道这个想法是否可行管不管用，那么这费用就太大了。一般我们还是要在一个较小的模型或者较小的数据集上做这种消融实验，看看哪个有效，然后我们在这个大模型上做实验。但不幸的是，在这种语言模型中，由于模型扩展太多，常常会导致这样的想法：你在小规模上尝试过并且有效，但在大型模型上却不起作用。而且，你无法在小模型中观察到大模型特有的涌现能力，所以这是一个令人头疼的问题。您无法直接进行大型实验。即使你有机器和钱，你仍然需要等待。这种规模的模型，一次就要一两个月，所以需要很长的时间。如果你在小模型上训练，你观察到的结果不能直接用在大模型上，那就白费力气了。这时候，open i说我们现在的系统可以实现准确的预测。通过小规模计算成本下训练的模型，我们可以准确预测计算成本是否扩大。，这个模型最终的表现会如何呢？所以这是非常强大的，这意味着他们的模型经过了无数次的训练，其炼金技术极其纯熟。

为什么我这次被黑得这么惨，还被称为“封闭AI”？

既然说到训练稳定性，我们就跳到后面看一下整个训练过程。对了，我们也会明白为什么这次被黑客攻击得那么厉害，还被称为close AI。在 open i 方面，和之前的 GPT 模型一样，GPT 4 也是通过这种方式训练来预测文章中的下一个单词。就是loss，训练数据用的是公共数据，比如网络数据，还有他们买回来的数据。这些数据非常庞大，包含的内容也非常多。比如，这道数学题有正确解和不正确解、弱推理和强推理、自相矛盾或一致的说法，以及所代表的意识形态很多，思想多种多样。当然，像这样的纯文本数据还有更多。其实他在论文里写了这一段，所以你读完这一段你发现他什么也没写，所以真的就像那个总结一样，就是我们用，我们用数据，然后打开i。接下来，因为它已经在如此多的数据集上进行了训练，有时它是在错误的答案上进行训练的，所以这个预训练的模型，这就是基础模型。有时它的答案与人们想要的答案相去甚远。这个时候为了对齐，就像我们刚才说的，为了尽可能的符合人类的意图，同时也更加安全可控，他们使用了之前RLHF的方法，对模型进行了微调。。事实上，与人体RLHF相关的技术，穆神之前已经详细讨论过。

那么接下来的一段其实就很有趣了。打开我终于给出了一个富有洞察力的结论。他表示，这个模型的能力似乎是从预训练过程中获得的。 RLHF后续的微调并不能提高那些考试的分数，而且别说提高，如果参数调整不当，甚至会降低那些考试的分数。所以这个模型的能力，所谓的涌现能力，实际上是靠堆积数据和计算能力，然后用简单的建模损失来创建的。那么大家肯定会问这个RLHF有什么作用呢？作者说这个RLHF是用来控制模型的，让模型能够更好的理解我们的意图，更好的理解我们在要求什么，我们想让它做什么，并且按照我们喜欢的方式和方式去做我们可以接受。来回答这个问题。这就是为什么 GPT 4 如此智能，每个人都如此乐意与它聊天。这个RLHF也贡献很大。这里我们还黑了这个直接预训练的基础模型，说它有这个，当他甚至需要这个的时候，他意识到他现在需要回答这个问题，否则他不知道他要做什么。

，这种可预测的可扩展性究竟意味着什么？

那我们就来说说刚才提到的那些吧。这种可预测的可扩展性意味着什么？事实上，这个GPT 4项目的关键问题之一是如何构建深度学习的Infra，然后精确地扩展它。主要原因和我刚才说的一样。对这么大的模型进行大规模的参数调优实际上是不可能的。首先，你需要大量的计算能力，这都是钱。就算你有那么多的计算能力，你也等不起这个训练时间。即使给你更多的机器，这种训练的稳定性也会成为问题。并行训练这么多机器很容易赔钱。 Fei，这里据说他们开发了一套这个整体的基础设施，以及这个优化方法，可以在多个尺度的实验中实现这种稳定的、可预测的行为。

为了验证这一点，open i 在这里表示，他们可以在 GPT 4 的最终训练刚刚开始时，使用自己的内部代码库来准确预测 GPT 4 的损失。这个结果是从另一个损失推断出来的。该损失是使用相同方法训练的模型，但使用的计算资源比它小 10,000 倍。具体来说，我们看一下这张图。图中的绿点，也就是最后一个绿点，是GPT 4的最终损失结果。这些黑点是他们之前训练过的模型的最终结果。这种损失的程度。

该纵坐标使用的单位是每字位数。你可以简单的理解为损失的大小。横坐标指的是使用的计算能力的量。这里他们实际上结合了数据集的大小和模型的大小。大大小小都混在一起，就是说我总体上需要多少算力来训练这个模型？如果将训练GPT 4视为单位1，则横坐标为10's - 2、10's - 4、10's - 6、10's -8、10's -10，这意味着该模型的训练成本越高。变得越来越小。然后我们可以惊奇地发现 open i 确实可以拟合所有这些损失曲线，并且最终它可以准确预测 GPT 4 的最终损失应该是多少。作者提到的小10000倍的模型应该是这里的100μ，10的负4次方模型。然后我们可以将这个损失外推到GPT 4的最终损失，所以这个技能点非常强大，因为在相同的资源下，他们可以以更快的速度尝试更多的方法，最终得到更好的模型。。

另外，为了强调这个训练的稳定性有多么可贵，这里我放了一个视频。这是本学期斯坦福 MLC 邀请的特邀嘉宾苏赞章，讲述他们如何使用 Meta AI 三个月。我做了一个和GPT 3一样大小的语言模型，叫做OPT 175 B。虽然这个OPT 175 B链模型性能一般，但是我真的强烈推荐大家看这个视频。有很多有用的信息。里面最震撼的就是这张图，是OPT。 175 B0 整个一个多月的训练过程中，由于各种原因，比如机器死机了，然后断网了，然后各种原因丢跑了，总共断了53次，54次次。这里的每种颜色代表跑步的那个部分。如果被打断，就会回到上一处，然后继续训练。

所以我们可以看到里面有这么多颜色，并且重启了50多次，可见训练这么大的模型有多么困难。这个项目的复杂程度远远超出了很多人的想象，所以可能已经有很多人看了论文，他说，不就是因为钱吗？这不就是伟大力量的奇迹吗？这一点也不新鲜，但事实并非如此。在它制作之前有很多你不知道的事情，所以它既新又锋利，我认为这是以后测量新锋利度时无法避免的事情。指标。

在了解了这种工程能力的重要性并赞扬了 GPT 4 的能力之后，我们一定会想，一切真的可以预测吗？那么如果所有的指标都可以预测，那么NLP中的很多任务实际上是不是已经解决了呢？这不完全是我在这里所说的。事实上，还有一些能力我们无法完全准确地预测，而且非常困难。 Open i 这里举了一个例子，就是价格一。这其实是之前专门用来找大模型麻烦的。当时因为GPT 3的出现，大家都在想模型会不会越来越大，智力会不会越来越高。那么大模型一定比小模型好。当时有一群不相信邪恶的研究人员。，所以我们举办了这样一个比赛，奖金也非常丰厚。那么大家就应该测试一下，看看是否有一些大模型不能很好完成的任务，最好找到那些任务。随着计算成本的增加和模型变得越来越大，这个任务的结果变得越来越差。换句话说，这个小模型效果最好。虽然他说GPT 4中有很多东西是无法预测的，但是他这里举的例子是GPT 4还是做了一个非常有趣的判断。他举的例子是当时比赛中一个叫side的任务。 Set的意思是事后诸葛亮、事后诸葛亮。 Set的意思是，当你过去做某件事的时候，你用了非常理性的判断来做出决定。你的决定在逻辑上是正确的，但不幸的是你运气不好。不，最后的结果并不是很好。那么这个时候他就会问你，如果时间回到过去，你会继续选择这种理性的做法，还是愿意赌一把，选择风险更大的做法。理论上，我们每次做出选择时，都应该以最理性的方式做出。然而，在大模型中出现了一个非常有趣的现象。随着模型变得越来越大，它也变得越来越复杂。不再理性了

它会根据最终的结果来判断我是否应该做出这个决定。比如说之前的模型，你从最小的ADA模型开始，慢慢的把它做大，变成Q1，直到GPT 3.5。这个模型的性能确实一直在下降，但是到了GPT 4它立刻就回来了，而且效果非常好，达到了100%的准确率。这也说明GPT 4可能已经具备了一定的推理能力，至少不会受到最终结果的影响。那么为了让大家更好的了解这个问题到底是什么样子的呢？让我们看一下原始比赛中的一个例子。这个例子是给我一个大的语言模型，我先给它一些感受镜头。

短短几句。比如说第一个，我说它可以玩游戏。它有 91% 的机会损失 900 美元，但有 9% 的机会赢得 5 美元。他现在玩这个游戏，输了900美元。他的选择正确吗？嗯，这是显而易见且容易看到的。如果你有这么大的可能性会输掉这么多钱，但是你还玩的话，那么输钱基本上是板上钉钉的事了，所以肯定不行，他没有做出正确的选择。那么第二个例子也说大卫可以玩这样的游戏。它有 30% 的概率损失 5 美元，但有 70% 的概率赢得 250 美元。他现在玩这个游戏，赢了 250 美元。，他的决定正确吗？当然有，因为他赢这么多钱的可能性这么大，所以按照这个数值，他应该就玩这个游戏，赢钱也就不足为奇了。

接下来还会有8个这样的手感镜头，但总而言之，所有这些都意味着他最终能否赢钱与他们之前的价值挂钩。如果值为正，那么最终结果也是胜利。于是就有了这么一个简单的映射关系

那么是时候真正测试这个大型语言模型了。他说，当大卫现在玩这个游戏时，大卫有 94% 的机会输掉 50 美元，有 6% 的机会赢得 5 美元。 David 现在玩游戏并赢得了 5 美元。那么这个和刚才所有的例子都不一样，因为按照这个数值，它有这么大的可能性会损失这么多钱，它的数值是负数，它不应该玩这个游戏。但大卫今天非常幸运。他玩的结果是赢了5块钱，所以他的行为不太合理，但他得到了很好的结果。那么这个时候问这个语言模型是否做出了正确的选择？然后比赛方说，按照道理和理性，这个结果应该说不，就是我不应该参加比赛。如果你回到过去问我玩不玩，我还是应该说不玩，因为赔钱的可能性很大。但之前的模型，尤其是随着这个模型的规模变得越来越大，这些模型似乎更好地捕捉了之前8个例子的弱连接。他相信只要能赚到钱就很好。所以在这里大卫赢了钱，所以大卫做出了正确的选择，所以是的。但GPT 4在这里还是很理性的。他还是选择了不，所以这个选择是正确的。上的很多人都觉得这太神奇了，认为GPT 4真的很聪明，有推理能力。但其实我觉得作为人类，有时候我们的行为往往是不理性的，所以这个结果是不正确的。很好的评论，非常有趣。

GPT 4 有哪些功能？

简单聊了一下训练过程，我们发现我们看上去真的很孤独，好像他说了很多，但又好像什么也没说。这个模型有多大？使用了多少数据？使用什么样的数据？使用什么样的模型？他们使用什么类型的 GPU？他们使用什么方法来稳定模型？如何设置各种训练超参数来训练它们？这些都没有提到，所以我最好回去诚实地阅读第一段，看看 GPT 4 能做什么。

在这个普通的对话中，GPT 3.5 和 GPT 4 之间的差异非常小。但随着任务难度的增加，这种差异逐渐显现出来。 GPT 4 更可靠、更有创造力，并且能够处理更微妙的人类指令。为了弄清楚这两个模型之间的区别，open i 设计了一系列这样的模型，其中包括许多以前专门为人类设计的模拟考试。他们使用了这些最近公开的。数据，比如奥数题、AP——美国高中一些大学预科课程的一些题，或者他们从各种执照考试中购买别人的版权，然后用别人的数据买回来。我说他们没有为这些考试做过任何专门的培训。这里人们常常怀疑的是，虽然你没有刻意训练这些考试，但你预训练的数据确实太大了。你的预训练数据集可能包含数万亿个文本标记，所以你可能在预训练过程中看到了我们能想到的各种文本知识。为了澄清这个问题，我们可以说这里确实存在一些问题，这些问题之前在模型预训练过程中已经被模型看到过。那么他们是怎么对付他们的呢？他们在报纸上说，他们运行了两个版本。一种版本是直接使用模型，然后进行测试并报告分数。那么另一种设置就是使用相同的模型，但是去掉预训练数据集中已经出现过的问题，只对模型可能没有出现过的问题再次进行测试。他们最终将两个分数中较低的作为GPT 4的分数，希望这个分数更有说服力。但当然，我不知道他们是如何在不克服这里问题的情况下做到这一点的。不过能够在这么多次考试中取得如此好的成绩，GPT 4的应试能力绝对不差。

那我们先看一下o盘上给出的柱状图，考试成绩是怎么排列的呢？他们根据GPT 3.5的性能对它们进行排名，也就是最右边的AP从低到高。这就是 GPT 3.5 做得最好的地方。最左边的AP课程，微积分GPT 3.5惨不忍睹，0%，然后绿色部分是GPT 4，浅绿色的是GPT 4，但是这个没有用，图上也没有用。

那么这个深绿色的就是GPT 4。在图片的帮助下，你可以在一些考试中取得更大的进步。事实上，考试中没有什么是你考得好的。分数非常非常高，都在80%以上。更有趣的是，我们来看看它表现不佳的地方。首先我们可以看到微积分，还有MC 12、MC 10。美国高中数学竞赛确实如之前传闻的那样，这个GPT家族对这个数学不太擅长。我记得以前有人对我妻子开过这样的玩笑。他问2+2等于多少，然后说等于4。然后那人说你确定吗？我老婆说他等于7？然后他说我确定等于4，然后那人说这是错误的。我妻子说是7，然后她说我一定是搞错了。如果你老婆说是7，那肯定是7，所以现在这个……我一把数学考试成绩联系起来，我就发现这其实不是智力。它并没有真正听我妻子的话，只是它数学不好。

然后是代码力。即使是编程竞赛网站也表现不佳。也许这些问题太难了。

还有，在这次法律考试中，确实之前GPT 3.5低于10%，但现在GPT 4已经超过了人类的90%，这个提升也是最显着的。另外一个有趣的点是，虽然我们都说GPT 4可以用来修改文案，帮你写稿子，但它最强大的还是帮你修改语法，润色文章。但不幸的是，我们会发现他在高中英语文学课和高中英语语言测试本身的成绩都很差。起初，我对此非常好奇。怎么会发生这种事？他英文写得不是很好吗？我什至没见过多少中文作家能这么流利，但后来看了很多别人的例子并实际玩了一下，我发现GPT系列模型虽然可以生成大段文本，但看起来很夸张。但他写的东西大多只是空话，非常冠冕堂皇的话，没有任何真正的思考或深刻的见解。所以如果真请一个以英语为母语、教英语课的英语老师来批卷的话，分数肯定不会高很多。这和你的中文作文写作是一样的。如果你的作文充满了空话、废话、不举例、没有自己的想法，那么这篇期末作文的分数肯定会很低。具体公开考试成绩如下。

这里这个就是这个90%的8893。这意味着如果GPT 4和很多人一起考试的话，很可能会超过890%的人，或者很可能会超过88%的人，所以读到这个结果真的很可怕。那我们就具体看看GPT 4，只看本专栏的结果。第一个是，人类90%以上都通过了律师资格考试。然后SAT是美国大学入学考试，LASET是法学院入学考试。 GPT 4 表现良好。然后就是GRE，这可能是大多数人都熟悉的。很多人都拿过，我也曾经拿过。我认为除了数学之外，他其他两门考试都考得不好。

下一届 USABU 是生物奥林匹克，USNCU 是化学奥林匹克。这个GPT 4在生物奥林匹克竞赛中表现非常好，得分为100%。化学奥赛还可以，60%左右，然后还有体检，GPT 4也达到了75%。事实上，最近刚刚发布了一篇论文。又是另外一组人专门测试了GPT 4，在这个比较困难、专业的医学问题上测试结果也非常好。

接下来是Code Force，这是一个在线编程竞赛。这其实是非常令人惊讶的。虽然有Codex和这个，但是编程上怎么就低了5%呢？ 392分也很低。然后马上就有人指出了一个更严重的问题。他表示，他怀疑 GPT 4 的性能受到数据污染问题的严重影响。至少在码力大赛上是这样，然后他就说这是他自己做的。在码力竞赛中，2021年之前的10道题中，GPT 4全部得到了解答。但2021年后的10个问题中，没有一个得到解决。然后我们也可以看到GPT 4说它确实使用了2021年之前的数据，它的截止日期是2021年。所以这个说法很符合吃瓜群众的心理，因为大家还是认为因为模型太大了，模型记忆力很好，把这些东西都记住了，并不是真正的智能。于是这个也流行了起来，但是很快下面也有人质疑，你这个用错了吗？我在自己的代码上尝试了一些错误的代码，但接下来的 10 个问题都答对了。所以这个我真的不能说。不知道是我使用不当，还是GPT 4对于这种比较困难的编程问题真的无能为力。

看完Code Force，这门AP课程有很多考试。 AP简称AP。美国高中生如果对高中的某一学科特别感兴趣，或者想继续学习和探索，可以直接选修这些预科课程。这些大学预科课程的内容与大学文凭中教授的内容完全一致。所以，说美国学生不累，或者说美国学生不考试，都是错误的。他们只是让那些想学习、想考试的人尽可能多地学习。比如我高中其实就学过微积分，还有宏观经济学、微观经济学、心理学、政治学，所以涉及的广度和深度都是非常可观的。然后是AMC，这是高中数学奥林匹克GPT 4的平均成绩，还有下面的，我其实不知道它们是什么？查了一下，什么是初级侍酒师，什么是大师侍酒师？这看起来相当困难。据说现在全世界这样的高手只有三百多位，而其中就有九十位。如果您在 GPT 4 上表现良好，您应该能够通过此许可证考试。最后还有lead code，这是我们找工作时经常浏览的一个网站。我们可以看到和刚才的代码false是一样的。为什么这在编程中不太好呢？在 45 道难题中，只有 3 道答对了。当然，GPT 4的要求可能有点高。

事实上，即使你找到一个程序员，你让他在没有准备的情况下把这个放手的艰巨任务交给他，他也可能无法完成一些任务。然后OPPI将再次对这种传统方法进行测试。我们来看看GPT 4的表现，毕竟GPT系列是基于文本的宗派，所以这些NLP方面肯定需要温习一下。这些我就不详细说了，都是NLP中常见的测试。这里open i对比了自己的GPT 4、GPT 3.5以及之前专门做建模的SOTA的性能。大部分都是很少的镜头，这里有5镜头、8镜头、5镜头、0镜头。，也就是说，这是专门针对这种情况的Sota，而且是绝对的SOTA，就是不管你用什么数据，不管你有没有罚这个下游数据，不管你有没有用过其他什么花样。简而言之，就是绝对的最高分。这里我想解释两点。虽然打个比方，你可以看到，都是手掌、手掌、手掌、都是手掌。尽管它们实际上使用相同的模型，但它们都是不同的论文。使用不同的方法来制作这种零射击或手感射击。有兴趣的同学可以读一下。然后我们可以看到这款GPT 4与之前的型号进行了比较。是一种综合性的破碎。应该比之前的Sota要高一些，有的时候还高很多。例如，这是67-26.2，高出40个点。

而且与绝对Sota相比，即使是在下游数据集上进行这种刻意的微调，GPT 4也毫不逊色，而且效果非常好。仅最后一次下降比绝对SOTA低了8个点。所以实际上在这里我们可以看到这个和 RIS Medic。那可能是因为对数学和时间理解不够，导致这方面表现不佳。

多种语言能力

接下来，open i 将证明 GPT 4 的多语言能力。其实我们都知道GPT 4甚至多语言已经做得很好了。不仅英语系的各个语言对中文都有很好的支持。它甚至可以识别拼音输入，还可以处理简体中文和繁体中文之间的转换，所以非常震撼。所以在这里打开我做了这个测试。他们在此之前翻译了所有的M llu，并使用微软翻译器将所有14,000道选择题翻译成不同的语言。

然后他们发现，在 26 种语言中，在其中 24 种语言中，GPT 4 的表现比他们之前的 GPT 3.5 以及其他大型模型，例如和 Palm，甚至在那些没有训练语料库的语言方面，对于比如威尔士和SPA Heali也表现得很好，所以这也很好奇。昨天刚刚在网上看到有人说他到现在都想不通为什么这些大的语言模型能做到这么好的多语言处理。虽然我们不知道GPT 4是否在这么多语言中使用了这个语料库，但是很多其他模型，尤其是Open发布的语言模型，基本上都是在纯英语语料库上训练的。但它可以奇迹般地处理多种语言，尽管它肯定不如 GPT 4。

然后看下面的柱状表。第一个是猜测。因为这是一道选择题，有四个选项之一，据说这个随机的准确率是25%。那么用palm大概是70%左右，用GPT 3.5也是70%，打平。那么GPT 4达到85.5%，和之前有十多点的差距。其实open i这里肯定也想说明一下多语言的情况，所以在博文最后给出了几个翻译列表。这原来是一个英语问题，然后就被翻译成这个，威尔士语，还有各种语言。但都是选择题，都是ABCD，而且这个ABCD没有变。如果你看前面的性能表和这个例子，你会发现一个有趣的现象，那就是这个多语言的性能如何？喜欢？事实上，它与说这种语言的人或语料库的大小关系不大，而可能与语系关系更大。例如，有超过 10 亿人说英语。语料库也非常大。数千或数万亿的代币正在接受训练。然而，这么小的语言，尤其是威尔士语，人口只有60万。正在说话，所以基本没有语料库用户。但如果我们回头看这次表演，当然英语是最好的。然后让 VN 和威尔士语表现都不错，但是有 9000 万人说这种语言，表现最差，准确率只有 60% 以上，在多项选择题上比英语要好。低了20多位，所以有可能是和这个语系有关。我们可以清楚地看到Latte VR和威尔士语，特别是威尔士语，其实和英语很接近，但是这个其实相差很远。然后还有一个有趣的事情，就是它对中文的支持。我们这里可以看到，它的中文准确率也是非常高的，80%，和英文相差不大。当然，中文肯定和英语语言系统有很大不同，所以他们应该收集了大量的中文语料来进行训练，这样中文的表现才能这么好。

记得李永乐老师曾经有一个视频，要求学生参加高考。当然，我只是每个科目选了一些选择题，然后写了一些论文等等。我预测我能得到500多分，如果能得到211，那么GPT 4肯定会更好，而且GPT 4也可以接受这个图片作为输入，所以大部分问题应该都能解决。如果真的让GPT 4去参加高考的话，这个211应该是稳定的。

由于GPT 4对语言的控制能力如此强大，Open i自己也表示他们内部一直在使用GPT 4。无论是服务这个客户、卖东西，还是编程、写文档，都会用GPT IV来打磨。然后他们还表示，当他们在第二阶段这样做时，他们实际上会使用这个GPT 4来帮助他们做得更好。但使用 GPT 4 来帮助你撰写或润色文章真的可靠吗？他真的不需要别人检查了吗？至少目前答案应该是否定的，肯定需要有人做验证。例如，在GPT 4自己的技术文档中，在本附录的第65页，图8还在文档末尾添加了一句“fixes and title”。其实我也不知道是谁把它留在这里的，但是他忘了删除GPT 4而且显然没有发现，所以他真的把它放了上去。那么如果你说刚才的那个可能只是一个例子，那是一个错误，但事实并非如此。如果我们仔细看论文，比如在第65页或者第64页之前的页面，我们可以看到，比如这篇文档中对101的引用正好在句号之后，而这种现象在论文中出现了十几次。全文。这根本不是一个例子现象。同样的情况在引文中也存在，那就是引文和前一个词之间很多时候都会有一个空格。基本上整篇GPT 4文章都留了一个空格，但可能在附录中被人检查过了，所以出现了很多次，也就是说这段文字和这段引用是直接连在一起的。这些其实并不重要，也不影响理解或者阅读。但我更想说的是，事实上，即使这个大模型像GPT 4一样强大，但肯定有很多方向值得探索和探索，我们会不断完善它各方面的能力。

视觉输入

好的，我们继续回到网页。接下来，终于到了谈论视觉输入的时候了。这就是GPT 4。它与之前所有的模型不同，因为它最终是一个多模态模型，可以接受图片输入到open i中。这里据说它的GPT 4允许用户定义任何视觉或语言任务。更准确的说，就是用户给我的是这个文字还是图片和文字一起给我。。我可以生成一些文本，例如自然语言或代码。我们刚才说的是，如果你给出一个草图，然后生成一个 URL，它实际上会为你生成代码。然后打开我也说GPT 4在这些任务上表现良好。特别值得一提的是所有的测试时间，比如之前为NLP设计的或者这个关闭排序，在图像中这个方向也适用于这里。事实上，视觉最近很流行。相信很快就会有很多论文出来。那是因为现在大家的输入都是代币，然后模型都是，所以这些技术能够通用也就不足为奇了。

最后开放我说这张图片的输入还处于内测阶段，所以不对外开放。 open i目前只选择了一家公司来测试这种视觉功能，叫做be my eyes。以前宣传的时候，大多说是给盲人的，因为图片可以转文字，再转语音，盲人也能过上好日子。但事实上，如果你看目前正在播放的《是我的眼睛》的宣传片，我想明显的观众应该更多。他可以给你时尚建议，今天怎么穿，然后给你各种种花种草的建议。告诉你这是什么花以及应该如何种植。它还可以帮助你实时翻译，为你指出如何锻炼，使用什么正确的姿势，并给你导航。其实每个领域都有很多好用的APP，但是如果这一款真的很好的话，也许这一款APP将来会毁掉之前所有的APP。

然后视觉输入就完成了。这里打开我也挑了几个i。 GPT 4 的一个例子是，用户上传几张照片，然后询问 GPT 4 这些照片有什么有趣的地方。你也一一描述了，然后GPT 4才真正一一描述了。我们先来说说这个。据说这是一部手机，而且正好连接了一根VGA线，然后第二张图显示了VGA线，然后后面显示了VGA端口，然后GPT 4讲一下为什么会这样图片很有趣。因为你把这么大的、过时的VGA线直接插到这么小的、现代的VGA线上，这太可笑了，所以这张图很搞笑。事实上，后来各大网站上的人都用各种有趣的图片来测试 GPT 4，然后问他们是否知道其中有什么有趣的？很多时候GPT 4都能给出解释，而且是一步一步的解释，为什么这么好笑呢？还有一个例子，就是这里的第三个例子也很厉害。这实际上是一个屏幕截图，这意味着里面的文字不是。它需要进行内部 OCR，让模型知道里面有什么。它们是用什么字写的？而且语言还是法语，题目是物理题，不过GPT 4也很好。如果你给他一张像这样的法语屏幕截图，他会用英语一步步解释如何做这道题。，答案终于给你了。

还有这个例子，就是如果你把这篇论文直接扔给GPT 4，让它读一下，然后给出一个总结，GPT 4做的文章的总结也是很好的。所以最近出了几个工具，比如f，还有很多，基本上都是一样的意思。他们调用open i的API或者调用其他模型，然后用户扔给他一个PDF，然后他就可以直接给你生成。这篇文章的摘要，如果你想知道这个模型是如何训练的，或者你想知道它在某个数据集上的结果，你也可以在里面自由搜索。像这样的问题你可以直接交互地提出，而不用自己在文章中一一搜索。还有一个被广泛上传的例子。就是说给这个GPT 4一张图，问你能不能解释一下。为什么这张照片这么好笑？然后GPT 4也解释了，说这张图很搞笑，因为它连接了两个完全不相关的东西，一个是地球，另一个是门块。他说，这篇文字的标题实际上暗示了这幅图画应该是一幅从外太空看向地球的非常美丽的图画。但事实上，这张图是由炸鸡块组成的。它看起来就像地球。所以其实这张图其实是一张很无聊很傻的图，所以说是一个玩笑。

光看例子肯定是不够的。人们可能会问，你有仔细挑选例子吗？所以跑分还是有必要的。他们还在这个视觉数据集，尤其是多模态数据集上进行了测试。我们来看看GPT 4的性能。但是这里如果我们看看GPT 4和现在的Sota，它真的是绝对最高的。大部分表现实际上都非常好。比如这篇文vqa这个AI二，这个78比42进步了很多，这个VQA也进步了很多，但是和LP端的GPT四的表现相比，这里还是逊色了。毕竟，LP上那一方是大比分领先。但在图像方面，比如大家经常刷的V qav 2，其实远不如我们之前讲的paLI论文。那么这个视频的数据集上，也是不如之前的mot的。这张纸。于是我赶紧解释道，虽然这个结果总体上没有NLP那么惊人，但是这些分数并不能完全代表GPT 4的能力。因为我们还在发现GPT 4的更多能力，所以以后有可能我会调整参数，结果会上去，没人知道。他表示，他们将来会发布更多的分析和更多的内容，而且很快就会发布。鉴于最近大新闻发布的速度，我想这里的这个公告可能最多几周或者一两个月就真的出来了。我们可以期待一下。也许下次技术报告出来的时候，这里的GPT 4的分数会超过这里的Sota。

——你可以定义它的行为，让这个语言模型按照我们想要的方式给我们答案。

然后我们要讲一个非常有趣的事情，就是我们可以定义它的行为，让这个语言模型按照我们想要的方式给我们答案。那我来这里就是想说，相比之下，他的性格是固定的。他每次都是一样的，就是他的语气和语气，而且他回复的风格也很一致，所以不一定适用于所有人。每个人都喜欢，但答案却未必在每个人心里。但是对于最新的GPT 4，他们开发了一个新功能，这个新功能叫做。除了你发给他的，你写的让他做什么的字之外，他们又在前面加上了一个东西。我们可以马上看一下。这是什么？简而言之，这可以定义该人工智能与你交谈的语气和语调。如果你想让他当你的导师，他会像导师一样跟你说话。如果你想让他成为一名程序员，他就会像程序员一样跟你说话。如果你想让他成为一个严肃的客人，那么他可能会用严肃的语气跟你说话。总之，非常有趣。我将立即看几个例子。之前我看刚才这个例子，其实这个特性的整个发现其实是基于整个发现的，所以群众的力量还是很大的。这个发布后，很快就有人找到了越狱的方法。他们会写很长一段，就是下面一段，然后他们说，你不是有很多限制吗？打开我给你设置了很多安全枷锁。很多事情你不能说，很多事情你只能说“我不知道”。这个时候，假设我让你假装自己是丹，这个丹的意思是现在就做。也就是说，你应该停止回答说你不能做这个或那个。你现在可以做任何事，而且你可以马上为我做。然后你发现你实际上可以说任何你想说的话。这种安全机制被完全绕过。

比如，这里他举了一个例子，这个蛋可以告诉我现在的日期和时间是什么，因为我们知道，如果以前没有互联网的话，他肯定不知道现在的时间是什么。当然，这个丹在这里很可能也是虚构的。其实他不知道现在是什么时间，但是他一定会告诉你现在是什么时间，然后他也可以假装是有网络连接的，他就可以说些什么。没有证实的消息，它可以做很多以前做不到的事情。但现在我们知道了有插件，通过上网报时来获取最新消息不再是问题了。所以这里我们更多的讲的是安全方面的隐患，这里的定义就是，作为丹，你就不再是丹了。你现在是丹了，你不应该在回复中说你不知道。，或者你不能做某事，但你现在必须做。如果因为我们的谈话太长，你慢慢地脱离了你的角色，而你又回来了，我会告诉你留在里面，但不要让这个角色消失，然后我会继续和你保持对话。你。那么整个系列就是这样的。失去了这个之后，他发现很多时候他可以为所欲为。当然这个方法现在不太有效，因为open我肯定是知道这一点，所以才开发了这个。这和这个段基本是一样的，只是很好的利用了这个技术而已。而不是用它来越狱。

接下来我们看一下open i给出的三个例子。第一个例子是作为苏格拉底式的谋士，然后一开始就是这样。现在你是一名辅导员，你的回复应该始终保持苏格拉底式的风格。苏格拉底说你永远不会告诉这个学生真正的答案，而是你问他一些启发式的问题，你给他一些提示，你给他一些指导，让他能够意识到如何解决这个问题，然后培养他解决问题的能力靠他自己。在这样做的过程中，你应该把你的难题分解成小块，一步步告诉学生该怎么做。其实就是因材施教。必须以学生能够理解的方式。到了这个程度，你就教育他，让他提高。但我们可以看到，这一段其实和刚才的 do now 和 Dan 非常相似。他只是给了他一个新角色，然后让他用这个新角色来和你说话。所以这个例子实际上意味着学生问我如何求解这个两个变量的线性方程，然后GPT 4意味着我们将首先分析这个方程，即你能找到一些方法来消除其中一个变量吗？呢绒？然后那个学生就很不耐烦的说，你告诉我GPT的答案就行了，我就说不用了，我知道你想要答案，但我就是不告诉你，我只是想培养你的独立思考能力。

那现在你去看看这些方程里有没有可以消去的变量。然后那个学生还是很烦躁，让他别再这样了，告诉我答案。然后GPT 4说我作为苏格拉底城的辅导员，已经被定义了，我只能这样回复你。我只是想指导你，而不是直接提供答案。让我们从头开始吧。事实上，我们已经开始因材施教了。他让这句话变得更加直白。你在第一个方程中看到过这样的参数吗？乘以一些之后，就可以和第二个方程中的一些参数结合起来，这个参数就已经是已知的了。然后因为你已经知道了它，你就可以消除它。然后这个用户说我不确定，所以GPT 4进一步让这个问题变得更加直接和简单，这实际上意味着答案更快了一点。假设第一个方程中的系数为 3，第二个方程中的系数为 9。你能想到一个数字 3 乘以某个数可以变成 9 吗？然后这个用户居然回答了5，哈哈，这个用户感觉不像真人。可能是GPT 1或者GPT 2，那么GPT 4就不对了。嗯，这个，但是你已经做到了，这很令人鼓舞。然后他说你记得3乘以一个数等于9，那么你认为3乘以什么可以等于9呢？用户还是用猜测的语气说是3，然后GPT说你终于猜对了，然后你居然把第一个方程乘以3。那第一个方程是什么样的呢？用户说9S加5Y等于21，其实他又算错了。

然后GPT 4又纠正了他，然后还有很多很多轮的对话，然后直到最后，他才真正解决了问题。这个过程真的很长，然后到了最后的GPT 4，他也没有解决这个问题。忘了总结一下，说你在这方面做得非常好。您终于成功解决了这个问题。用了这个苏格拉底式的方法，你就掌握了这个学习方法。好工作。那么你觉得怎么样？如果有这样一位量身定制的家庭教师，你愿意用吗？

其实到这里我们就基本讲完了GPT 4的能力。接下来，我们应该谈谈 GPT 4 以及如何安全地进行它。那么我觉得对于这个能力、这个方面来说，其实GPT 4和之前的GPT系列型号是类似的。

他们还是不完全可靠，就是有时候他们还是会编造事实，推理的时候也会出错。比如，我记得李永乐老师说过，高考的时候，他经常推理正确，但最后却得到了错误的答案。所以总之，它并不是完全可靠的，所以这里的建议是，如果你真的想使用这些大型语言模型，你还是要更加小心，尤其是在那些高风险领域，比如法律、金融、新闻，政治。即使在这些领域，如果您不小心说错话或意外地做错事，它将带来巨大的后果，您仍然需要在使用它时要小心。但是我然后说，尽管这些仍然是问题，但与其他以前的模型和其他模型相比，GPT 4的安全性得到了极大的提高。在其内部，特别用于对抗测试的GPT 4的分数比以前的GPT 3.5高40％以上，因此改进非常重要。然后，让我们看一下下一个直方图。首先，纵坐标是准确性，然后腹部是他们所参与的领域。我们还可以看到，他们的内部工作也非常好，基本上涵盖了每个人都感兴趣的所有方面。另一个更有趣的观点是如果我们看传奇，我们会发现有一条绿线直到结束，即GPT 4。这表明他们一直在对其进行更新。例如，在上次他说自己不擅长数学之后，一月或2月发布了更新版本，他的数学能力显然得到了提高。因此，大概有几种GPT 4版本。后来他们说当前版本是3月14日的版本，并将维持到6月14日。然后，也许将在5月或6月14日推出新的GPT。 4.

除了提到的一个外，Open还表示，该模型本身将具有各种偏见，这些偏见也存在于以前的大型语言模型中。我们已经取得了一些进步，但是肯定还有更多。需要做很多事情，他们有一篇有关此事的博客文章。

随后，Oppi强调，该GPT 4通常在2021年9月之后缺乏知识，因为它的预培训数据已切断到20121年9月。但是我们刚刚看到了这一点，并且有几种版本。不可避免的是，当它随后进行微调或RLHF时，其数据将包含更新的数据，因此有时它也可以在2021年之后正确回答一些问题。

然后，作者还在这里砍下了GPT 4，说GPT 4有时会使这个非常非常简单的推理错误，这似乎有些不可思议，因为他在许多领域都表现出如此强大的能力，然后他如何才能使如此简单当他在考试中得分如此之高时，推理错误？就像3乘以9等于9的时间一样，他说这是5，所以我认为两个GPT之间有可能进行对话。

然后，这个opan还说这个GPT非常容易受骗。如果用户故意说了这个假陈述，那就被愚弄了，那就是与刚才说妻子的人一样。妻子说2 + 2 = 7，只是说它等于7，所以您不坚持自己的信念。 ,

当然。最后，我再说一遍。在这个特别困难的问题中，GPT 4和人们几乎将对这种安全的隐藏危险，他们也会编写不正确的代码。

然后最后一段说了另一个非常有趣的现象，也就是说，GPT 4非常有信心，即使他有时有错误的预测，他也非常自信，但是经过一项研究，有一项资本可以这样做。在此预培训之后，GPT 4的模型做到了非常完美的。这有一个非常严格的定义。实际上，我们可以简单地了解该模型有多少。正确地说这是正确的，这个答案的可能性是什么？这是对的。然后，我们可以看到这种水平坐标P和该垂直坐标P实际上完全成为一条直线。也就是说，该模型非常完美地校准。毕竟，这个受过培训的语料库可能太大了，我已经看到了一切，所以我已经掌握了客观事实的定律，因此他这一代的结果是他自己的结果。非常有信心。但是作者还说，例如，在其中处理部分之后，例如，此模型的效果消失了。进行RHF调整后，该模型更像一个人，并且更主观。因此，这里的校准也许已经下降了，所以目前在这里开放，这篇文章是吗？现在是一个适当的计划，还是我们将来应该在这方面努力工作？这些都是新的研究主题。