原华为天才少年:通用人工智能的目标是兼具慢思考和类人属性的 AI Agent

日期: 2024-06-27 02:09:49|浏览: 273|编号: 55055

友情提醒:信息内容由网友发布,本站并不对内容真实性负责,请自鉴内容真实性。

作者:AI科技集团

本文首发于钛媒体APP

近日,一篇4万字的演讲热播在国内人工智能学术圈。

前华为“天才少年”、某人工智能公司联合创始人李伯杰博士近日发表了一篇关于人工智能Agent思考的文章,题为《人工智能Agent应该更有趣还是更有用?》。

李伯杰在这篇文章中表示,目前人工智能的发展有两个方向:一个是有趣的人工智能,即更像人的人工智能;另一个是更有用的人工智能,即更像工具的人工智能。但目前的人工智能技术要么有趣但没用,要么有用但不像人,就是“不好玩”。

李伯杰指出,通用人工智能(AGI)的目标是创造出既拥有慢思维,又具有类人属性的AI代理,但目前的AI代理与人类的梦想还有巨大的差距。

李伯杰坦言,Video是一条更加极致的技术路线,虽然大模型的成本肯定会快速下降,但他并不建议贸然自己做基础模型。

“如果你没有拳打脚踢的力气,在效果上你就比不上最好的闭源模型,在成本上你也比不上开源模型。”李伯杰说。

据悉,李伯杰今年31岁(1992年出生),曾任华为2012实验室中央软件研究院计算机网络与协议实验室、分布式与并行软件实验室助理科学家、副首席专家,2019年加入华为,是首批“天才少年”,职务级别为P20(技术专家A级)。

早在2010年,他就进入中国科学技术大学少年班学院学习,在校期间曾担任中国科学技术大学镜像站点维护者。2014年,李伯杰以联合培养博士生身份加入中国科学技术大学与微软亚洲研究院(MSRA)联合培养项目。

几乎与此同时,2019年,李伯杰获得了中国科学技术大学与微软亚洲研究院联合培养博士学位,导师为张林涛教授和陈恩宏教授。

2023年7月,李伯杰离开华为后创办AI,致力于成为人类的数字延伸。借助前沿的AIGC基础设施,AI可以协同生产和服务Agent、“元宇宙”、数字孪生等多模态角色。

李伯杰表示,“我们都相信AGI一定会来,唯一值得争论的是AGI的增长曲线是什么样的,这一波自回归模型会不会有规律地直接增长到AGI?还是这一波自回归模型也会遇到瓶颈,AGI还需要等待下一波技术革命。10年前CV革命开始的时候,很多人对AI的发展过于乐观,这一波会是一条通往AGI的坦途吗?”

李伯杰强调,AI Agent的创造者是可以获得收益的,因此,好看的外表、有趣的灵魂、好用的AI、低成本、去中心化的AI Agent将推动整个AI领域的不断创新和健康发展。

“我们相信,在人类世界的数字延伸中,有趣的灵魂终究会相遇。”李伯杰说。

以下为李伯杰演讲全文,共约4万字,欣赏:

非常荣幸能够来到香港科技大学校友会AI沙龙,分享我对AI Agent的一些思考。

我是1000班(2010级科学实验班)的李博杰,2014年至2019年在中国科学技术大学和微软亚洲研究院攻读联合博士学位,2019年至2023年是华为第一批优秀青年,现在和一群中国科学技术大学的校友一起在AI Agent领域创业。

今天(去年12月)是汤晓鸥教授去世后的第七天,所以我特意把今天的PPT背景换成了黑色。这也是我第一次用黑色背景的PPT做报告。也希望随着AI技术的发展,未来每个人都可以拥有自己的数字化身,在数字世界实现灵魂的不朽。在这样的世界里,生命不再受限,也不再有离别的悲伤。

人工智能:有趣又实用

人工智能的发展一直朝着两个方向发展,一个是有趣的人工智能,更像人类的人工智能;另一个是更有用的人工智能,更像工具的人工智能。

AI应该更像人还是工具?有很多争议,比如AI CEO Sam就说AI应该是工具,而不是生命。其实很多科幻电影里的AI更像人,比如《她》里的AI,《流浪地球2》里的图雅雅,《黑镜》里的Ash,所以我们希望把这些科幻场景变成现实。只有少数科幻电影里的AI是工具型的,比如《钢铁侠》里的贾维斯。

除了有趣、有用这个横向维度,还有一个纵向维度,就是快思考和慢思考。这是一本叫《思考,快与慢》的书中的一个神经科学概念,书中说人的思维可以分为快思考和慢思考。

所谓快思考,是指视觉、听觉等基本感知能力和言语等不需要思考的表达能力,而回答问题、解决具体问题的AI可以算是工具型的快思考,当你不问它问题的时候,它不会主动找你。AI、Pi、星野都是模拟人或动漫游戏人物对话的AI Agent产品,但这些对话不涉及复杂任务的解决,也没有长期记忆,所以只能用来闲聊,无法像《她》​​一样帮助解决生活和工作中的问题。

慢思维是有状态的复杂思维,即如何规划解决一个复杂问题,先做什么,后做什么。比如写代码模拟软件开发团队的分工协作,就是把一个复杂任务拆成很多阶段,一步步完成。虽然这些系统在实际使用中还存在很多问题,但已经是一个具备慢思维能力的雏形了。

遗憾的是,第一象限中几乎没有既具有慢速思维又具有类人特性的 AI 代理。斯坦福 AI 小镇是一个很好的学术尝试,但斯坦福 AI 小镇中没有现实生活中的互动,AI 代理的日常行程都是预先安排好的,因此不太有趣。

有趣的是,科幻电影中的大部分AI其实都处于这个第一象限。所以这就是现在的AI Agent和人类梦想的差距。

所以我们做的事情和 Sam 说的正好相反,我们希望让 AI 更像人类,同时又具备慢慢思考的能力,最终进化成数字生命。

今天大家都在谈论 AGI 的故事,AGI 代表通用人工智能。什么是 AGI?我认为它既有趣又有用。

有趣的是它要能独立思考,有自己的性格和情感,有用的是能解决工作和生活中的问题,现在的人工智能要么有趣但没用,要么有用但不像人,不好玩。

比如,角色扮演类的AI产品,虽然不能帮你解决工作、生活中的问题,但是可以模拟出马斯克、特朗普、原神派蒙。我看过一个分析报告,说AI有几千万的用户,但是月收入才几十万美金,相当于只有几万付费用户。大部分用户跟每个虚拟角色聊个十几二十分钟,就不知道说什么了。那为什么它的留存率低、付费率低呢?因为它既没有给人提供情感价值,也没有给人提供实用价值。

另一方面,有用的AI,比如各种AI,都是冷漠的,一个一个的回答问题,完全就是工具。这些工具甚至记不住你之前做过什么,你的喜好、习惯。所以用户自然只会在需要的时候才记得用这个工具,不需要的时候就会把它扔到一边。

我认为未来真正有价值的AI,会像电影《她》中那样。首先它的定位是操作系统,能够帮助主角解决很多生活和工作上的问题,帮他整理邮件等等,而且比传统操作系统做得更快更好。同时它有记忆、有情感、有意识,不像是电脑,像人。因此,处于感情空虚期的主角,渐渐爱上了自己的操作系统。当然,并不是所有人都把它当成虚拟伴侣,正如剧中也说的,只有10%的用户会和自己的操作系统发展出恋爱关系。我觉得这样的AI Agent才是真正有价值的。

还有一点值得一提的是,这个角色在整部剧中只有语音交互,没有视觉形象,并不是机器人。目前AI的能力恰好在语音和文字上非常成熟,但视频生成还不够成熟,人形机器人还不够成熟。《黑镜》里的机器人Ash就是一个反例。这部剧中,先是利用女主角过世男友Ash的社交网络信息,制作了一个语音伴侣,直接把女主角给逗哭了。其实现在的技术,制作那个语音伴侣绰绰有余。后来女主角又额外花钱升级,上传了一堆视频素材,还买了一个长得像Ash的人形机器人。其实现在的技术还做不到,但即便如此,Ash的女友还是觉得他不像他,就把他锁在了阁楼里。这里就有一个恐怖谷效应,如果不够逼真,就保持一定的距离。

对了,在《黑镜》里,女主角先是用文字聊天,然后说“你能跟我说话吗?”然后电话就接通了。有位试玩我们AI Agent的朋友,居然也问了我们AI Agent同样的问题,我们的AI Agent回答说“我是AI,只能用文字交流,不能说话。”他还截图发给我,问我答应打的语音电话的事。我说要按通话键才能打语音电话。所以这些经典的AI剧,真的需要一镜到底地拆解分析,里面有很多产品设计细节。

巧合的是,我们的第一台 H100 训练服务器位于洛杉矶最古老的邮局,后来改建成保险库,再后来成为数据中心。这个地方位于洛杉矶市中心,距离《她》的拍摄地不到一英里。

这个数据中心也是洛杉矶的互联网交换中心,入口服务器的距离和延迟都在1毫秒以内,而且都在这栋楼里。从一百年前的邮局到今天的互联网交换中心,真的很有趣。

有趣的人工智能

那么我们首先来看如何打造一个真正有趣的AI,我觉得有趣的AI就像一个有趣的人,可以分为两个方面:好看的外表和有趣的灵魂。

外观好看意味着它能听懂语音,阅读文字、图片和视频,有视频和语音图像,能与人实时互动。

一个有趣的灵魂需要能像人一样独立思考,有长期记忆,有自己的个性。

接下来我们就从好看的外表和有趣的灵魂两个方面来聊一聊。

好看的皮肤:多模态理解能力

说到外观好看,很多人觉得只要有个能摇头晃脑的3D图像在这里展示就够了。但我觉得更关键的是,AI能够看到并理解周围的世界。也就是说,它的视觉理解能力非常重要,不管是机器人、可穿戴设备,还是手机上的摄像头。

比如演示视频就做得不错,虽然经过了剪辑,但如果真的能达到这么好的效果,那肯定不用担心用户。

我们来回顾一下演示视频中的几个片段。给定一个鸭子的绘画视频,它可以描述什么是鸭子。给定一个饼干和一个橘子,它可以比较它们之间的差异。给定一个火柴人绘画游戏,它知道该往哪个方向走。给定两个毛线球,它可以画一个可以用它编织的毛绒玩具。给定几颗行星的图片,它可以正确地对它们进行排序。给定一只猫跳上柜子的视频,它可以描述发生了什么。

虽然效果很惊艳,但是仔细想想,这些场景其实也不是很难制作,只要你能讲图片,也就是给图片生成一个比较好的,这些大模型就可以回答所有这些问题。

语音能力也很重要。10 月份我基于 ASR/TTS 和 GPT-4 做了一个语音聊天 AI Agent,聊了一整天,室友以为我在跟老婆打电话,就没打扰我。当他发现我在跟 AI 聊天时,问我怎么能跟 AI 聊这么久。我给他看了我们的聊天记录,他说 AI 确实很健谈,他不想聊那么久,因为他懒得打字。

我认为构建多模态大模型有三种方式,第一种是使用端到端的预训练模型,多模态数据。这就是方法,最近的 LVM 也是端到端的多模态。我认为这是最有前景的方向。当然这条路需要大量的计算资源。

还有一种工程化的解决方案,就是用一个胶水层把训练好的模型粘合在一起,比如目前在图像理解上表现最好的 GPT-4V,以及学术界开源的 GPT-4/v2、LLaVA 等。胶水层是我叫的,专业术语叫层。比如右上角的架构图中,标有“”的六个框就是层。

对输入的图像、语音、视频分别进行编码,编码结果经过层映射到token并输入到大模型中,大模型输出的token经过层映射到图像、语音、视频的中,从而生成图像、语音、视频。

在这个胶水层粘合方案中,可以看到 、 和大模型都标有“❄️”,代表冻结权重。在用多模态数据训练时,只修改层部分的权重,其他部分的权重不修改。这样可以大大降低训练成本,只需要几百块钱就可以训练一个大型的多模态模型。

第三条路径是把第二条路径发挥到极致的解决方案,连层都不需要,直接用文本来粘合,不需要大型文本模型。比如语音部分,就是先做语音识别,把语音转换成文本输入到大模型中,再把大模型的输出送入语音合成模型生成音频。不要小看这个听起来很简单的解决方案,在语音领域,这个方案还是最靠谱的,现有的多模态大模型对人类语音的识别和合成效果都不是很好。

语音对话响应延迟仅为0.5秒,这是真人很难达到的延迟,真人的延迟一般在1秒左右,比如我们现有的语音聊天产品,语音对话延迟可达5到10秒,所以大家觉得效果很神奇。

这个效果实现起来难吗?其实我们现在可以利用开源的解决方案,实现语音对话响应延迟小于2秒,还包括实时视频理解。

我们先不考虑视觉部分,只看语音部分。语音通话中,接到语音后,先做停顿检测,如果发现用户说完了,再把这段音频送去语音识别。比如说,停顿检测在人声结束后等待0.5秒,然后语音识别大概需要0.5秒。

然后送到文本模型去生成。使用开源模型生成速度其实很快,比如最近很火的 8x7B MoE 模型,输出第一个 token 只需要 0.2 秒,每秒输出 50 个 token 是没问题的。所以假设第一句话有 20 个 token,那么需要 0.4 秒。第一句话生成之后,再交给语音合成模型去合成语音,VITS 只需要 0.3 秒。

加上0.1秒的网络延迟,端到端延迟仅为1.8秒,远优于市面上大部分实时语音电话产品,例如语音通话的延迟为5到10秒。另外,我们的方案在停顿检测和语音识别的延迟方面仍有优化空间。

我们来看看演示的视频理解场景。

因为我们现在的多模态模型的输入基本都是图片,而不是流式视频,所以我们首先需要把视频转换成图片,并捕捉关键帧。比如说,如果我们每 0.5 秒捕捉一帧,那么平均会有 0.3 秒的延迟。图片可以直接送入 GPT-v2 或者 Fuyu-8B 等开源多模态模型。但由于这些模型比较小,实际效果并不是很好,和 GPT-4V 的差距还是比较大的。

因此,我们可以采用传统 CV 与大型多模态模型相结合的方案,利用 Dense 技术识别图片中所有的物体及其位置,再利用 OCR 识别图片中所有的文本。然后把 OCR 结果和 Dense 的物体识别结果作为原图的补充文本,输入到大型多模态模型(如 -v2 或 Fuyu-8B)中。对于菜单、手册等图片,OCR 的作用非常重要,因为单靠大型多模态模型往往无法清晰地识别大段的文本。

这个识别图片中物体和文字的步骤,额外增加了0.5秒的延迟,但是如果我们把延迟分解来看,会发现视频部分完全不是瓶颈,只有0.9秒,而语音输入部分才是瓶颈,需要1.1秒。在这个演示场景中,从看到视频到AI文字输出,只需要1.3秒,从看到视频到AI语音播放,只需要1.8秒。虽然没有演示视频的0.5秒那么爽,但已经足以打败市面上所有的产品了。这里用到的模型全部都是开源的,不需要训练,如果公司有能力自己训练和优化模型,想象空间会更大。

演示视频分为生成文字/语音和生成图片两个任务,生成图片时可以调用或者使用最近发布的基于文字的LCM模型,生成图片只需要4步甚至1步,生成图片的时延最短可以到1.8秒,从看到图片到生成图片的端到端时间只需要3.3秒,也是非常快的。

好看的皮肤:多模态生成能力

语音克隆是制作明星或动漫游戏角色的重要技术,目前效果最好,但API非常昂贵,XTTS v2等开源解决方案合成语音相似度不高。

我认为如果想要达到很好的语音克隆效果,还是需要依靠大量的语音数据进行训练。但是传统语音训练所需要的数据一般对质量要求非常高,必须是录音棚里录制的清晰、吐字清楚的语音数据,因此收集语音数据的成本非常高。但是我们又不能要求明星亲自到录音棚为我们录语音,只能使用公开视频中的声音进行训练。语音往往是采访的形式,多人说话,背景有噪音,明星说话时可能会结巴,说话不清晰。如何用这样的声音来训练语音克隆呢?

我们基于 VITS 构建了语音克隆流水线,可以自动区分视频中的人声和背景噪音,将其拆分成句子,识别说话人,过滤出信噪比较高的语音作为我们想要的人的声音,然后识别文字。最后将这些清洗过的声音和文字送去进行批量微调。

微调的过程也是很有技术含量的,首先微调的基础语音需要比较相似,比如男生的声音如果基于女生的声音进行微调,效果肯定不好。如何从语音库中找到相似的声音进行微调,就需要一个音色相似度检测模型,类似声纹识别模型。基础语音模型中已经包含了大量不同音色的人的优质数据,所以在克隆语音的时候,往往可以从语音库中找到非常相似的声音,这样就不需要微调就可以 zero-shot 生成好的声音了。

其次,在VITS训练过程中,我们不能仅凭简单的loss来判断收敛,过去只能靠人耳来听哪个epoch效果最好,这需要大量的人工劳动。我们开发了音色相似度检测模型和发音清晰度检测模型,可以自动判断哪个语音微调效果更好。

(注:此报告于2023年12月做出,目前GPT-路线比VITS更好,可以实现零样本语音克隆,不再需要采集大量优质语音进行训练,终于接近开源模型可以合成的语音质量水平。)

很多人以为不需要自己开发语音合成模型,直接调用云端的API就可以了。

但该 API 价格非常昂贵,如果按照零售定价,每 1K 字符需要花费 0.18 美元,按照每个 token 4 个字符计算,相当于 0.72 美元/1K,比 GPT-4 Turbo 贵了 24 倍。虽然效果不错,但如果大规模使用 to C 产品,这个价格实在难以承受。

Cloud 的语音合成 API 不支持语音克隆,只有少数固定声音,所以无法克隆明星声音,只能做个冷冰冰的机器人直播。但即便如此,成本也比 GPT-4 Turbo 贵 1 倍,也就是说成本的绝大部分不是花在大模型上,而是花在语音合成上。

或许是因为语音开发难度较大,很多to C产品选择只支持文本,但实时语音交互的用户体验显然更优。

基于 VITS 虽然很难达到语音同等质量,但基本还是可以用的。自己部署 VITS 的成本只有 $0.0005/1K 字符,是 Cloud TTS 价格的 1/30,是 Cloud TTS 价格的 1/360。这个 $2/1M 语音合成成本也跟自己部署一个大型开源文本模型的成本差不多,所以文本和语音的成本都降低了。

因此,如果真想让语音成为用户体验的一大加分项,那么基于开源开发自己的语音模型不仅是必要的,而且也是可行的。

我们知道图像生成现在已经比较成熟,而视频生成在2024年会是一个非常重要的方向。视频生成不只是生成素材,更重要的是让每个人都能轻松成为视频内容的创作者。而且每个AI数字化身都有自己的形象,都可以通过视频进行交流。

典型的技术路线有3D模型、Image、Video等。

它是一项很古老的技术,而且不靠AI也可以用,比如很多网站的海报女郎就是用这个技术做的,一些动漫游戏也是用这个技术做的。优点是制作成本低,比如一套皮衣,1万元就可以在一两个月内做出来。缺点是只能支持指定的二维人物,没有办法生成背景视频,也不能做出皮衣范围以外的动作。作为AI数字化身的形象,最大的挑战是如何让大模型输出的内容和人物的动作、唇形保持一致。唇形保持一致比较容易,很多皮衣都支持,就是让音量和唇形保持一致。但是要让动作保持一致就相对复杂了,大模型需要在输出中插入动作指令,告诉模型要做出什么动作。

3D模型和3D模型类似,也是很古老的技术,是二次元和三次元的区别。大部分游戏都是用3D模型和Unity等物理引擎制作的。如今数字人直播中的数字人一般都是用3D模型制作的。目前AI很难自动生成3D模型,这就需要对基础模型进行改进。因此AI能做的就是在输出中插入动作提示,让3D模型在说话的同时做出指定的动作。

、Image和Video是通用视频生成的三种不同的技术路线。

就是录制一段真人视频,然后通过AI把视频中的人脸替换成指定的人脸照片。这种方法其实是基于上一代深度学习的方法,从2016年就已经存在了。现在经过一系列的改进,它的效果是很好的。有时候我们会觉得现在的真人视频和我们想要表达的场景完全不一样,比如游戏中的场景。其实因为我们可以利用世界上所有的视频素材,所有的电影片段,甚至是抖音上用户上传的短视频。在AI学习到这些视频的内容,对视频进行文字总结和注释之后,我们总能从海量的视频库中找到一段我们想要的视频,然后把视频中的人脸替换成我们此时指定的人脸照片,可以达到很好的效果。其实这个跟现在短视频中比较常用的混合剪辑技术有点类似。

Image,比如最近比较火的阿里通易千闻或者字节魔法,其实就是拍一张照片,然后根据照片生成一系列对应的视频。不过这种技术的缺点是目前可能还不能做到实时的视频生成,而且视频生成的成本比较高。但是Image可以生成大模型指定的任意动作,甚至还可以给图片填充背景。当然,不管是Image还是Image生成的视频,都不是完全准确的,有时候可能会有误差。

我认为视频是一条更加终极的技术路线。虽然现在这条路线还不够成熟,例如 ML 的 Gen2、PIKA Labs 都在探索这个领域。(注:这篇演讲是 2023 年 12 月,那时 Sora 还未发布。)我们认为端到端生成视频可能是未来的一个终极解决方案,可以解决人和物体的运动、背景生成等问题。

我觉得视频生成的关键是对世界有很好的建模和理解。我们现在的很多生成模型,比如ML的Gen2,其实对物理世界的建模有很大的缺陷。很多物体的物理规律、物理性质都无法正确表达,所以生成的视频一致性也较差,稍微长一点的视频就会有问题。同时,即使是很短的视频也只能生成一些简单的动作,没有办法对复杂的动作进行正确的建模。

另外成本也是一个很大的问题,现在视频的成本是所有这些技术中最高的,所以我觉得视频是2024年一个非常重要的方向,我相信只有视频效果足够好,成本大大降低,每一个AI数字分身才能真正拥有自己的视频形象。

有趣的灵魂:个性

刚才我们讨论了外观好看,包括如何让AI Agent理解语音和视频,如何让AI Agent生成语音和视频。

除了好看的外表,有趣的灵魂也同样重要。其实我觉得有趣的灵魂是目前市面上的AI Agent差距比较大的地方。

例如,以此屏幕截图中的AI为例,当今市场上的大多数主要AI代理都使用GPT或其他开源模型,即所谓的外壳定义字符设置并编写一些示例对话,然后大型模型基于这些特征设置和样本对话。

但是,我们认为,只有几千个单词的书才能完全描绘一个角色的历史,个性,记忆和角色?

实际上,除了基于数据的方法外,我们还基于微调代理人来建立角色个性,我可以根据特朗普的30,000条推文来培训数字特朗普。

例如,图片中提到的三个问题是:“您想与埃隆·马斯克(Elon Musk)交换生活吗?”,“您会在2024年竞选总统吗?”

左边的图片来自AI,其说话风格有点像特朗普,但右边的图片并不完全相同。

但是他的演讲非常特朗普,他经常提到一些有趣的故事。

我们提到了两个解决方案,因此,有些人可能会询问特朗普的30,000条推文,这是符合特朗普的方式,特朗普也可以理解这30,000个the of of of Trume。 。

基于微调代理,相当于我只使用1%的重量来保存这些特朗普的推文,也就是说,当节省这1%的体重时,它实际上会消耗数百个MB的记忆,并且每个推理都需要加载和卸载的理由,即使使用了一些优化的解决方案,这是一定数量的重量。 ING增加了将近一倍。

在这里,我们必须进行一些计算:基于微调的方法,我们还可以保存其KV缓存,因为有100万个代币,假设Llama-2 70b之类的模型,包括默认的GQA优化此外,输出每个令牌所需的计算能力与上下文长度成正比。

因此,以外行的方式更具成本效益,使人的整个历史都在桌子上分布在桌面上,因此,注意力机制将每次都在线性地搜索所有内容。在30,000个推文中,大型模型的重量,因此信息提取的效率将更高。

微调的关键是我知道Zhihu上有一个著名的说法:只有有问题,现在AI基本上要求人们创建很多问题和答案。

例如,如果我的网页无法直接使用多个角度的问题,然后将其组成。 。

实际上,我们的许多同事都应感谢Zhihu?

我们用来罚款的语料库可以大致分为两种类型:对话语料库和事实语料库。对话语料库包括第一人称。

因此,我们在第一步中使用两个步骤的方法,我们使用对话语料库来罚款他的个性和说话风格。

我们不是使用Llama-2聊天或这样的一般聊天模型作为基本模型,因为这些模型不是为现实生活中的对话而设计的,而是为这种智能助手而设计的;

有趣的灵魂:当前的差距

有趣的灵魂不仅仅是上面提到的良好的记忆和个性,但是还有许多深层的问题。

例如,我在AI上与Musk聊天。

一个真实的人不仅可以记住以前谈论过的问题,而且不会产生重复的答案,如果您五次提出同一问题,您仍然会生气。

此外,如果您在AI上问Musk,您还记得我们第一次见面吗?

它会随便做一个,这不仅是一种幻想,而且还反映了AI缺乏长期记忆。

现在,有些平台改进了此功能。

此外,您在AI上问Musk“您是谁”,有时说这是GPT,有时说这是特朗普,而且不知道它是谁。

实际上,API甚至会阻止GPT的关键字。

有人说,这是因为互联网上的语料库被大量的AI污染。

此外,还有许多深层的问题,例如对AI代理人说:“我明天要去医院”,因此,如果他会主动地关心您的医生的结果,并且多人可以正常聊天而不互相抓住,每个人都会说,如果您是一半,他会等待您的许多类似的问题。

AI代理还需要能够与其他代理商进行社交

有趣的灵魂:思维缓慢和记忆

要解决这些问题,我们的思维是一个缓慢的想法。

我们可以思考人类如何感受到时间的流逝?

人类的记忆只能记住7个原始数据。

人类思维基于基于语言的“简单历史”认为,语言的发明是人类最明显的迹象,因为只有复杂的语言才会变得复杂。

如果我们不在大脑中说,就像大型模型链(思维链)一样,这是思考的中间结果。

缓慢的思维包括许多组件,包括记忆,情感,任务计划,工具使用等。我们专注于有趣的AI部分中的记忆和情感的两个部分。

第一个问题是长期内存。

实际上,我们应该很高兴地帮助我们解决短期内存的问题。

但是内存是由上下文长度限制的。

如何丢失背景历史以外的历史?

第一个路线的支持者认为,长上下文是一个更简单的解决方案,依靠法律,如果长上下文模型做得很好,您可以记住输入信息中的所有细节。

尽管长篇小说是有效的,但成本仍然太高,因为成本与上下文长度成正比。

有些人会说,进入代币是昂贵的。问题将具有新的解决方案。

在当前的技术条件下,我认为长期内存是信息压缩的问题。

目前,对大型模型的记忆是聊天历史,而人类记忆显然无法以聊天历史记录起作用。

一个人的真实记忆应该是他对周围环境的看法,不仅是他人说的话,而且他当时的想法推断了当时的心情,这可能每次都不同,而且可能不一致。

长期内存可以做很多事情。

事实记忆中也有许多解决方案,例如摘要,抹布和长篇小说。

摘要是最简单的信息摘要。

每个人最熟悉的事实解决方案可能是RAG()搜索相关的信息剪辑,然后将搜索结果放在大型模型中,因此大型模型可以根据搜索结果来回答问题。

前面提到的是,如果ENT的记忆如此好,那么您可以清楚地记住一年前吃的东西,这似乎不是正常的吗?

这三种技术不是相互排斥的。

程序记忆,例如个性和说话风格,我认为很难单独解决它。

在这里,我们谈论了一种简单有效的长期内存解决方案,这是文本摘要和抹布的组合。

原始的聊天历史记录是根据某个窗口汇总的,然后生成每个聊天记录的文本摘要,以避免段落的段落丢失,可以将上一个聊天记录的文本摘要提供给大型模型。

当抹布时,向量数据库与倒置索引相结合。

如果它仅生成每个聊天记录的摘要,它将首先引起两个问题,每个聊天记录的摘要都不包含用户的基本信息,但该信息的此部分是非常关键的部分。

因此,根据细分摘要,我们将使主要模型的主题主题和全局用户记忆摘要的分类摘要。

全局内存摘要是一个不断更新的全局摘要,包括用户,爱好和个性特征的基本信息。

大型模型的输入包括字符设置,最近的对话,全局内存摘要以及通过RAG聊天记录的分割和分类摘要。

现在,AI代理对每个用户的内存都是孤立的,因此当您社交时,许多问题会遇到许多问题。

例如,爱丽丝告诉AI的知识,当AI与Bob聊天时,它现在一定不知道这些知识。

因此,应该有一个社会规则的概念。

Ai ,AI代理,AI还,多,个,社交社交社交社交能够创作者创作者创作者创作者创作者的的的的的创作者创作者创作者创作者创作者的的从从从从从从从从从从从从从从从从指示同同同同同的的的的的的的塑造代理的,就,就就养电子宠物。

例如,如果聊天不好,我告诉她不要这样做,她应该记住她将来不会做到。

记忆不仅是记住知识和过去的互动经验。

为什么我们对当前模型没有自我意识?

在当前的API中,大型模型的输入是聊天记录和最近的用户输入。

大型模型的所有输出都直接返回给用户,并将其添加到聊天历史记录中。

因此,这种观看聊天历史的方法缺乏我们自己的想法。

我发现许多人每天都在研究工程,但是很少有人试图以自我回归模型的输入和输出形式制作文章。

为了使模型的思维方式最重要的是,将思维的剪辑和外界的输出分开,以进入自我回归模型的代币。

我们还应该注意,当前的API模型本质上是一批处理方法,并且每个API呼叫都不是要带来所有以前的聊天记录并重复所有KV缓存。

如果AI代理人作为一个实时与世界互动的人,实际上,它在流中心中不断接收外部输入令牌。

那么,我认为工作记忆最重要的是AI对自己的看法,而AI对用户的看法是必不可少的。

早在2018年,我们就基于RNN的旧方法建立了一个情感系统,并且我们使用矢量eq表示用户的状态,例如用户的主题,用户的意图,情感状态以及年龄,性别,利益,利益,占领,占领,基本信息,性别,性别,性别,性别,性别,职业,人格,人格和其他基本信息。

这样,尽管与当今的大型模型相比,语言模型的能力很弱,但它至少可以回答“您多大的年龄”。

如今,许多AI代理在项目中没有进行这些优化,如果您没有清楚地编写AI角色的当前设置,就无法回答您的稳定年龄;

有趣的灵魂:社会能力

下一个问题是AI代理是否主动关心人。

对于AI,只要AI具有内部思维状态,即前面提到的工作记忆,然后自动醒来一次。

例如,用户说他第二天要去医院。

与之相关的一个是,AI代理是否会积极联系用户,以及是否需要主动来开始主题。

人类的话题是因为每个人都有自己的生活,并且渴望在好朋友面前分享。

除了分享个人生活外,还有许多开放主题的方法,例如:

当然,作为一个高度的情感代理,如果您必须关心它,则需要主动分享它。

我曾经有更多的情绪,我害怕被别人拒绝,因此我不敢追逐女孩,因此从来没有拒绝过这种情况。与用户的臀部。

AI代理如何关心人们以及如何开始主题是社交技能的一个方面。

狼人杀人的核心是隐藏他的身份,并知道其他人的伪装的身份。

这反映了AI在安全性和有用性中的矛盾,我们必须在评估大型模型时同时报告这两个指标。

有必要找到缺陷,并知道多个对话的谎言,这需要强大的推理能力。

此外,在投票会议中,如果大型模型仅输出播放器数量的数量,则通常是由思维深度不足引起的。

狼人杀人的AI特工是按顺序说的,抓住麦子没有问题。

实际上,有很多方法可以这样做。

但是我们有一种更基本的方式:使大型模型的输入和输出变成连续的令牌流,而不是像当前API一样输入完整的输入。

当我们将大型模型的输入和输出变成流线型时,大型模型将变成一种状态,即KV缓存需要长时间保留一个以上。

因此,您可以考虑持久性KV缓存,将KV缓存从GPU存储器传播到CPU存储器,并在下次进入令牌中加载KV缓存。

以这种方式的性能损失是输入新的输入上下文,并重新计算较低的KV缓存。

在大多数类似的情况下,用户和AI代理之间的交互不是真实的。

如果我们具有像Grace这样的统一内存体系结构,因为CPU内存和GPU之间的带宽很大,则持续性KV缓存的替换将较低。

但是,统一内存的成本高于主机的DDR内存,因此,对应用程序方案的真实时间性质会更加挑剔。

在上一页中,在多代理交互式解决方案中,它仍然依靠语音识别和语音综合来将语音转换为令牌。

为什么这种语音方案延迟了?

我们的尾声总是将声音识别为“翻译”,我以后不了解它,就像是在国际谈判会议上的翻译。

为了达到最终的延迟,需要末端 - 端语音模型,我认为末端 - 端语音模型是这种低潜伏期的最可行的解决方案。

除了减少延迟外,还有两个重要的优势可以结束 - 到端语音模型。

首先,它可以识别并综合任何声音,还包括唱歌,音乐,机械声音,噪音,因此我们可以将其称为“末端 - 末端声音模型”,而不仅仅是一个大的语音模型。

,,,端端/文字减少文字文字文字信息丢失。例如在的的的语音语音识别语音语音语音语音语音的语音语音识别出出的的的文字会文字会说话人说话人的的情感和情感情感情感情感情感带有情感情感,一般一般需要在大模型输出进行进行标注标注,再适当适当适当适当,再再再再训练训练训练语音模型来来根据标注标注标注生成生成生成不同不同的的的情感和语气有名词,语音语音的和语音的都能显着显着

有趣:性格匹配匹配‍

在结束有趣的AI 部分之前,我们来思考最后一个问题:如果我们的AI Agent 是一张白纸,比如我们做一个智能语音助手,或者我们有好几个AI 形象需要匹配最合适的,那么他/她的性格是跟用户越相似越好吗?

市面上上侣的的问卷是一些主观主观客观的,根据根据网络的公开来推测性格和和和和,然后

我我把熟悉的一些的交给交给大大,什么问题呢

首先,社交社交上的信息一般包含的是每个人人中的的,但的一一的一一不不包含不包含其中其中负面负面一的一。。就《镜跟的的完全完全。。我算是比较比较分享的,博客里面我我我我里面里面里面里面里面里面里面里面里面里面里面里面里面里面里面里面里面里面里面里面里面里面里面负面情绪负面情绪也如果如果如果如果如果

其次,性格性格兴趣个维度是是是,有的重要性重要性,有的有的有的一一个个不不不匹配匹配就可能抵消抵消抵消抵消抵消了很多了很多很多很多很多很多很多其他其他其他其他其他其他其他其他其他方面就是是相似的都是比较比较匹比较匹比较匹比较比较配不是最匹配匹配。。(判断/感知)最最好是的。

MBTI里面最的一一维度个维度维度/n(/直觉)天天思考的。这张性格配图里面最不匹配的基本上基本上基本上是都都都是都都

因此,ai ai代理如果如果伴侣形象形象的的

我个个实验,把把把熟悉的的公开公开交给交给

第一,前面前面过,这这测试机制机制有机制测试机制测试测试的的并一定一定适合在一起在一起在一起。,比读,人还还还这个本事,只这个本本这个直觉直觉直觉大概匹配,再匹配匹配一下一下

大模型为了的的,用了,用人社交网络网络网络,经历相似,不不个人个人绝对是两个两两两,并个两两两

ai甚至甚至为我们实际中很难的完美完美伴侣形象。但是沉迷于这样沉迷于的这样的的虚拟虚拟伴侣是是是是一一一一件件件件件件好好件了自己的,那可能用户会强更,但就会会更会是不不是是就成了?生命??数字数字生命

人的圈子圈子圈子之间的就像的伴侣一样一样可遇不可求遇不可求

大模型文明文明的相遇?因为信息可能比物质物质更容易传播传播到到宇宙宇宙宇宙宇宙宇宙深深深深深深深处处。深深处处处我处处。。。。我我我。我我我我我我我宇宙宇宙宇宙宇宙宇宙宇宙宇宙宇宙宇宙深深宇宙深深深深深深深深年我我

有用有用ai

前面讲多有趣有趣ai,下面下面来聊聊的

有用的AI 其实更多是一个大模型基础能力的问题,比如复杂任务的规划和分解、遵循复杂指令、自主使用工具以及减少幻觉等等,并不能通过一个外部的系统简单解决。比如GPT-4 的幻觉就比GPT-3.5 少很多。区分哪些问题是模型基础能力问题,哪些问题是可以通过一套外部系统来解决的,也是很需要智慧的。

其实有一篇很著名的文章叫做The ,它讲的是凡是能够用算力的增长解决的问题,最后发现充分利用更大的算力可能就是一个终极的解决方案。

law 是最重要的发现,但是很多人对law 还是缺少足够的信仰和敬畏之心。

AI 是干活快但不太靠谱的初级员工

在当前的技术条件下我们能做一个什么样的AI 呢?

要搞清楚大模型适合做什么,我们需要先想清楚一点:有用AI 的竞争对手不是机器,而是人。工业革命里面的机器是取代人的体力劳动,计算机是取代人的简单重复脑力劳动,而大模型则是用来取代人更复杂一些的脑力劳动。所有大模型能做的事情,人理论上都能做,只是效率和成本的问题。

因此,要让AI 有用,就要搞清楚大模型到底哪里比人强,扬长避短,拓展人类能力的边界。

比如,大模型阅读理解长文本的能力是远远比人强的。给它一本几十万字的小说或者文档,它几十秒就能读完,而且能回答出90% 以上的细节问题。这个大海捞针的能力就比人强很多。那么让大模型做资料总结、调研分析之类的任务,那就是在拓展人类能力的边界。 是最强的上一代互联网公司,它也是利用了计算机信息检索的能力远比人强这个能力。

再如,大模型的知识面是远比人广阔的。现在不可能有任何人的知识面比GPT-4 还广,因此已经证明,通用的是大模型一个很好的应用。生活中的常见问题和各个领域的简单问题,问大模型比问人更靠谱,这也是在拓展人类能力的边界。很多创意性工作需要多个领域的知识交叉碰撞,这也是大模型适合做的事情,真人因为知识面的局限,很难碰撞出这么多火花来。但有些人非要把大模型局限在一个狭窄的专业领域里,说大模型的能力不如领域专家,因此认为大模型不实用,那就是没有用好大模型。

在严肃的商业场景下,我们更多希望用大模型辅助人,而不是代替人。也就是说人是最终的守门员。比如说大模型阅读理解长文本的能力比人强,但我们也不应该把它做的总结直接拿去作为商业决策,而要让人一下,由人做最终的决定。

这里边有两个原因,第一个是准确性问题,如果说我们之前在ERP 系统里面做一个项目,回答这个部门过去十个月平均工资是多少?让它生成一个SQL 语句去执行,但是它总有5% 以上的概率会生成错,通过多次重复也仍然有一定的错误率,用户不懂SQL,在大模型把SQL 写错的时候也没法发现,因此用户没办法判断生成的查询结果对不对。

哪怕有1% 的错误率,这个错误率还是不能忍受的,这就很难商用。

另外一个方面,大模型的能力目前只是达到一个入门级的水平,达不到专家级。华为的一个高管给我们开会的时候就有一个很有意思的说法:如果你是领域专家,你会觉得大模型很笨;但是如果你是领域的小白,你就会发现大模型非常聪明。我们相信基础大模型一定会进步到专家级,但是现在我们不能坐等基础大模型的进步。