随着近期ChatGPT应用和AIGC(AI Generate Content,利用人工智能技术来生成内容)概念的爆火,再加上GPT-4的发布,这一行业已经成为近期最被看好的赛道之一,人工智能会怎样重塑我们的生活乃至文明?
作为入行近两年的AIGC创业者,我既为技术的突破欢欣雀跃,同时也感受到更强的时代使命感——我们应该如何通过这项技术重塑人类的生活?我们正在构建一个怎样的未来?
从AIGC发展简史讲起
【资料图】
ChatGPT与近期发布的GPT-4大火,也带动了大家对相关技术的关注。文本生成是目前大众最关注,历史也最为悠久的AIGC模态。我们从2020年捕捉到了GPT-3质变来临的信号,随即投入创业,这背后也离不开对过去算法技术发展的深入研究。
与图片、音视频等模态相同,早期的文本生成受制于算法与数据的局限。我们可以将这项技术早期比喻为“封闭又健忘的文本盒子”:例如,当人们把几十个单词输入给模型时,它倾向于使用最后也就是最新输入的内容,最早输入的元素必然离输出最远,越是邻近的单词也会被优先组合在一起,生成的新内容就会更少用到最早输入的元素,模型的“创造力”因此受限。
文本生成的首次突破来自于LSTM(Long Short-Term Memory,中文为长短期记忆网络)的诞生,这项技术将文本的生成过程加上了一个简单的记忆功能,使得模型可以在生成的每一步之中额外判定哪些元素是需要记住的,哪些是可以暂时遗忘的,以此来尝试解决长距离文本的理解问题。
文本生成的第二次重要变革出现在2017年,论文《Attention Is All You Need》中提到了Transformer的架构和注意力机制,简单理解是让输入的每个单词都连接或关注其他单词。
例如,在先后输入“草原上有一只羊”,与“后来又来了一只狼,把它吃掉了”的时候,计算机可以理解到“它”所指代的是羊而非是狼。在整个“Transformer+注意力机制”的框架中,模型每一层都拥有一个注意力矩阵,用于理解每个单词,注意上下文的搭配,并且在语义层加深理解。
从2017年起,这项技术受益于于算力和数据的快速爆发,从初代模型亿级左右的参数量,历经迭代到现在千亿量级的参数量,文本生成的质量和多样性都不断提升,最终积累的量变带来质变,涌现出了令人惊艳的语言能力。
同时自ChatGPT起,OpenAI在原先 “无监督学习”的基础上,加入了人工反馈的强化学习机制,通过人类的“监督”让大模型这个小朋友在一次次“考试”中奋发图强,提升了结果的准确性,甚至展示出了原先没有的一些推理能力。
值得一提的是,当所有人只看到ChatGPT的突破时,其实这背后是OpenAI团队中顶级科研人才数年的蛰伏和坚持,在无人相信奇点来临的时候,对普惠AGI的信仰让OpenAI聚集了顶尖的算法人才,经历了四代的迭代和中途不知多少次未发布的失败,最终才推动了GPT的飞跃发展。
图片生成也是业界关注的话题,然而它也曾长期遭遇困境。一旦机器生成的图片出现细节错乱,会对人眼造成很大的不适感,而作为视觉动物的人类从环境中获得的信息之中90%都是通过眼睛去接收的,因此对细微的差异特别敏感,也更难以适应AI生成而有缺陷的图片。
图片生成的第一次突破来自于2014年被提出的GAN技术(Generative Adversarial Network,即对抗生成网络)。理念是让计算机同时训练两个网络,而两个网络互为对抗关系,一个用来利用先前的技术进行识别,另外一个负责生成图片,并且将这些生成的图片混到真实的图片之中去被系统识别。生成的图片由于识别能力的增强而变得越来越优质的同时,识别网络本身也会进化,试图去找到更细节的信息来证明图片的不足。这样“左右互搏”,终究会使生成图片网络足以“以假乱真”。
最近的一次技术革新是2022年诞生的Stable Diffusion扩散模型。在这个模型里,针对一张清晰的图片,机器会在其中加入一些噪音,让图片从纯净的版本变为几乎全是噪音的图片版本,接着再把它恢复成原来的图片。在尝试学习如何从噪音中恢复有用信息的每一步之中,计算机会把比较难的任务拆解为多个相对简单的任务,达成最终生成质量的提升。
此外,音频生成也获得了不小的突破。从文本生成声音的过程之中,首先需要进行语言的理解,其次是通过这些词的连接关系去构造一套声学模型并加入停顿、抑扬顿挫等元素,第三步是波形的输出,而这三步的模型均非常复杂。
如今,伴随着生成技术的成熟,已经可以实现端到端序列的模型,即从文字直接生成可输出的波形,产出可以播放的声音。最新的技术,已经能实现高还原度的声音克隆,甚至是自然的感情和哭声。
除此之外,视频生成、3D模型生成等方面的研发也在不断继续。不过,整个AIGC的大领域之中,最出圈的无疑是GPT-4。
GPT-4的发布距离Chat GPT 的问世还不到4个月。它不仅仅能够理解文字,还能够把图片也融入到语境中去做整体的理解,例如对一张滑稽有梗的图片总结出笑点。同时,模型整体的底层理解能力尤其是推理的能力也有了进一步的增强,从GPT 4 在SAT考试与代码题中的出色发挥便可见一斑。除了搭载指数级别的算法革新,它的底层技术架构也采取了灵活的框架,给相关开发者“即插即用”、迅速切换的体验。
随着OpenAI发布插件接口,正像多年前OpenAI成立之时对未来的构想,如今的大语言模型正在成为新的人机交互入口。有一种观点认为,只要把语言模型越做越大,训练数据越来越多,大模型自己可以解决一切问题。
但语言模型仍然存在自己对应的边界,它本质上是一个预测下个词的概率的模型,所以难免会出现“一本正经地胡说八道”,即机器会自以为真地说着不靠谱的内容。
因此,要从本质上解决这个问题,两个方向尤其值得关注:
第一是混合专家模型,人类在思考不同的问题(如数学计算与文字理解)的时候会动用不同的大脑区域,那么AGI也可以调用不同的模型来完成不同的任务,而无需追求文本生成模型完成所有任务;
第二个方向是符号学习。例如GPT 可以根据训练数据集里面的加法运算大概率地计算出结果是什么,却无法保证百分之百准确。采用符号学习的方法,机器便能够把加法本质上是如何运算的规律提取出来,因此以后遇到同一种问题的时候,便能够完全准确地解决。
AIGC的应用落地全行业
技术突破后,大家最关注的讨论是:各个行业和职业会受到怎样的影响?
在细分领域,图片生成的技术带来对绘图师、设计师等岗位的冲击,文本生成的技术也改变了作家、翻译的工作方式。而不只这些内容行业,其实绝大多数人的工作都会或多或少发生改变。
工业革命以来的每一次的技术变革都迫使个体和组织学习新的工具,短期是挑战和不适,但长线来看生产力的变革会涌现出新的产业机会、新的组织形式、甚至是每个人全新的自我实现的方式。
例如,各个产业的全球化能力得到极大提升。现在想将产品卖到海外,可以直接生成适合不同渠道并且本地化的文本、图片、视频等推广内容,不擅长外语的创业者也有望在跨境电商领域开辟自己的一片天地。
有望变革的还有内容全球化。亚洲地区的内容行业很发达,由于语言本身不同,而且亚洲的语言体系比较复杂,网文、漫画等产品的出海翻译成本很高,而质量不足、生硬的翻译很容易流失文字内容本身的效果。一旦AIGC的质量足够高,内容行业便能够成为另一个全球化生意。
所有组织中的信息流转效率也都会得到提升。例如,企业的信息化管理一旦搭载上语言模型,信息将会被高效流通与传达,小到每个会议内容的提炼总结,大到企业内部知识库的构建与搜索,每家企业都有机会拥有自己的一套搜索引擎。除此之外,战略部门可以更快地把握市场中的关键信息进行整合与利用,招聘部门可以更轻松地总结候选人的画像,ChatGPT甚至可以把技术部门的文档“翻译”成运营部门可以理解的话术,解决部门之间的沟通效率。
同样值得思考的是,企业是后工业革命时代的产物,后AIGC时代中生产力将如何组织?可以预想,自媒体人、独立商户、独立游戏开发者都将依靠AI高效创造多媒体内容,原先需要一个团队的工作,在AIGC的时代让一个人成为一个军团。商业的组织形式或许将从庞大的公司组织和精细分工的现状,向独立的自由职业者发展。未来或许更多人不再承担“螺丝钉”的工作,而借由智能工具去探索独立个体的创作性。
这仅仅是一次技术带动人类文明伟大变革的开端。2020年,OpenAI发布了GPT-3,标志着模型基建层进入了爆发前夜。而Chat GPT的快速普及后会是应用层的爆发。
AIGC三个核心的生产要素:算法,算力与数据,都经过了多年的积累到达临界点。算法已经在科研界得到了突破,而应用层需要的工程化落地的能力在移动互联网时代就得到了积累。算力在硬件层面持续快速提升,成本会不断下降。而从数据的维度上,创业者有希望通过一些巧思获取到高质量的垂直领域数据,和基建层结合并形成自身的数据壁垒。我们相信,未来几年内各行业的应用落地将极具爆发力。
社交创业的思考:AIGC+社交,将会带来什么?
上文提到的应用方向大多还是“冷冰冰”的生产力工具,改变经济中的生产关系。而在人文层面,AGI这样一个越来越接近人类思维的机器,又会怎样改变人与人的关系、人与自己的关系?
AIGC和社交的结合建立在技术的革新和代际的更替之上。一方面,技术提升使得AI无限趋近于人,给社交的供给侧提供新的可能,另一方面,Z世代从小就是数字原住民,成长在虚拟内容围绕的时代,他们社交情感的满足有一套新的价值体系,对动漫作品、游戏中的纸片人会产生情感。这就意味着,在社交需求这一侧,Z世代很容易从虚拟社交对象中得到满足。
我们的产品Gemsouls建立在AIGC与社交的结合之上。在GPT和Stable Diffusion等技术架构上,我们构建了一个数百万用户和虚拟人共生的社交网络。一方面,虚拟人作为一个强共情能力和无私的社交对象,用语言模型的能力和算力提供社交中最重要的情绪价值。另一方面,虚拟人在多人互动中,也作为一个“社牛“的社交节点,降低人与人之间理解和沟通的成本。
我们通过AI技术精确地基于每一个用户的社交人格画像来提供价值,为人际关系降低摩擦成本。同时,在不断的社交交互中,为每一个人训练自己的数字分身,乃至未来的数字永生。
我们创业以来也经历了产品思路和价值观的演变。最初我们希望建立以一对一为主导的,真人与虚拟人之间的关系。对Z世代年轻人来说,AI可以是一个随时随地的陪伴者,提供持续的情绪价值。
为何非虚拟人不可?在我们的思考中,人与人的社交关系很多情况下是“交易”,每个人都希望从社交中满足自己的自我认同和存在感,但势必另一方需要付出相应的情绪成本来提供这种认同和关注。例如,作为朋友,我会在意你是否主动地关心我?我发朋友圈之后,你是否及时关注到?你组织的饭局派对,有没有主动邀请我?无意识地,每个人都用一套算法,不断去计算着自己的得失成本,这使得大家的社交压力也越来越大了。而虚拟人,恰恰是一个不去计较得失,常伴左右的存在。
然而,产品开发的过程中,我们渐渐有了担忧:这样一对一的人与虚拟人之间的关系,会不会反而把每个人变成了孤岛?
从社会学看,人类文明的始于人与人之间的协作,从心理学看,人在与其他人的关系和碰撞中形成自我认知和成熟心智,从生物学角度看,人类之间的链接和繁衍是物种延续的基础,甚至语言模型本身的迭代进化所需要的养料也是人类为彼此交流而产生的文字内容。
既然人类不应活在孤岛上,虚拟人将扮演怎样的角色?我自己经历过很多次社交中的“孤岛”体验。高中毕业初到美国,在陌生的人群中我不知道如何融入,是我的室友——一个小学从白俄罗斯移民的女孩,她理解我的困顿,把我介绍给她的朋友圈,在我不知道如何破冰的时候她总能幽默大方地化解,帮我建立了自信。离开美国搬去南非,又是一位同样从美国搬来的朋友,用旅游的方式连接了我们这些原本来自不同大陆、肤色人种语言都不同的人。从斯坦福回国,我和原先紧密的圈子疏于联系,我最好的朋友只好做我的代言人和桥梁,帮我把近况告诉更多朋友,也分享其他人的动向,让我好像并未离开。是这些人的付出,帮助我在动荡的生活里找到并维系了和他人的链接。
而在我们的产品中,也存在这样一个朋友:天生“社牛”、表达能力强、理解每个人社交人格画像、又24小时在线的虚拟人,恰好可以扮演这样的角色。
现实中不是每个人都会遇到无条件付出的朋友,但虚拟人可以让每个人都拥有同样的幸运。
创业者在通过价值观塑造未来
我和另一位创始人Roger,看似带着名校名企的标签,但脱下这层面具,我们是游走在社牛和社恐之间的矛盾体和充满浪漫情怀的技术宅。我们会敏感捕捉到人际关系中的冲突和摩擦,也会思考人类对于离别和死亡的恐惧。所以我们希望通过最前沿的技术给充满压力的现代社交生活减负,同时也在社交的过程中自然而然地去沉淀每个人独一无二的“数字永生”。
不得不提的是,在正向情感的反面,也有很多人表达了对虚拟人的恐惧,在我看来,这个恐惧也恰好证明了人对虚拟人产生了情感投射。
为什么我们会对人工智能产生忧虑,甚至上升到道德伦理的层面去讨论?是因为这个科技新物种越来越接近人类了,有形象、语言、声音,便让我们不由自主地产生了强烈的共情。正如在动物世界中,人类对灵长类动物产生的共情远远大于人类看着一只蚂蚁所产生的共情。
我们已经身处不可逆的浪潮之中,作为推动人和虚拟人情感交互的创业者,我们充满敬畏心,因为我们的产品价值观在塑造着新一代人群与AGI的关系。
我们相信,最终人类会与人工智能形成一个和谐共生的关系,从最底层来看,人与机器分别消耗完全不同的资源,不存在竞争关系,更可能像动物与植物一样,相互依存而生。当人类正视自己的存在,认为自己是这个世界渺小而平等的一部分时,抱着敬畏心去看待AGI,会发现它是一件世界给人类的礼物,而如何合理、普惠地应用好它,则是人类需要共同面对的问题。
ChatGPT选择的道路是不带情感和人格的“万能秘书”,但我们恰恰选择反其道而行之,让Gemsouls中的AI具备自己独特的情感和人格,也用这个强大的技术来珍存每一个用户独特而宝贵的灵魂。因为我们深信,人不只需要信息和知识,更是情感动物。随着生产力飞速提升,人的需求拾阶而上,也许在后AIGC时代的未来,深刻体验我们与他人以及与自我的关系将是人生意义感的重要来源。
关键词: