过去18个月,AI内容生成(AIGC)是无疑是硅谷科技创投圈内最火爆、最热门的话题。
DALL-E(2021年1月推出)
(资料图片仅供参考)
Midjourney(2022年7月推出)
Stable Diffusion(2022年8月推出)
这类2D生成式工具,能够在短短几秒内将文本提示(prompt)生成艺术风格的图片。随着这类2D AIGC工具的演化和进步,艺术家、设计师和游戏工作室的创作工作流正在被迅速颠覆革新。
AIGC的下一个突破口在哪?不少投资者和领域资深人士都给出了预测 — 3D数据生成。
我们注意到3D AIGC正在经历着2D AIGC曾经发展过的阶段。这篇文章中,我们将更深入地讨论AIGC在3D数据领域的新突破,以及展望生成式AI工具如何提高3D数据生成的效率和创新。
回顾2D AIGC的高速发展
2D AIGC的发展可以简单概括为以下三个发展阶段:
第一阶段:智能图像编辑
早在2014年,随着生成对抗网络(GAN,典型后续工作StyleGAN)和变分自编码器(VAE,典型后续工作VQVAE,alignDRAW)的提出,AI模型便开始被广泛运用到2D图片的智能生成与编辑中。早期的AI模型主要被用于学习一些相对简单的图像分布或者进行一些图像编辑,常见的应用包括:人脸生成、图像风格迁移、图像超分辨率、图像补全和可控图像编辑。
但早期的图像生成/编辑网络与文本的多模态交互非常有限。此外,GAN网络通常较难训练,常遇到模式坍塌(mode collapse)和不稳定等问题,生成的数据通常多样性较差,模型容量也决定了可利用数据规模的上限;VAE则常遇到生成的图像模糊等问题。
第二阶段:文生图模型的飞跃
随着扩散生成(diffusion)技术的突破、大规模多模态数据集(如LAION数据集)和多模态表征模型(如OpenAI发布的CLIP模型)的出现与发展,2D图像生成领域在2021年前后取得重要进展。图像生成模型开始与文本进行深入的交互,大规模文生图模型惊艳登场。
当OpenAI在2021年初发布DALL-E时,AIGC技术开始真正显现出巨大的商业潜力。DALL-E可以从任意的文本提示中生成真实和复杂的图像,并且成功率大大提高。一年之内,大量文生图模型迅速跟进,包括DALL-E 2(于2022年4月升级)和Imagen(谷歌于2022年5月发布)。虽然这些技术当时还无法高效帮助艺术创作者产出能够直接投入生产的内容,但它们已经吸引了公众的注意,激发了艺术家、设计师和游戏工作室的创造力和生产潜力。
第三阶段:从惊艳到生产力
随着技术细节上的完善和工程优化上的迭代,2D AIGC得到迅猛发展。到2022年下半年,Midjourney、Stable Diffusion等模型已成为了广受欢迎的AIGC工具。他们通过大规模的训练数据集的驱动,使得AIGC技术在现实世界应用中的性能已经让媒体、广告和游戏行业的早期采用者受益。此外,大模型微调技术的出现与发展(如ControlNet和LoRA)也使得人们能够根据自己的实际需求和少量训练数据来“自定义”调整、扩展AI大模型,更好地适应不同的具体应用(如二次元风格化、logo生成、二维码生成等)。
现在,使用AIGC工具进行创意和原型设计很多情况下只需几小时甚至更短,而不是过去需要的几天或几周。虽然大多数专业的图形设计师仍然会修改或重新创建AI生成的草图,但个人博客或广告直接使用AI生成的图像的情况越来越普遍。
除了文本转图像,2D AIGC持续有更多的最新发展。例如,Midjourney和其他创业公司如Runway和Phenaki正在开发文本到视频的功能。此外,Zero-1-to-3已经提出了一种从物体的单一2D图像生成其在不同视角下对应图片的方法。
由于游戏和机器人产业对3D数据的需求不断增长,目前关于AIGC的前沿研究正在逐渐向3D数据生成转移。我们预计3D AIGC会有类似的发展模式。
3D AIGC的“DALL-E”时刻
近期在3D领域的种种技术突破告诉我们,3D AIGC的“DALL-E”时刻正在到来!
从2021年末的DreamFields到2022年下半年的DreamFusion和Magic3D,再到今年五月的ProlificDreamer,得益于多模态领域和文生图模型的发展,学术界文生3D模型也得到了不少突破。不少方法都能够从输入文本生成高质量的3D模型。
然而这些早期探索大多数需要在生成每一个3D模型时,都从头优化一个3D表示,从而使得3D表示对应的各个2D视角都符合输入和先验模型的期待。由于这样的优化通常需要成千上万次迭代,因此通常非常耗时。例如,在Magic3D中生成单个3D网格模型可能需要长达40分钟,ProlificDreamer则需要数小时。此外,3D生成的一个巨大挑战便是3D模型必须具备从不同角度看物体形状的一致性。现有的3D AIGC方法常遇到雅努斯问题(Janus Problem),即AI生成的3D对象有多个头或者多个面。
但另外一方面,一些团队正在尝试突破现有的基于优化的生成范式,通过单次前向预测的技术路线来生成3D模型,这大大提高了3D生成速度和准确度。这些方法包括Point-E和Shap-E(分别于2022年和2023年由OpenAI发布)和One-2–3–45(2023年由加州大学圣地亚哥分校发布)。特别值得注意的是,最近一个月发布的One-2–3–45能够在仅45秒的时间内从2D图像生成高质量和具备一致性的3D网格!
这些3D AIGC领域最新的技术突破,不仅大大提高了生成速度和质量,同时让用户的输入也变得更加灵活。用户既可以通过文本提示进行输入,也可以通过信息量更加丰富的单张2D图像来生成想要的3D模型。这大大扩展了3D AIGC在商业应用方面的可能性。
AI革新3D生产过程
首先,让我们了解一下传统3D设计师创建3D模型,所需要经历的工作流程:
1.概念草图:概念艺术设计师根据客户输入和视觉参考进行头脑风暴和构思所需的模型。
2.3D原型制作:模型设计师使用专业软件创建模型的基本形状,并根据客户反馈进行迭代。
3.模型细化:将细节、颜色、纹理和动画属性(如绑定、照明等)添加到粗糙的3D模型中。
4.模型最终定型:设计师使用图像编辑软件增强最终的渲染效果,调整颜色,添加效果,或进行元素合成。
这个过程通常需要几周的时间,如果涉及到动画,甚至可能需要更长。然而,如果有AI的帮助,上述每个步骤都可能会更快。
1.强大的多视图图像生成器(例如,基于Stable Diffusion和Midjourney的Zero-1–to–3)有助于进行创意头脑风暴,并生成多视图图像草图。
2.文本到3D或图像到3D技术(例如,One-2–3–45或Shap-E)可以在几分钟内生成多个3D原型,为设计师提供了广泛的选择空间。
3.利用3D模型优化(例如,Magic 3D或ProlificDreamer),选定的原型可以在几小时内自动进行精炼。
4.一旦精炼的模型准备好,3D设计师就可以进一步设计并完成高保真模型。
3D AIGC是否会取代人类?
我们的结论是,暂时不会。人仍然是3D AIGC环节中不可缺失的一环。
尽管以上提到的3D模型生成技术,能在机器人技术、自动驾驶和3D游戏中有许多应用,然而目前的生产流程仍然不能满足广泛的应用。
为此,硅兔君采访了来自加州大学圣迭戈分校的苏昊教授,他是3D深度学习(3D Deep Learning)和具身人工智能(Embodied AI)领域的领军专家,也是One-2–3–45模型的作者之一。苏昊教授认为,目前3D生成模型的主要瓶颈是缺乏大量高质量的3D数据集。目前常用的3D数据集如ShapeNet(约52K 3D网格)或Objaverse(约800K 3D模型)包含的模型数量和细节质量都有待提升。尤其是比起2D领域的大数据集(例如,LAION-5B),它们的数据量仍然远不够来训练3D大模型。
苏昊教授曾师从几何计算的先驱、美国三院院士Leonidas Guibas教授,并曾作为早期贡献者参与了李飞飞教授领导的ImageNet项目。受到他们的启发,苏昊教授强调广泛的3D数据集在推进技术方面的关键作用,为3D深度学习领域的出现和繁荣做出了奠基性工作。
此外,3D模型远比2D图像的复杂很多,例如:
1.部件结构:游戏或数字孪生应用需要3D对象的结构化部件(例如,PartNet),而不是单一的3D网格;
2.关节和绑定:与3D对象互动的关键属性;
3.纹理和材料:例如反光率、表面摩擦系数、密度分布、杨氏模量等支持交互的关键性质;
4.操作和操控:让设计师能够对3D模型进行更有效地交互和操纵。
而以上几点,就是人类专业知识能够继续发挥重要作用的地方。
苏昊教授认为,在未来,AI驱动的3D数据生成应具有以下特性:
1.支持生成支撑交互性应用的3D模型,这种交互既包括物体与物体的物理交互(如碰撞),也包括人与物体的交互(物理与非物理的交互方式),使得3D数据在游戏、元宇宙、物理仿真等场景下能够被广泛应用;
2.支持AI辅助的3D内容生成,使得建模的生产效率更高;
3.支持Human-in-the-loop的创作过程,利用人类艺术天赋提升生成数据的质量,从而进一步提升建模性能,形成闭环的数据飞轮效应。
类似于过去18个月来像DALL-E和ChatGPT这样的技术所取得的惊人发展,我们坚信在3D AIGC领域即将发生,其创新和应用极有可能会超过我们的预期,硅兔君会持续深入探索和输出。
关键词: