生成式AI专题报告:下一颗最闪亮的星视频+引擎精选版.docx

上传人:田海滨 文档编号:427114 上传时间:2025-07-20 格式:DOCX 页数:32 大小:240.31KB
下载 相关 举报
生成式AI专题报告:下一颗最闪亮的星视频+引擎精选版.docx_第1页
第1页 / 共32页
生成式AI专题报告:下一颗最闪亮的星视频+引擎精选版.docx_第2页
第2页 / 共32页
生成式AI专题报告:下一颗最闪亮的星视频+引擎精选版.docx_第3页
第3页 / 共32页
生成式AI专题报告:下一颗最闪亮的星视频+引擎精选版.docx_第4页
第4页 / 共32页
生成式AI专题报告:下一颗最闪亮的星视频+引擎精选版.docx_第5页
第5页 / 共32页
点击查看更多>>
资源描述

1、天风,孔蓉、李泽宇)1、生成式AI在视频/3D/游戏等领域的 渗透加速生成算法模型不断突破创新,下游应用场景不断拓展基础的生成算法模型不断突破创新,基础能力日新月异,从图像向视频和3D扩 展,更广泛地应用于下游应用场景。生成对抗网络(GAN)是早期最著名的生 成模型之一,尽管在图像生成上产生了卓越的效果,但其训练常常受到梯度消 失和模式崩 溃等问题的影响。与GAN相比,扩散模型(DiffUSiOn Model)只 需要训练“生成器”,不需要训练别的网络(判别器、后验分布 等),训练时 仅需模仿一个简单的前向过程对应的逆过程,实现简练过程的简化。扩散模型 相对GAN来说具有更灵活的模型架构和更

2、精确的对数似然计算,生成图像质量 明显优于GAN,已经成为目前最先进的图像生成模型。此前扩散模型主要适用于生成2D图像,23年Runway的最新研究成果将扩散模 型扩展到视频领域,在未加字幕的视频和配对的文本-图像数据的大规模数据 集上训练出视频扩散模型。NeRF (神经辐射场)的出现为3D场景生成带来了 新的可能性,进一步拓宽生成算法领域下游的应用场景。NeRF (Neural Radiance Field)是一种基于神经网络的3D重建技术,不同于传统的三维重 建方法把场景表示为点云、网格、体素等显式的表达,NeRF将场景建模成一 个连续的5D辐射场隐式存储在神经网络中,输入多角度的2D图像

3、通过训 练得到神经辐射场模型,根据模 型渲染出任意视角下的清晰照片。Runway:生成式Al内容平台,GenT可实现用文字和图像从现有视频中生成新 视频RUnWay是一家生成式Al内容平台,致力于让所有人都能进行内容创作。RUnWay创 立于2018年,总部位于纽约,提供图片、视频领域的生成式Al服 务。RUnWay得到众 多资本青睐,获得谷歌领投的D轮融资。创立以来, RUnWay 已获得 FeIiCis、COatUe、Amplify Lux COnlPOUnd 等顶级投资机构 投资。23年6月,RUnWay获得由谷歌领 投的1亿美元的D轮融资,这笔融资 交易包括三年内7500万美元的谷歌

4、云积分和其他服务,估值达到15亿美元。主要产品为Gen-I和Ge-2, Gen-I可实现用文字和图像从现有视频中生成新视 频,Gen-2可实现文字生成视频功能。Gen-1:不需要灯光、相机和动捕,通 过将图像或文本提示的结构和风格应用于源视 频的结构,逼真且一致地合成新 视频,且具有表现力、电影感和一致性。Gen-1提供给用户五种不同的视频制 作模式:1)Stylization:将任何图像或提示的风格转移到视频的每一帧; 2) Storyboard:将模型变成完全风格化和动画的渲染。3) Mask:隔离视频中 的主题并使用简单的文本提示对其进行修改;4) Render:通过应用输入图像 或提示

5、将无纹理渲染变成逼真的输出;5) Customization:通过自定义 模型 以获得更高保真度的结果,释放Gen-I的全部功能。Gen-I的性能优势:基 于用户研究,GEN-I的结果优于现有的图像到图像和视频到 视频的转换方法, 比 Stable Diffusion 1. 5 提升 73.83%,比 Text2Live 提升 88. 24%oGen-2是一个多模态的人工智能系统,可以用文字、图像或视频片段生成新颖 的视频。Gen-2在GenT的基础上迭代,保留通过将图像或文本提示的结构和 风格应用于源视 频的结构合成新视频的功能,新增了只用文字便可生成视频的 的功能。Gen-2在GenT的

6、五种邛频制作模式上新增了三项新的模式:1) Text to Video:仅 通过文本提示合成任何风格的视频;2) Text + Image to Video:使用图像和文本提 示生成视频;3) Image to Video:用一张图片生成 视频(变体模式)。Gen-2已于2023年6月上线,用户可以通过网页端和移 动端APP免费体验文字生成视 频的功能。收费模式上,RUnWay采用订阅模 式,分为Standard和PrO两个版本:Standard 15美元/月;Pro 35美元/ 月。订阅版本提供更高的CreditS (制作视频消耗credits) 更长的视频长 度、更高的分辨率等。Luma

7、AI: 3D内容解决方案平台,基于NeRF上线文字转3D和视频转3D功能Luma AI是一家3D内容解决方案平台。Luma AI创立于2021年,总部位于加 州。公司创始人在3D视觉、机器学习、实时图形学上有所建树:CEO & Cofounder Amit Jain曾于苹果任职,在3D计算机视觉、摄像头、ML、系统工 程和深度技术产品方面有者丰富经验;CTO & Cofounder Alex YU致力于推动 神经渲染和实时图形领域的发展,研究成果包括Plenoxels PlenOctrees和 PixelNeRFo LUmaAI深耕3D领域,也发布多项3D生成产品。22年10月开放 网页版LU

8、ma; 22年12月推出文生3D模型功能;23年1月iOS版APP开始支 持NeRF Reshoot; 23年2月推出网页版全体积NeRF渲染器;23年3年iOS版 APP支持AR预览,同月推出视频转3D API。23年4月发布LUmaUnreaI Engine alpha,帮助开发者在Unreal 5中进行完全体积化的渲染,无需对几何 结构或材质进行修补。主要产品:Luma App:目前只推出iOS客户端,可以通过iPhone上传视频, 基于NeRF生成3D场景。Luma App支持导入视频,以及引导模式和自由模式 三种:导入模式,和Web模式功能类似,对设备和视频理论上要求最低;引导 模式

9、需要360度拍摄,APP将具体提示框提醒拍摄视角、拍摄位置;自由模 式,支持非360度(部分视角)拍摄,APP不会给出明确提示框,需要尽可能 拍摄多个角度。网页端:目前集成了三大主流功能:网页版LUma、文字转3D 模型、视频转3D APIo网页版Luma:上传照片、视频来进行三维重建,网页 版可以上传更大的文件,目前视频和图片(ZIP压缩包)体积最大限制5GB; 文字转3D模型:输入文字描述生成对应的3D模型。视频转3D API:效果基本 和网页版一致。收费模式为按次收费,转换一个视频费用为1美元,转换时间 在30分钟左右。Unity:制作和运营交互式实时3D (RT3D)内容平台,结合A

10、l大模型赋能游 戏业务Unity是一家全球领先的制作和运营交互式实时3D (RT3D)内容的平台,也是 全球最大的游戏引擎公司。收购ironSoUrCe之后,其主营业务包括与开发相 关的引擎类产品Create和与广告营销相关的产品GrOw。Unity成立于2004 年,起初为Over the Edge Entertainment并进行游戏开发工作,2005年公 司在游戏开发基础上转型工具,并于2005年发布Unityl. 0版本。20余 载,Unity先后登 陆并支持苹果IOS平台、OS平台、WindOWS平台等,伴随着 iPhone以及整个移动互联网的发 展,Unity迎来用户数量的快速增长

11、同时, 经过长期的迭代升级以及并购,公司逐步建立起游 戏以及其他领域的业务,形 成当前公司的主要业务架构,实现全平台全产业链覆盖的高兼容特 性。2023 年,公司发布AI产品:Unity Muse Unity Sentis,宣布结合AI大模型赋能 游戏业务。主要产品:Unity Muse:提供Al驱动协助的扩展平台,它加速了像视频游戏 和数字挛生这样的实时3D应用 和体验的生成。在MUSe上,用户能够通过自然 语言在Unity编辑器中开发游戏,打破技术壁垒。Unity Sentis:嵌入神经网 络,解锁全新实时体验。在技术层面,Unity SentiSl连接神经网络 与Unity Runti

12、me,因此,Al模型能够在Unity运行的任何设备上运行。SentiS是第一 个也是唯一一个将Al模型嵌入到实时3D引擎中的跨平台解决方案。Sentis 在用户的设备而非云端运行程序,因此其复杂性、延迟和成本都大大降低。 Muse Chat :基于AI,用户可以搜索跨越Unity文档、培训资源和支持内容, 以获取来自Unity的准确且最新的信息。Muse Chat能够帮助开发者快速获取 相关信息,包括工作代码样本,以加速 开发进程和提供解决方案。Open AI: 3D生成技术Point-E与Shap-E的更新迭代POint-E是一个3D模型生成器,可以在几分钟内生成3D图像。Point-E是一

13、个 机器学习系统,可以通过文本输入制作3D物体,由OPenAl于2022年12月发 布到开源社区。Point-E本身包括两个模型:GLlDE模型和image-to-3D模型。 前者类似于DALL-E或StabIe DiffUSion等系统,可以从文本描述生成图像。 第二个模型由OPenAl使用图像和相关的3D物体进行训练,学习从图像中生成 相应的点云。NVIDIA: 3D MoMa Magic3D NVIDIA Picasso 与 Neuralangelo3DMoMa:从二维图像中提取三维物体。2022年6月,NVIDIA推出3D MoMa,可 通过图像输入 生成三角网格组成的3D模型,并可直

14、接导入图形引擎。这项方 案的重点是,可直接导入支持三角形 建模的3D建模引擎、游戏引擎、电影渲 染器,可以在手机、浏览器上运行。3D MOMa生成的3D模型自带三角形网格, 将3D模型生成自动化,将有望加速艺术、游戏、影视等内容创作。Magic3D: 高分辨率的文本到3D内容创建技术。2022年月,英伟达推出Magic3D,采 用了与DreamFUSiOn类似的两段式生成技术路线,但使用不同的生成模型。 MagiC3D可以在40分钟内创 建高质量的三维网格模型,比DrealiIFUSion快2 倍,并实现了更高的分辨率NVIDIA Picasso:用于构建生成式Al视觉应用程 序的云服务。20

15、23年3月,英伟达推出NVlDIA Picasso,企业、软件创建者和 服务提供商可以在其模型上运行推理,在专有数据上训练NVIDIA Edify基础模 型,或者从预训练的模型开始,从文本提示生成图像、视频和3D内容。PiCaSSO服务 针对GPlJ进行了全面优化,并在NVIDIA DGX CIOUd上简化了训 练、优化和推理。此外,NVIDIA 也与 AdObe、Getty Images ShUtterStOCk 等 企业进行了合作,共同开发NVlDlA PiCaSSO模型。Apple:发布3D生成APl Object CaPtUre与3D场景生成模型GAUDl2021年6月,苹果发布了面向

16、MaC的摄影测量APl “Object Capture o Apple Object Capture为APPIe设备用户提供了一种相对快速和简单的方法来 创建现实世界对象的3D表示一一这意味着可以将物理对象转换为数字对象。 使用iPhone或iPad,可拍摄对象的照片,并使用macOS Monterey上新的对象 捕获API将其转换为针对增强现实(AR)进行优化的3D模型。物体捕捉功能使 用摄影测量技术将iPhone或iPad上拍摄的一系列照片转换为USDZ文件, 这些文件可以在“AR快速查看”中查看,无缝整合到Xcode项目中,或在专 业的3D内容工作流程中使用。2022年7月,来自苹果的A

17、I团队推出了 3D 场景生成的最新神经架构GAUDI o GAUDI是一个能够捕捉复杂而真实的 三维场景分布的生成模型,可以从移动的摄像机中进行沉浸式渲染,采用了一 种可扩展但强大的方法来解决这个具有挑战性的问题。研究人员首先优化一个 隐表征,将辐射 场和摄像机的位置分开,然后将其用于学习生成模型,从而能 够以无条件和有条件的方式生成三维场景。GAUDl在多个数据集的无条件生成 设置中取得了 SOta的性能,并允许在给定条件变量(如 稀疏的图像观测或描 述场景的文本)的情况下有条件地生成三维场景。Google技术路径剖析:从Dream Fields到DreamFusion的迭代升级Dream

18、Fields:训练DreamFieldS算法时需要多角度2D照片,完成训练后便 可生成3D模型、合成新视角。而CLlP的作用,依然是评 估文本生成图像的准 确性。文本输入至DreamFieldS后,未训练的NeRF模型会从单个视角生成随 机视图,然后通过CLlP来评估生成 图像的准确性。也就是说,CLlP可以用来 纠正和训练NeRF模型生成图像。这个过程将从不同的视角重复2万次,直到生 成符合文本描 述的3D模型。DreamFUSiOn是一种从文本提示生成3D模型的 新方法,它采用了与DreaIllField类似的方法,但模型中的损失函数基于概率 密度蒸储,最小化基于【扩散中前向过程共享的高斯

19、分布族】与【预训练的扩 散模型所学习的分数函数】之间的KL散度。技术步骤:先使用一个预训练2D 扩散模型基于文本提示生成一张二维图像。然后引入一个基于概率密度蒸偏的 损失函数,通过梯度下降法优化一个随机初始化的神经辐射场NeRF模型。DreamFusion结合了两种关键方法:神经辐射场和二维扩散。它逐步改进初始 的随机3D模型,以匹配从不同角度显示目标对象的2D参考图像:现有AI 模型(如Nvidia的Instant NeRF )使用的方法。然而,与InStant NeRF 不同,参考不是真实物体的照片,而是由OpenAI的DALL-E 2和Stability, ai的StabIe DiffU

20、SiOn使用 的类型的2D文本到图像模型生成的 合成图像。在这种情况下,2D扩散模型是Google自己的Imagen,但总体结 果是相同的:生成的3D模型与原始文本描述生成的2D参考图像相 匹配。至 关重要的是,整个过程既不需要3D训练数据,也无需修改图像扩散模型,完全 依赖预训练扩散模型作为先验一一这可能为开发 实用的、大众市场的基于AI 的文本到3D工具铺平了道路。2、生成式Al下游应用场景展望生成式AI将实现对视频/3D/游戏等下游应用场景的渗透今年以来,我们已经看到生成式Al在文本领域、代码生成、图像领域的快速发 展,如 GPT-4 的推出,Midjourney Stable Diff

21、USiOrl 的版本迭代,Github Copilot X升级等等。生成式AI在视频和3D模型领域的发展相对较慢,但随 着海外科技大厂及初创公司纷纷布局并推出基础的3D和视频生成模型和产品, 未来在创意领 域(如电影、游戏、VR、建筑和实体产品设计)的应用潜力广 阔。我们认为生成式Al将实现对视频/3D/游戏等下游应用场景的渗透。在短视频、 创作工具、游戏等下游领域,Runway Luma Al等Al原生产品有望融入工作 流,增强用户体验、降低用户使用壁垒、进一步降低使用成本。视频与建模工具或与传统工具/工作流结合,进一步拉动生成式Al的需求我们的观点:内容创作工具的重要性如何?我们认为关键在

22、于拉动远比工具本 身更大的市场,类似于短视频时代的前身GIF创作工具,如剪映这种 创作工具 和抖音这种内容生态,Maya这种创作工具和动画的内容生态,视频与建模工具 将进一步大幅拉动生成式Al的需求。模型能力或出现明显分化。我们认为当 前Diffusion开源模型下各公司生成图片的能力尚未明显出现分化,但建模和 视频更重要的在于和传统工具与工作流的结合。海外接下来半年关注什么? 我们认为从能力来看,图片生成的可控性快速提高或将出现,矢量图、结构、 视频、3D模型生成也将提速。尤其关注IJnity与APPle的合作,在Al生成内 容/建模/App适配上将会如何塑造空间计算的内容与应用的标准生态。

23、报告节选:目录1生成式Al在视频/3D/游戏马2、生成式Al下游应用场景展堂3、风险提示请务必阅读正文之后的信息披露和免责申明1.1生成算法模型不断突破创新,下基础的生成算法模型不断突破创新,基础能力日既生成对抗网络(GAN)是早期最著名的生成模型;溃等问题的影响。与GAN相比,扩散模型(DiffU 等),训练时仅需模仿一个简单的前向过程对应印更精确的对数似然计算,生成图像质量明显优于G此前扩散模型主要适用于生成2D图像,23年RlIn-图像数据的大规模数据集上训练出视频扩散模型NeRF (神经辐射场)的出现为3D场景生成带来二 Radiance Field )是一种基于神经网络的3D重女 N

24、eRF将场景建模成一个连续的5D辐射场隐式存 型渲染出任意视角下的清晰照片。图:生成式算法模型对比GANs生成对抗网络(GAN)是一种深度学习模型,通过同 原理时训练两个相互对抗的网络(一个生成器网络和一个判别器网络)来生成与真实数据分布相似的新数据出她能够生成较高质量的样本,一般只需要一次通过网络优势就可以生成一个样本,比较快速taGAN的训I练过程需要生成器和额外的判别器,且稳定龊隋生较差由田坛GANq卓用干图像牛成.图像招分辨理.风格汗稔笺RlJnWay是一家生成式Al内容平台,致力于让所有人都能1 立于2018年,总部位于纽约,提供图片、视频领域的生向 多资本青睐,获得谷歌领投的D轮融

25、资。创立以来,Runv Amplify、Lux、CC)mpound等顶级投资机构投资。23年( 投的1亿美元的D轮融资,这笔融资交易包括三年内7500二 务,估值达到15亿美元。主要产品为Gen-I和Gen-2, Gen-I可实现用文字和图Gen-2可实现文字生成视频功能Gen-1 :不需要灯光、相机和动捕,通过将图像或文本货 频的结构,逼真且一致地合成新视频,且具有表现力、电Gen-I提供给用户五种不同的视频制作模式:1 ) Styliza风格转移到视频的每一帧;2) StOryboard:将模型变成; Mask:隔离视频中的主题并使用简单的文本提示对其进彳 用输入图像或提示,将无纹理渲染变

26、成逼真的输出;5) C 模型以获得更高保真度的结果,释放GenT的全部功能,Gen-I的性能优势:基于用户研究,GEN-1的结果优于 视频的转换方法,比StabIe Diffusion 1.5提升73.83%, 88.24%o图:GenT 和 Gen-2flM9作品Gen-2是一个多模态的人工智能系统,可以用文字、Gen-2在Gen-I的基础上迭代,保留通过将图像或文本由频的结构合成新视频的功能,新增了只用文字便可生成视通过文本提示合成任何风格的视频;2) Text+ImagetoGen-2在GenT的五种视频制作模式上新增了三项新的电示生成视频;3) ImagetOVideo:用一张图片生成

27、视频Gen-2已于202昨6月上线用户可以通过网页端和移垃 频的功能。收费模式上,RUnWay采用订阅模式,分为St; Standard 15美元/月;Pro 35美元/月。订阅版本提供更I credits).更长的视频长度、更高的分辨率等。图:Gen-2创作界面:直接通过文字生成约4秒的视频Gen*2 video352PM. Jur 23Help US improve, how U the result?the S时二电rwsteece full *ot.igc resolutionRUnWay的GenT是Tfl基于扩散模型(DiffiISiOl 现有的嬲蜡构和内容。扩散模型是一种概率生成模

28、型,通过添加噪声逐步去噪扩散概率模型利用两个马尔科夫链:一个i 计,旨在将数据分布转换为一个简单的先验分;而后者的马尔科夫链通过学习由深度神经网络彳 向量,然后通过向后马尔科夫链进行祖先抽样;扩散模型的技术优势:可以生成高质量、细节清晰的数据样本使用成熟的最大似然估计进行训练既可以用于生成图像,也可以用于生成音频图:扩散模型(DifFUSiOn Model )通过添加噪声对数据进壬DataDestructing data by addiGen-1提出了一个可控的结构和内囹蝴的视卿1未标注秋颜和配对的文本-图像数据上进行训练。Gen-1用单眼深度估计来表示结构,用预训练神经【处理。GerlT实现

29、了对时间、内容和结构一致性的完全控: 构一致性,GenT在生成效果中的不同细节级别上 图:GenT在保持输入嬲i(中间)的结构的同时,通过文本Genl视频生成技术的实现路径 首先,类似于图像合成模型,Gen-1训练模型 其次,由扩散过程主导,Gen-1将结构信息模1 最后,GenT通过自定义的推断方法,调整推3Luma Al是一家3D内容解决方案平台。Luma AI创立于: 3D视觉、机器学习、实时图形学上有所建树:CEO & C 3D计算机视觉、摄像头、ML、系统工程和深度技术产后 Cofounder Alex YU致力于推动神经渲染和实时图形领土 PlenOctrees?QpixeINeR

30、F oLUmaAl深耕3D领域,也发布多项3D生成产品。22年1 文生3D模型功能;23年1月QS版APP开始支持NaRF F NeRF渲染器;23年3年QS版APP支持AR预览,同月拍 Unreal Engine alpha,帮助开麦者在Unreal 5中进行身 质进行修补。主要产品.LumaApp:目前只推出QS客户端,可以通过iPhone LUmaAPP支持导入视频,以及引导模式和自由模式三利 对设备和视频理论上要求最低;引导模式,需要360度托 拍摄位置;自由模式,支持非360度(部分视角)拍摄, 拍摄多个角度。网页端:目前集成了三大主流功能:网页版LUma、文字 Luma:上传照片、

31、视频来进行三维重建,网页版可以上 压缩包)体积最大限制5GB;文字转3D模型:输入文字 API:效果基本和网页版一致。收费模式为按次收费,转 30分钟左右。图:LUrnaAl产品发布时间线Video Io 3D AP launchMm* U zl4Giyen Again, a short film by Jake O csonLuma AK Iouncl-J” W. 2021 Lumas ShanEmbeds25,2023eb24 2023NeRF,即神经辐射场(NeUral Radiance Field) 和渲染逼真的3D场景。NeRF可以从任何新视角生J图:NeRF通过周围半球上随机捕获的

32、10O个架子鼓的输入视IInput Images(中d * /4争* e * 今 Y44 a 4中l*9* Z Yn,小 /殳? %上手A小 QA /停外暂Af4税中,*今一邸?,令4,EWQ* ft K S * + 中 A技术原理:*通过场景投射相机光线以生成一组采样的3D点使用这些点及其对应的2D观察方向作为神经网Z 使用体渲染技术将这些颜色和密度累积成任意保该过程自然可微,可以采用梯度下降的方式,即最4 小化这个误差即可以预测出一个连贯的场景模型,米图:NeRF场景表示和可微分渲染程序的4nruVoRemOutputColor I DensityT(RG 呢5D Input Positi

33、on + DirectionJ (ZHZ抱力 f 0与传统的摄影测量技术需要从各个角度获取重,忠、 =I络来重建场景,并通过预测3D空间中田可位置的任高质建模:NeRF具有高质量和逼真的三维模 不需要输入酗g的提前处理或标记:NeRF可以 可以在低功率设备上运行:神经网络经过训练后对比来看,多边形光线追踪(Polygon Ray traNeRF的技术缺点:生成时间较长:NeRF需要大量的计算资源和时尼无法应用在复杂、大规模场景:NeRF难以处理 无法直接用于3D资产生成:NeRF不能生成结构,Luma AI 与 EPiC 合作将 NeRF 引入了 UnrBal EngirH 场景 Unreal

34、Engine是一款强大的游戏开发引擎,H筑可视化、实时渲染等领域。 Luma Unreal Engine插件使用户可以将这些L 插件可以将这些LlJma Field文件导入到虚幻引 BIUePrintS来照亮并显示这些捕获物。 用户可以从捕获的场景中选择照明或从虚幻引W剪捕捉到的中心物体,并生成一个天空环境。 目前,插件是作为两个虚幻引擎项目样本的一IMl B小旦小中/灯1中/后日一生Il白Unity是一家全球领先的制作和运营交互式实时3D (Rr 引擎公司。收购ironSource之后,其主营业务包括与开: 销相关的产品GrOwoUnity 成立于 2004 年,起初为 C)Verthe E

35、dge Entertc 年公司在游戏开发基础上转型工具,并于2005年发布 陆并支持苹果IC)S平台、OS平台、WindOWS平台等,乍 展,Umty迎来用户数量的快速增长。同时,经过长期的 戏以及其他领域的业务,形成当前公司的主要业务架构, 性。2023年,公司发布Al产品:UnityMusev Unity Sent主要产品:UnityMuse:提供AI驱动协助的扩展平台,它加速了像彳 和体验的生成。在MUSe上,用户能够通过自然语言在UnUnitySentis:嵌入神经网络,解锁全新实时体验。在笈 与UnityRUntime,因此,Al模型能够在Unity运行的任 个将Al模型嵌入到实时3

36、D引擎中的跨平台解决方案 序,因此其复杂性、延迟和成本都大大降低。MuseChat:基于Al,用户可以搜索跨越UnitV文档、培 准确且最新的信息。M use Chat能够帮助开发者快速获取 开发进程和提供解决方案。UnityAssetStores Umty与第三方展开了紧密合作,T 量且兼容的第三方Al解决方案,使用户能够无舞使用各自 Replica, AtIaS等,涵盖图像生成,人工智能对话,以 2023年6月,Apple发布了旗下首款MR (混合现实)眼 命性的空间计算设备,突破了传统显示屏的限制,为用F PrO搭载了全球首创的空间操作系统ViSiOnOS,该系统 让数字内容如同存在于真

37、实世界OUmty作为本次大会上公布的Apple VisionOS原生合作 Vision Pro提供了被开发者熟知且性能强大的创作工具, 意味着除了 AR Foundation 和 XR Interaction Toolkit 在自己的应用中加入诸如Pass-through (穿透)和Dy 态注视点渲染)等功能。通过Unity新的PoIySpatiaI技术与ViSionOS之间深层 (SharedSpace)中与其他应用程序一起运行。并且通 ReaIityKit的托管应用渲染相结合,开发者将能轻松使庠 作内容。图:IInityXR交互系统9OQ对象交互对象放置Ul交互移动功能(AR/VR)(AR

38、)(AR/VR)区域传送VR: *AR中内容控制器与GrJfc7#=选取、抓取、创作,3DUl画布的l曲对象场景中基本交互快速转向AR:点击、放置于缩放连续转向拖动、缩放支持注释,展示AR对连续移动象信息和互动3D MoMa采用的是被英伟达图形研究副总裁DaVid Li 逆向渲染,即将一系列静态2D照片重建成物体或场景 微分组件,使用现代Al机器和英伟达GPU的原始计学 3D MoMa正是基于逆向渲染流程,可从2D图片中提取图:3D MoMa的概述TOpOIogy through deep wchng tetsMagiC3D利用两阶段优化框架来解决DreamFUSion的I 型和较长的处理时间

39、1 )使用低分辨率扩散模型先验获得粗模型,并使用稀扬 2)粗略表示作为初始,使用高效的可微分的渲染器与民NeUralAngelO建立在3D MOMa的基础上,允许导入E 它特别之处在于,通过采用“即时神经图形基元”,也 术的核心,NeUraIangelO由此可以捕捉更细微的细节。 技术步骤:1)使用数值梯度来计算高阶导数。2)逐步细化细节层次,逐步减小数值梯度的步长,并A 3)使用三个优化目标(RGB合成损失、EikOnal损失、Dream Fields :训练Dream FieldS算法时需要多 估文本生成图像的准确性。文本输入至Dream Fie 图像的准确性也就是说,CiJP可以用来

40、纠正和训 述的3D模型。DreamFUSiOn-从文本提示生成3D模型的新 最小化基于扩散中前向过程共享的高斯分布族】5 先使用一个预训练2D扩散模型基于文本提示生成 A然后引入一个基于概率密度蒸储的损失函数,通EDreamFUSiOn结合了两种关键方法:神经辐射场利它逐步改进初始的随机3D模型,以匹配从不同角居方法。然而,与InStant NeRF不同,参考不是真孑 的类型的2D文本到图像模型生成的合成图像。在这种情况下,2D扩散模型是Google自己的Imw 匹配。至关重要的是,整个过程既不需要3D训练数 实用的、大众市场的基于Al的文本到3D工具铺平TransnuttanceTransm

41、ittance loss encouraging sparsity图:DreamFiekte的训练程序口 Xff ONeural Radiance Field1.9 Meta: Meta MCC实现图像生成为了简化AR/VR内容开发方式,Meta于2023年1月研发了一 MCCo MMC全称是多视图压缩编码,它是一种基于TranSfC 一帧RGB-D图像合成/重建3D模型,潜在应用场景包括AR 李生;虚拟仿真等等。Transformer: 一种采用自注意力机制的深度学习模型,谷歌 门的ChatGPT模型也是基于TranSfor*me%起初,Transfon 随着它与大趣模、通用类别的学习模型结

42、合,便也开始被用于 图像分析。RGB-D:与普通彩色2D图像不同,RGB-D是具有深度的彩 图像加上深度图(DePth Map)。在2018年的F8大会上,Meta就曾公布3D照片研究,可通过 其中包含一定的深度信息。其甚至还研发了将2D图像转3D的 意味着,它如果结合MeC方案,或许可以将单摄手机捕捉的2利用MCC方案,3两发/合成将有望实现规模化醺着深度冷 具有深度信息的图像越来越容易获得,因此MCC可使用的数J图:MetaMCC可从单张图像合成耀的3D模型MCC采用简单的解码器-编码器架构,将RGB-D尊测该点的占用物RGB色彩(将3D重建定义为二元 或场景,通用性比网格和立体像素更好,

43、因此用大男 另外,RGB-D图像可通过手机的LiDAR传感器来并科研人员利用来自不同数据集的深度图像/视频来训W 此外,MCC也可以将Al合成的图像转化为3D模型。此,MCC最大的特点是可预测RGB-D图像中看:掩码自动编码器(MAE)的最新进展有直接关系,IMCC的技术优势:无需具有注释的3D数据,成本更低、数据更容易 普适性好,对于未见过的新对象类别,支持零样2 易于扩展,且将来可以轻松生成大型数据集,为W图:MCC将输入RGB图像的像素解投影到相应的3D点目录1、生成式Al在视频/3D/游戏W2、生成式Al下游应用场景展皇3、风险提示请务必阅读正文之后的信息披露和免责申明今年以来,我们已

44、经看到生成式Al在文本领域、代码生 GithUbeOPiIOtX 升级等等。生成式Al在视频和3D模型领域的发展相对较慢,但随手 域(如电影、游戏、VR.建筑和实体产品设计)的应F图:生成式Al模型的进展与相关应用的发展进程时间表Sohl-Dicksteir 发布 DiffUSiOrOO-20142015生成式Al在视频/3D领域发展或不断加速Lan Goodfellow等提出GANNVIDIA 布3D MoMa-O002022.052022.062022.0-GOQgle发布苹果推出(RrAam FildaC八Crl公安我们认为生成式Al将实现对视频/3D/游戏等下游心 原生产品有望融入工作

45、流,增强用户体验、阐咪表:Al原生产品有望融入现有H具流中实现互补分类公司产fi互联网平台字节跳动剪映专门为抖音开发快手云剪快手云剪”将传 素材共享、多人腾讯秒剪微信推出的视频阿里亲拍面向淘系商彖的 “拍-剪-投-优 提供一站式视频MetaAl Sandbox广告工具,包括 等工具,使广告软件工具公司AdobeFirefly创意生成式Al榜 品的全亲斤AdobMidjourneyMidjourney 5.2生胡AL从简 图像,通过DiSC游戏引擎UnityMuse在创作过程中提EpicReaIityScan一款可以将智能 的3D扫描后ReaIityCapture适用于 WindCW1.2.2图像和/或激胜2.1视频与建模工具或与传统工具/工我们的观点:内容创作工具的重要性如何?我们认为关键在于丹 创作工具和抖音这种内容生态,Maya这种创作工:模型能力或出现明显分化Q我们认为当前DiffUS和传统工具与工作流的结合O海外下来半年关注什么?我们认为从能力来看,尤其关注Unity与APPie的合作,在Al生成内容健1建议关注:Al+工具:A股【万兴科技】(计算机覆盖Al+游戏:A股神州泰岳】【恺英网络Al+影视:A股光线传媒】【中国电影精选【】。J

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 研究报告 > 信息产业

宁ICP备18001539号-1