英特尔研究院发布全新AI扩散模型,可根据文本提示生成360度全景图-环球速看料
LDM3D是业界领先的可创建深度图的生成式AI模型,有望革新内容创作、元宇宙和数字体验
英特尔研究院宣布与Blockade Labs合作发布LDM3D(Latent Diffusion Model for 3D)模型,这一全新的扩散模型使用生成式AI创建3D视觉内容。LDM3D是业界领先的利用扩散过程(diffusion process)生成深度图(depth map)的模型,进而生成逼真的、沉浸式的360度全景图。LDM3D有望革新内容创作、元宇宙应用和数字体验,改变包括娱乐、游戏、建筑和设计在内的许多行业。
英特尔研究院人工智能和机器学习研究专家Vasudev Lal表示:“生成式AI技术旨在提高和增强人类创造力,并节省时间。然而,目前的大部分生成式AI模型仅限于生成2D图像,仅有少数几种可根据文本提示生成3D图像。在使用几乎相同数量参数的情况下,不同于现存的潜在扩散模型,LDM3D可以根据用户给定的文本提示同时生成图像和深度图。与深度估计中的标准后处理方法相比,LDM3D能够为图像中的每个像素提供更精准的相对深度,并为开发者省去了大量用于场景开发的时间。”
(资料图片)
封闭的生态系统限制了规模。英特尔致力于推动AI的真正普及,通过开放的生态系统让更多人从这项技术中受益。计算机视觉领域近年来取得了重大进展,特别是在生成式AI方面。然而,当今许多先进的生成式AI模型只能生成2D图像。与通常只能根据文本提示生成2D RGB图像的现有扩散模型不同,LDM3D可以根据用户给定的文本提示同时生成图像和深度图。与深度估计(depth estimation)中的标准后处理(post-processing)方法相比,LDM3D在使用与潜在扩散模型Stable Diffusion几乎相同数量参数的情况下,能够为图像中的每个像素提供更精准的相对深度(relative depth)。
这项研究有望改变我们与数字内容的互动方式,基于文本提示为用户提供全新的体验。LDM3D生成的图像和深度图能够将诸如宁静的热带海滩、摩天大楼、科幻宇宙等文本描述转化为细致的360度全景图。LDM3D捕捉深度信息的能力,可以即时增强整体真实感和沉浸感,使各行各业的创新应用成为可能,包括娱乐、游戏、室内设计、房产销售 ,以及虚拟博物馆与沉浸式VR体验等。
6月20日,在IEEE/CVF计算机视觉和模式识别会议(CVPR)的3DMV工作坊上,LDM3D模型获得了“Best Poster Award”
LDM3D是在LAION-400M数据集包含一万个样本的子集上训练而成的。LAION-400M是一个大型图文数据集,包含超过4亿个图文对。对训练语料库进行标注时,研究团队使用了之前由英特尔研究院开发的稠密深度估计模型DPT-Large,为图像中的每个像素提供了高度准确的相对深度。LAION-400M数据集是基于研究用途创建而成的,以便广大研究人员和其它兴趣社群能在更大规模上测试模型训练。
LDM3D模型在一台英特尔AI超级计算机上完成了训练,该超级计算机由英特尔 至强 处理器和英特尔 Habana Gaudi AI加速器驱动。最终的模型和流程整合了RGB图像和深度图,生成360度全景图,实现了沉浸式体验。
为了展示LDM3D的潜力,英特尔和Blockade的研究人员开发了应用程序DepthFusion,通过标准的2D RGB图像和深度图创建沉浸式、交互式的360度全景体验。DepthFusion利用了TouchDesigner,一种基于节点的可视化编程语言,用于实时互动多媒体内容,可将文本提示转化为交互式和沉浸式数字体验。LDM3D是能生成RGB图像及其深度图的单一模型,因此能够节省内存占用和降低延迟。
LDM3D和DepthFusion的发布,为多视角生成式AI和计算机视觉的进一步发展铺平了道路。英特尔将继续探索如何使用生成式AI增强人类能力,并致力于打造一个强大的开源AI研发生态系统,让更多人能够使用AI技术。延续英特尔对开放AI生态系统的大力支持,LDM3D正在通过HuggingFace进行开源,让AI研究人员和从业者能对这一系统作出进一步改进,并针对特定应用进行微调。
在2023年6月18日至22日举行的IEEE/CVF计算机视觉和模式识别会议上,英特尔将发表这项研究成果。欲了解更多信息,请参考论文《LDM3D: Latent Diffusion Model for 3D》。
关键词:
相关阅读
-
英特尔研究院发布全新AI扩散模型,可根...
LDM3D是业界领先的可创建深度图的生成式AI模型,有望革新内容创作、元 -
焦点报道:104人超696分!北京高考前20名...
(相关报道:@考生和家长:填报高考志愿前,先看看这份指南→)北京教 -
抛售房产后,李嘉诚又回来抄底了,释放...
抛售房产后,李嘉诚又回来抄底了,释放了什么信号?,马,长实,李嘉诚,李 -
纠缠不休?马斯克:与扎克伯格的铁笼格...
埃隆·马斯克在社交媒体发表的简短讲话中表示,拟议中的与扎克伯格... -
紧急!车企巨头全球召回!超130万辆!
据路透社报道,美国国家公路交通安全管理局23日表示,因潜在的后视摄像 -
原创 松下高端...
至于高级机,从成本到用料,纯粹论性能,松下空调是超过了国内一线的格 -
天津河西:打造营商环境新高地 83项“...
日前,天津市政府新闻办召开“筑巢引凤打造营商环境新高地”新闻发... -
天津市蓟州区创新开展“蓟农管家”推进...
蓟州区下窝头镇小麦产区丰收在即。提升改造后的蓟州区别山供销社真正做 -
钟山区凤凰街道:党建引领聚合力 “粽...
6月21日,钟山区凤凰街道星筑社区新时代文明实践站组织居民开展“我们 -
常熟银行:监事长黄勇斌辞任
2023年6月25日,常熟银行(601128 SH)公告,近日,本行监事会收到黄勇 -
中国石油天然气集团有限公司原党组副书...
中央纪委国家监委网站讯中国石油天然气集团有限公司原党组副书记、副总 -
环球最新:鲁A大哥认下获救女婴干女儿
00:15近日,江苏李先生在济广高速发生车祸,5个月大孩子从安全座椅飞到 -
头条焦点:兰州一企业发生闪爆事故
00:34据央视新闻消息,6月24日21时39分左右,兰州石化公司炼油运行二部 -
奥巴马谈特朗普被联邦刑诉:迹象表明美...
海外网6月25日电据美国《国会山报》网站22日报道,美国前总统奥巴马表 -
传统文化阳宅紫白赋辨正_世界通讯
此曷以故、如属甲子年、即将甲子入中宫、乙丑到干、丙寅到兑、顺飞八山 -
每日热讯!活着,要懂得随意,也要懂得克制
你可以活出自己的本来的样子,而不是别人要你成为的样子。理解别人的不 -
混凝土路面裂缝修补方法
混凝土路面在生活中还是比较常见的,但是路面长期使用难免会有开裂的情 -
【全球时快讯】易点天下:全面接入多种A...
近日,易点天下表示,已全面接入包括GPT-4、StableDiffusion、Midjourn -
dnf能查到金币给谁了吗 天天热议
很多玩dnf的玩家想知道dnf能查到金币给谁了吗,为了帮助玩家更好的 -
快报:苹果 A17 芯片将有两个版本,存...
苹果今年发布的iPhone15Pro和iPhone15ProMax中将使用A17芯片。