摘要 :无人机倾斜摄影从航空平台多视角同步采集影像,可通过倾斜摄影测量,三维建模等技术生成真实的三维模型,是目前地形级到城市级实景三维模型重建最主要的技术手段之一。本文总结归纳了目前无人机倾斜摄影三维建模过程中的关键技术,重点介绍了三维场景重建和倾斜摄影三角网模型的语义提取、单体化、实体化处理等技术方法及研究现状,指出了目前无人机倾斜摄影三维建模技术仍存在的问题,并从无人机路径规划、数据获取、建模技术、模型表达四方面对该领域潜在的发展趋势和研究方向进行了分析与展望。
实景三维是对人类生产、生活、生态空间进行真实、立体、时序化反映和表达的数字虚拟空间,是国家新型基础设施建设的重要组成部分。无人机倾斜摄影从五个不同的视角同步采集影像,可获取丰富的顶面及立面高分辨率纹理信息,通过倾斜摄影测量及三维建模技术生成真实的三角网模型,是目前实景三维中国建设的重要手段之一。城市建设的空间递进,需要从部件级微观小场景到城市级宏观大场景不同层级的地理数据覆盖,实体三维模型具备语义化、单体化与结构化等特性,是实现城市管理精细化、动态化和智能化的数据基础。目前,以倾斜摄影三角网为主要形式的三维场景数据生产发展已趋近成熟,而实体数据生产仍主要依靠人工勾绘,效率亟待提升。实景三维数据生产中主要涉及三维场景重建、语义化、单体化、实体化关键技术,本文将从实景三维数据生产过程中的关键技术出发,讨论无人机倾斜摄影三维模型重建的国内外发展现状,并分析其未来的发展趋势。基于倾斜摄影的三角网表面模型自动重建技术是地形级到城市级实景三维模型重建最主要的技术手段之一(张春森等,2020)。自实景三维中国建设工作开展以来,重庆、深圳、太原、宁夏等多个城市已完成全市覆盖的倾斜摄影三角网模型重建,部分地区已实现建筑物单体化三角网的分离(闫宁,2022)。目前,无人机倾斜摄影在反映复杂场景下,对复杂结构的精细化表达还存在不足。针对这一问题,一些研究(吴昌松等,2022)从数据获取角度出发,致力于通过合理规划无人机的航拍路径,以提升三维重建的精度和完整度。无人机倾斜摄影路径规划中应用广泛的路径规划算法包括遗传算法、蚁群算法、粒子群算法等,旨在以低成本、高效智能的方式获取高质量数据。用于建模的数据除多视角航空影像外,部分高要求测区还需要加入地面影像或激光点云等数据进行融合(单杰等,2019);或采用贴近摄影测量、优视摄影测量等方式规划航线获取更符合实景三维重建要求的高清影像(张永军等,2021);诸多手段可保证原始数据的精度与覆盖率,从而获得足够精细、完整的三维模型。倾斜摄影三角网模型重建,即表面重建,主要包括显式重建、隐式重建和基于深度学习三类方法。显式重建方法通过可视性信息拟合点云三维Delaunay三角剖分上的表面并进行细节优化,其受成像条件影响较小,主要受限于有噪声或具有尖锐特征的数据,是目前应用最为广泛的城市级三维模型表面重建方法。隐式重建方法用一个或多个隐函数曲面来拟合或逼近采样点;基于隐函数的表面重建方法不需要复杂的几何计算,但对点云分布要求较高,且对建筑物等人工地物尖锐的边缘处理效果较差。基于深度学习方法倾向于将更多的几何先验引入表面重建以获得更好的性能,在模型扩展性、计算效率和生成细节的能力等方面仍然有限。针对倾斜摄影三维模型的轻量化处理一直是一项重要而具有挑战的任务,其主要目的是减少网格面片数量、降低模型复杂度的同时保留更多的原始结构,以及减轻庞大数据量的三维网格对存储、显示和传输造成的负担。目前的模型轻量化处理方法大致可分为删除大量同质面片和拟合结构特征两类,生成的网格模型不可避免地丢失部分原始模型的结构信息(Liu等,2023)。此外,模型轻量化仅减小了倾斜摄影模型的存储数据量,并不对建模对象的结构信息进行面片的重构或划分,因此,实体三维模型重建还需进行语义化、单体化、结构化等处理。隐式神经表达是通过神经网络的方式将输入的图像、音频、点云等信号表示为函数的方法。神经辐射场(neural radiance field,NeRF)理论是三维场景隐式神经表达的重要方法(Mildenhall等,2021),将三维场景的描述存储在神经网络的参数中,具有模型体积小、渲染效果好等优点。NeRF的过程主要分为三部分:从一组图片的视角射线上采样三维点;将采样点输入到神经网络得到对应的颜色和密度;利用体渲染技术渲染任意视角下的照片(图1)。
图1 NeRF原理示意图(Mildenhall等,2021)
Fig.1 Schematic diagram of NeRF
NeRF虽然可以生成任意视角的图片,但存在计算速度慢、尺度效应严重、不可编辑等问题,为此,针对以上存在的问题做出了改进。速度上,Rebain等(2022)提出的LOLNeRF方法实现了单张照片训练神经网络,Müller等(2022)提出的Instant NGP方法利用Cuda加速技术和哈希编码将整个过程加速到秒级;尺度上,Barron等(2021)提出的Mip-NeRF方法用圆锥体代替简单的光线解决了多尺度下锯齿和模糊的问题;可编辑性上,Yuan等(2022)提出的NeRF-Editing方法提供一种基于控制点的交互方式,用户可以通过移动控制点来实现对神经辐射场隐式表征的场景或物体的几何变形。神经辐射场理论不仅可以应用在小场景中,还可以在大规模城市级场景渲染,如图2展示了四种大场景神经辐射场的渲染结果。Rematas等(2022)提出的城市辐射场方法将激光雷达数据添加到神经网络的训练中,很好地解决了街景数据中不同视角图像的曝光问题;Xiangli等(2022)提出的BungeeNeRF方法使用多尺度数据进行渐进式学习,解决了大范围内由视角远近不同带来的尺度问题;Block-NeRF方法(Tancik等,2022)和Mega- NeRF方法(Turki等,2022)分别将大场景分解为城市街区单元,以解决大范围场景影像过多的问题:前者在虚拟世界中重建了旧金山,主要用于自动驾驶测试研究;后者可以利用高清无人机影像实现平方千米级场景的高保真渲染。神经辐射场理论在城市三维重建中的应用仍需继续研究,实现高质量、大场景、可量测城市级隐式神经表达的场景重建,将为地理场景模型重建与表达带来质的飞越。
图2 四种大场景神经辐射场城市级渲染结果示例
Fig.2 City-level rendering results of 4 methods for large-scale NeRF
三维城市建模不仅要考虑对象的几何结构,还要重视其对应的语义信息(单杰等,2019)。原始的无人机倾斜摄影模型是一个相互粘连的整体,缺少各个地理实体的语义类别信息,无法满足后续建模流程中的结构化需求,因此需要进行语义提取,将其中的地理实体区分为各个类别,并对各类别数据进行单体化处理,以实现地理实体数据的单体分割。倾斜摄影模型语义提取方法可分为转换成点云或影像的方法、直接处理三角网的方法,倾斜摄影模型语义提取方法的一般流程,如图3所示。转换为点云或影像的方法是将三角网模型转换为点云或影像后再利用较为成熟的点云或影像语义提取方法提取语义信息。基于点云的语义提取方法将三角网数据采样为点云数据,并应用KPConv(Gao等,2021)、PointNet++(Qi等,2017)等点云语义分割方法,实现不同实体类别的语义信息提取,但转换为点云的过程会造成拓扑和纹理信息的损失。基于影像的语义提取方法通过模型对应的正射或多视角影像提取语义信息,再将语义信息映射回倾斜摄影模型;其中,基于正射影像的方法(Zhang等,2012)需克服投影差造成的语义误差,基于多视角影像的方法(Rong等,2021)需要解决影像的遮挡问题和多张影像之间的类别冲突。直接处理三角网的方法以往常采用随机森林(Rouhani等,2017)等机器学习方法。近年来,随着MeshNet(Feng等,2019)、MeshCNN(Hanocka等,2019)等针对三角网数据的深度学习方法的提出,以及Hessigheim 3D(Kölle等,2021)、SUM(Gao等,2021)、UrbanScene(Lin等,2022)等倾斜摄影测量模型语义分割数据集的出现,在倾斜摄影模型上直接应用深度学习方法成为可能。已有研究,如应用现有的三角网语义分割方法(Knott 和Groenendijk,2021),或设计针对倾斜摄影模型三角网的语义分割方法(Gao等,2023),但三角网数据处理效率及样本数据提取方法仍有待改进。
图3 倾斜摄影测量模型语义提取概述示意图
Fig.3 Overview of semantic segmentation of oblique photogrammetry model
语义提取后的倾斜摄影模型仅包含地理实体的类别信息,无法区分每个地理实体的单体,不能直接用于实体建模,需要进行倾斜摄影模型的单体化。目前的倾斜摄影模型单体化方法主要针对建筑物类别,基于语义化结果或地籍资料获得矢量边界分离单体模型。基于语义提取结果的单体化难以分离拓扑相连的单体模型,可通过深度学习实例分割方法直接识别单体模型。针对无人机倾斜摄影模型的单体化处理,目前主要是应用基于点云或图像的成熟方法,如Chen等(2022)将三角网转换为多视角图像进行建筑物实例分割,能够较为准确地分离拓扑相连的单体模型。直接处理三角网的单体化方法研究仍处于起步阶段。未来需在提高提取精度和速度的同时,拓展可自动化分割的地理实体类别,发展基于深度学习的实例分割方法,实现更加全面、准确、高效的语义提取和单体化。模型实体化重构是对具有实际语义的独立地物进行结构化重构,利用矢量化的方法表达模型三维结构并重新映射纹理的过程,也是目前实景三维中国建设中技术尚未成熟、自动化程度极低、严重阻碍建设进程的关键一环(龚健雅等,2019)。基于无人机倾斜摄影的三维模型重建主要针对城市地上空间,实体化重建以建筑物、树木、道路等城市中的典型地物为例展开讨论,并对实体化模型的纹理映射方法进行了介绍。城市典型地物的实体化重建主要包括建筑物实体三维模型重建、树木实体三维模型重建和道路实体三维模型重建。(1)建筑物实体三维模型重建。建筑物实体化模型主要由平面多边形、球、弧面、锥体等几何体构成,早期建筑物建模主要依赖人工勾绘。倾斜影像由于其立面可见性、表达直观性和多视冗余性,已经成为大规模城市模型重建的主要数据源。从倾斜摄影三角网模型得到的建筑物单体模型,自动或半自动重建实体模型,方法分为数据驱动、模型驱动和深度学习。此外,由于建筑物模型的多样性、拓扑复杂性,目前工业应用中仍需要使用交互式的商业建模软件实现建筑物模型重建。对目前常用的建筑物结构化重建方法,如表1所示。目前建筑物建模面临的问题主要包括:语义和几何难区分,对象实体提取不准确的技术瓶颈难题;高噪声、遮挡严重及语义信息缺失的数据质量问题引起的拓扑重构难题,进而导致重建算法自动化程度低,模型质量差。目前城市精细三维模型仍依赖人工交互式获取,成本高、周期长、效率低,亟待发展高效快速、自动化、智能化的建筑物模型重建方法。
表1 建筑物模型结构化重建方法对比
Tab.1 Comparison of structural reconstruction
methods of building models
(2)树木实体三维模型重建。树木实体三维模型是数字化三维场景中的重要组成部分,真实还原树木的三维实体模型能够极大提高虚拟三维场景的沉浸感。常规基于无人机倾斜摄影测量的树木建模一般在密集匹配点云的基础上,通过构建三角网模型与纹理映射得到具有真实纹理的三维模型。由于树木具有相似的纹理与颜色特征,容易在特征匹配时出现错误,且单纯依靠倾斜摄影测量技术构建的树木模型精细化程度不高,树木冠层通常显示为馒头状,缺乏树木内部结构化信息,需要结合地面平台的激光雷达点云数据实现树木的精细化结构重建(Wallace等,2016)。目前,针对树木的三维模型重建一般需要对原始点云进行分割、骨架点提取,以及枝、干、叶的表面重建等步骤,从算法原理上划分,可归纳为基于骨架表达、先验假设和轻量化表达的方法(曹伟等,2021)。由于树木相较于建筑物等人造实体对象具有相对复杂的内部形态与几何结构,目前的树木模型重建算法一般只针对特定场景,算法的普适性有待进一步加强,联合多源遥感技术实现树木的精细化模型重建是未来的主要发展方向之一。(3)道路实体三维模型重建。道路实体模型可为无人驾驶、智慧城市地图、城市交通运输等应用提供可靠真实的数据,是重要的城市基础设施模型。道路模型重建方法主要分为数据驱动和模型驱动两类。基于数据驱动的方法主要利用道路自身的集合特点,从形态学的角度提取线特征实现道路模型重建;基于模型驱动的方法需要先通过提取模型组件的几何特征形成参数化的建模知识,然后解析这些参数以生成所需的几何模型,最后将纹理文件映射到模型表面实现道路模型重建。由于城市道路数据不可避免存在车辆、植被等物体遮挡,一般需要在分割或者建模过程中优化,利用检测网络识别道路上的遮挡,将其对应的三角网压平并添加重复的纹理以实现去除遮挡的目的(Zhu等,2021;Ma等,2022)。针对复杂的道路网结构需要结合GIS道路、DEM高程、GPS轨迹等多源数据提高道路模型的网络结构化,进而提升道路实体模型的重建精度。纹理映射将纹理空间的像素映射至屏幕空间的像素,是建立二维影像与三维物体表面对应坐标关系的过程。目前纹理映射算法多针对倾斜影像密集匹配点云生成的三角网模型,主要纹理映射步骤有可见性检测、纹理影像选择及纹理真实感增强,针对局部数据缺失的纹理信息还需要通过纹理修复技术进行恢复。根据纹理来源,三维纹理映射可分为混合视图纹理映射和单视图纹理映射两种方法。混合视图纹理映射通过将多个视图混合,以生成一致性较高的纹理;单视图纹理映射核心问题是采用马尔可夫随机场(Markov random field,MRF)理论优化纹理质量和不连续性的平衡问题,相较于混合视图方法,单视图纹理映射对于重建误差有更强的抗噪声能力,生成的纹理模型通常能够较好地保留原始图像中的细节(Waechter等,2014)。相较于密集匹配点云重建的三角网模型,对人工地物实体化模型的分段平面进行纹理映射存在以下问题:实体模型单个平面面积较大,常出现一个平面无法在单张影像上完整成像或无法从单张影像上获得最优视角的情况,需将平面进行可视性拆分;相邻地物或建筑物相邻部件之间,可能存在自相交、相互遮挡等复杂拓扑关系,墙面只有局部可见。针对完全缺失的纹理信息,可通过计算并搜索破损图像缺失区域与已知区域相似度最高的样本,并将其复制粘贴到缺失区域内以修复破损图像(Criminisi等,2004)。考虑到建筑物立面纹理较强的规则性,也可利用矩阵补全模型对墙面纹理进行低秩约束来填充缺失信息(Zhang等,2012)。此外,实体三维模型与原始模型存在几何上的偏差,模型边缘处与影像难以精确对应,必要时可采用模拟纹理以满足模型渲染美观度要求。无人机倾斜摄影测量技术经过十余年的发展,在城市三维模型重建与实景三维建设领域已取得了广泛的应用,但目前无人机倾斜摄影三维建模仍存在一些问题。(1)在路径规划方面,传统无人机倾斜摄影及路径规划方式获取的数据存在数据量冗余、数据分辨率及完整度有限等问题,造成三维模型影像纹理分辨率不一致、模型局部空洞或变形。贴近摄影测量、优视摄影测量等新技术面向高精度精细三维建模给出了新的路径规划方式,可面向目标模型表面获取更完整、更清晰的影像,从而满足复杂场景、复杂结构的精细化表达需求。此外,随着无人机自主感知与规避、无人机集群多机协同作业等技术逐渐成熟,有望以低成本、高效智能的方式提供数据量小、覆盖率高、分辨率高的测区影像,满足无人机倾斜摄影高效率、高精度的三维建模需求。(2)在数据来源方面,单纯基于影像数据的三维建模难以恢复弱纹理区域三维特征,且模型仅可表达物体表面特征,易受植被、人工地物附属物等影响。精细的城市三维建模还需借助激光扫描点云、合成孔径雷达影像等数据。同时,根据应用场景的不同,航空、航天、地面、地下等不同观测尺度的数据需按模型精度、模型精细程度、语义精度等要求采集。多源异构数据的联合采集与融合处理技术有待完善,面向城市三维模型按所需多细节层次(level of details,LOD)等级获取最优数据,将为城市三维模型重建提供数据保障。(3)在建模技术方面,目前城市实体三维模型依然主要依赖人工绘制,离自动化生产尚存在一定距离。大范围城市实体建模需从应用出发,打通从数据获取到实际应用的完整技术路线,按需完成全要素多细节层次城市模型重建任务。此外,机器学习方法的迅速发展已在点云处理、影像分类等任务中广泛应用,但在模型重建,特别是实体三维模型重建方面仍处于探索阶段。基于深度学习的三维模型重建技术可在几何与语义一体化、真实场景渲染等方面取得有效推进,进一步加速实景三维模型建设进程。
(4)在模型表达方面,目前以点、线、面为主要基元的三维模型真实性表达采用先建模再渲染的方式,已应用于各省或市实景三维模型重建中,但自动化重建技术仍难以对室内场景、反射性纹理表面等进行高精度重建。近年来,以NeRF为代表的隐式表达方法通过先渲染再建模的方式实现场景的沉浸式渲染,是未来城市级三维模型重建的潜力方向。如何将具有几何视觉的显式表达进一步融合到NeRF相关工作中,提高渲染和实体建模精度,实现低成本、高质量、高效率城市实体三维建模是下一步要攻克的关键问题。