首页 > 最新动态 > 时空信息学报丨河海大学葛莹教授等：基于无人机影像的建筑外墙裂缝自动检测技术及模型性能评估

最新动态

时空信息学报丨河海大学葛莹教授等：基于无人机影像的建筑外墙裂缝自动检测技术及模型性能评估

2026-06-0416

基于无人机影像的建筑外墙裂缝自动检测技术及模型性能评估

葛莹¹，马毓卿²，邹凯²，李勇¹，谢锡飞²，

张莹颖²，王鸿燕³，张峰硕²，吕施霖²

1. 河海大学地球科学与工程学院，南京 211100；
2. 国网浙江省电力有限公司综合服务分公司，杭州 310003；
3. 自然资源部国土卫星遥感应用中心，北京 100048

摘要：随着我国城市化进程的加速，大量高层建筑步入“中年服役期”，外墙空鼓、脱落等安全隐患日益突出。传统人工巡检效率低、风险高，难以满足规模化、常态化的检测需求。针对裂缝分割中细节保留与长程结构感知难以兼顾的问题，为实现无人机建筑外墙裂缝自动检测，本文围绕“无人机航拍+深度学习”技术路径，构建并评估层次化的模型比较框架。以U-Net为基准，依次引入残差连接、注意力机制，以及Transformer框架，构建递进式的改进系列模型；并引入SegFormer、DeepLabV3+两种已有主流模型，以比较不同技术路线的性能。此外，通过损失函数比较实验，分析不同损失函数在背景类别不平衡场景下裂缝检测性能表现。结果表明：①所提TransUNet取得了最优的综合性能，交并比、F1 分数值分别达到 81.06%、 89.48%，显著优于经典U-Net及其改进模型；所提Residual U-Net则在性能与稳健性上取得了最佳平衡，是实际部署中可靠、高效的备选方案。②F1 损失函数在背景类别不平衡下具有最佳平衡性，交并比值达到77.59%。总体上，融合全局建模与局部感知的混合架构更具优势。

关键词：建筑外墙；无人机航拍影像；裂缝智能检测；U-Net；Transformer框架；图像分割

引用格式：葛莹, 马毓卿, 邹凯, 李勇, 谢锡飞, 张莹颖, 王鸿燕, 张峰硕, 吕施霖. 2026. 基于无人机影像的建筑外墙裂缝自动检测技术及模型性能评估. 时空信息学报, 33(2): 155-172
Ge Y, Ma Y Q, Zou K, Li Y, Xie X F, Zhang Y Y, Wang H Y, Zhang F S, Lyu S L. 2026. Automatic detection and model performance evaluation for building exterior wall cracks based on UAV imagery. Journal of Spatio-temporal Information, 33(2): 155-172, doi: 10.20117/j.jsti.202602009

1 引言

自2000年起，中国高层建筑建设进入高速发展期。饰面砖（包括釉面砖和通体砖）凭借其美观、耐用的特点，成为当时高层建筑外墙饰面的主流选择。这类材料通常采用水泥砂浆粘贴的方式，受当时施工工艺的限制，外墙系统在诸多关键环节存在缺陷，导致抹灰层与黏结层产生细微裂缝。如今，这批建筑进入“中年服役期”，在温度应力与湿气侵蚀的作用下，裂缝不断发展、连通，加剧了饰面层的空鼓、脱落，严重威胁人民的生命财产安全。

传统的裂缝检测依赖于人工巡检，费时费力，主观性强，且在高层建筑难以实施，导致一些潜在危险无法及时发现和解决。因此，亟须发展一种快速的外墙裂缝自动检测方法，实现高层建筑日常检查和维护。近年来，无人机、人工智能等技术的广泛应用使得建筑裂缝自动检测成为可能（陈军等，2025）。无人机围绕高层建筑立面自主巡检，结合图像识别、大数据分析和深度学习算法，可快速、准确地评估建筑物外墙的健康状况，为建筑结构智能管养提供了强有力的技术支持。

卷积神经网络（convolutional neural network，CNN）因其强大的图像特征学习能力成为诸多领域的研究热点（廉慧洁等，2023；张泽瑞等，2004；刘秀慧等，2025；徐子阳等，2025）。如Zhang等（2016）首次将CNN用于道路裂缝检测。自此被广泛用于诸如隧道（刘新根等，2018；常惠等，2021）、道路（翁飘等，2019；李朝勇等，2023）、桥梁（朱苏雅等，2019；乔朋等，2024）、水工建筑物（胡强等，2023；朱鹏瑞等，2024）、建筑外墙（Chaiyasarn等，2018；蔡天池等，2022； Loverdos和Sarhosis 2022）等混凝土结构裂缝检测。其中，U-Net采用对称的编码器–解码器结构，借助跳跃连接实现多尺度特征融合，从而提升裂缝的细节提取能力。在建筑外墙裂缝检测领域，如 Yang等（2018）引入了全CNN，实现了像素级到裂缝级的图像分割，显著提高了自动检测效率；Liu等（2019）提出了融合多尺度特征DeepCrack，在复杂图像背景下的裂缝分割任务中展现出了良好的稳健性；刘春等（2022）、蔡天池等（2022）采用深度残差网络ResNet-101进行了外立面裂缝分割。然而，U-Net因其卷积操作的局部性，降低了图像块间长距离依赖，使其在图像长距离建模方面存在不足（Strudel等，2021）。为此，如Zheng等（2021）采用了ViT（vision Transformer）框架处理图像分割问题，依靠自注意力机制构建图像块之间的关系，以弥补U-Net在感受野上的不足；Xie等（2021）提出了一种高效的改进结构SegFormer，以分层式Transformer编码器来捕获多尺度特征，再辅以轻量级多层感知器（multilayer perceptron，MLP）解码器进行特征融合与上采样。此外，Transformer框架的出现也催生了对U-Net与Transformer框架的融合应用（李文生等，2024）。例如，Chen等（2021）提出的TransUNet，既保留了U-Net的局部细节提取能力，又充分利用了Transformer框架全局语义信息的捕捉能力；Chen等（2023）提出了SRCBTFusion- Net，同样采用编码器–解码器结构，编码器是由堆叠残差卷积块和Transformer双编码结构组成，前者提取局部特征而后者捕获全局语义信息。

与此同时，DeepLabV3+因其结合编解码结构与空洞空间金字塔池化（atrous spatial pyramid pooling，ASPP）的多尺度建模能力，在多个领域受到了广泛的应用，如Ji等（2020）将其应用于沥青路面裂缝检测，证明了在裂缝分割方面具有更优的检测精度。尤其是，在砌体结构裂缝检测领域，Loverdos和Sarhosis（2022）系统评估了U-Net、DeepLabV3+、U-Net（SM）等多种深度学习模型的表现；Dang等（2022）证实了DeepLabV3+在砖墙砌体裂缝分割任务中具有突出性能，可实现对裂缝区域的精准捕获；Ali等（2023）表明DeepLabV3+在道路、外墙等裂缝检测场景中，均取得了较高的交并比与分割精度；Alipour和Harris（2023）将DeepLabV3+应用于无人机建筑外墙检测，同样展示了其对宽裂缝甚至细裂缝的精确分割。总之，上述研究证实DeepLabV3+在裂缝分割中表现出较高精度。然而，也有部分研究表明其在砖缝、污渍等背景干扰下，裂缝误报率仍然较高（Liu等，2020；Li等，2022；Wang等，2023）。为此，如Asadi等（2022）将TransUNet引入裂缝检测，取得了优于DeepLabv3+、U-Net等传统CNN的分割性能。因此，如何提升DeepLabV3+在复杂场景下的裂缝识别稳健性仍是当前研究的难点。裂缝分割任务存在着细节保留与长程依赖建模的内在矛盾，单一模型架构难以两者兼顾。进一步地，何种架构特性最有助于提升裂缝分割的稳健性与精度，仍为当前亟须解决的核心问题。

本文设计层次化的模型对比框架。主要包括如下两条主线：①以U-Net为基准，逐步引入残差连接、注意力机制，以及Transformer框架，构成一个旨在提高上下文建模能力的U-Net增强系列，以观察不同改进模块的贡献。②引入Transformer框架的SegFormer（Xie等，2021）、基于空洞卷积的DeepLabV3+（Chen等，2018），作为外部参照；并比较分析U-Net、Residual U-Net、Attention U-Net、TransUNet、MultiLevel-TransUNet、SegFormer及DeepLabV3+共七种模型在外墙裂缝任务中的表现，从而为深度学习模型的选择提供超越直观经验的实证依据。

2 研究方法

面向建筑外墙裂缝检测的实际工程应用，总结归纳出适用于图像分割算法及其性能的衡量指标，从而快速找到适用于无人机影像分割的模块以组成网络结构。

2.1 改进U-Net

U-Net直接用于建筑外墙裂缝检测时会面临诸多挑战。例如，裂缝在图像中像素占比较低，导致严重的背景类别不平衡；建筑外墙影像较为复杂，常存在砖纹、污渍、阴影等干扰，且裂缝本身形态多样、跨度较大。再如，模型会随着网络深度的增加，遇到网络退化的问题，即深度增加，训练误差随之增多，限制了U-Net的图像特征提取能力。为此，从数据和模型两个层面，对U-Net进行改进。

在数据层面，采用特征增强提高样本多样性、模型泛化能力和稳健性。在模型层面，围绕U-Net针对特征融合进行如下两方面的网络结构优化：①在跳跃连接中引入注意力机制，增强对裂缝特征的筛选与融合能力，抑制背景干扰；②在瓶颈层加入堆叠残差模块，强化梯度传播与深层特征信息的提取，以缓解网络的退化。

上述改进在保持U-Net优势的同时，还能提升其对微弱裂缝特征的感知与分割能力。另一改进策略是引入ResNet架构作为U-Net的主干网络，即通过使用残差网络，如ResNet34、ResNet50甚至ResNet101，让模型学习深层网络的特征映射。其目的在于：①解决深层网络退化问题，支持U-Net的深度网络构建，从而获得更大的感受野和更强的特征提取能力；②缓解梯度消失，意味着网络底层参数（负责提取边缘、纹理等基础特征）能得到充分训练，确保模型捕捉到裂缝的细微特征；③利用强大的预训练权重，实现高效迁移学习。具体改进步骤如下所述。

1）加入数据增强

数据增强是对样本图像进行几何变换、添加噪声和插值等操作，以增大样本量，提高模型的泛化能力和稳健性。针对裂缝细且稀疏的情况，数据增强只做几何和光照变化以增加数据多样性（表1）。

2）加入注意力模块

注意力模块的作用是强化裂缝特征、抑制背景干扰。在无人机外墙检测中，裂缝的状态丰富且不固定，加入注意力模块可以从通道、空间和门控等方面提高裂缝分割的准确性。具体包括：①通道注意力（squeeze-and-excitation，SE）模块（Hu等，2020），能自动获取各特征通道的重要程度，强化裂缝有关的通道响应，抑制对分割任务贡献较小的特征。在编码器中，可显著提升裂缝特征的提取性能。②门控注意力（gating attention，GA）模块（Oktay等，2018），通过在跳跃连接中引入门控机制，抑制与裂缝无关的噪声，如砖缝、污渍、阴影及保温层纹理，仅允许与裂缝相关的边缘与线状结构特征通过，有效提高了模型的注意力权重。③自注意力模块（Vaswani等，2017），包括单头自注意力机制（single-head self-attention，SHSA）、多头自注意力机制（multi-head self-attention，MHSA），能捕捉图像不同区域的关系，理解图像全局上下文信息，对于长距离裂缝捕捉有利。单头和多头的区别在于后者能同时关注多个不同的区域和尺度。④空间注意力（spatial attention，SA）模块（Xu等，2015），引入图像的空间位置信息，将裂缝所在位置的特征值放大，同时抑制背景、噪声等无关的特征值，有助于模型精确定位裂缝的边界和位置。

加入不同注意力模块的U-Net见表2。其中，SHSA模块，能捕捉图像不同区域的关系，理解图像全局上下文信息。且经测试表明，SHSA具有长距离依赖建模的优点，有助于长条状、蜿蜒曲折的裂缝分割，在裂缝特征感知与分割方面效果最好。另外，裂缝检测通常会受到砖缝、污渍、阴影等噪声干扰，自注意力机制还可通过利用全局上下文抑制局部噪声，以提高裂缝分割精度的稳健性。

3）加入残差模块

在图像分割领域，残差模块被广泛用于U-Net结构的改进（He等，2016）。引入残差机制以解决U-Net训练时出现的梯度消失、网络退化等问题，且在特征融合中保留更多的图像特征信息。

采用三种模块扩展结构：①残差模块（Xiao等，2018）。针对裂缝这种像素占比极小、特征细微的目标，将编码器和解码器中的普通卷积层替换为残差模块，既解决了编码器由深层网络结构带来的梯度消失和特征退化等问题，又提升了解码器的高级语义和低级细节的融合能力，使得模型更有效地学习裂缝与背景之间的特征差异，改善裂缝和背景不平衡带来的负面影响。②堆叠残差模块（Ibtehaz和Rahman，2020）。在瓶颈层堆叠两个以上的残差模块，增强了网络的表征能力和非线性拟合能力，使模型更好地理解具有全局语义特征的裂缝结构，如贯穿整个外墙的裂缝，避免将孤立的短裂纹或噪声误判为裂缝，降低误检率。③残差机制。在跳跃连接处加入残差模块，既保留了深层特征映射的全局语义信息，又能防止编码器的低级特征和解码器的高级特征融合时造成的重要语义丢失，进一步加强对裂缝上下文的理解。

加入不同残差模块的U-Net见表3。经测试表明，其在外墙裂缝检测时区别不大。相对来说，编码器和解码器嵌入残差模块最有效，主要是编码器或解码器每一层都能提升模型对全局语义特征的捕获能力，较准确地识别“贯穿整个外墙的裂缝”这类结构，从而降低误检率。

4）加入残差模块和注意力模块的组合

具体而言，实验构建U-Net及其改进Residual U-Net、Attention U-Net共三种模型。具体为：①U-Net，作为基准模型，采用编码器–解码器结构，编码器、瓶颈层与解码器均使用普通卷积模块，通过跳跃连接融合浅层与深层特征；②Residual U-Net，在U-Net基础上将编码器与解码器中的普通卷积替换为残差块，以评估残差机制对梯度传播与特征复用能力的改善效果；③Attention U-Net，在瓶颈层引入通道注意力机制，系统验证其对全局语义信息的筛选能力与对关键裂缝特征的增强作用。

因此，根据加入注意力模块和残差模块的测试，针对建筑外墙裂缝的形态特性与检测难点，对U-Net实施一种最小化结构改进，如图1所示。在编码器与解码器中嵌入残差模块以确保训练稳定与特征复用，同时在瓶颈层集成SHSA模块以赋予模型全局推理能力。总之，这种结构既能保留残差模块的局部细节提取能力，又能发挥注意力机制长程依赖建模的优势。

2.2 引入Transformer架构的改进U-Net

为提升外墙裂缝检测的精度，基于上述改进的U-Net以Transformer构建两种方式融合模型，从不同层面增强裂缝特征分割能力。第一种是将Transformer嵌入瓶颈层，以强大的全局上下文感知能力获取裂缝信息，如图2所示；第二种是将Transformer逐层融入编码器，在多个尺度上建立长程依赖关系，从而在复杂背景下保持裂缝提取的连续性与完整性。经测试表明，第一种比第二种更加有效，因此实验选用第一种方式。

值得注意的是，图像序列化是图像Transformer框架实现的关键（Ranftl等，2021）。但这种图像序列化难以从划分后的图像中提取全局特征。同时，Liu等（2022）通过将第二次图像划分沿水平或竖直方向偏移一段距离再重新划分，避免每次图像序列化固定带来的语义提取有偏。鉴于此，实验将外墙裂缝检测无人机航拍影像按旁向重叠率和航向重叠率进行划分，以此建立训练集，实现相邻窗口的信息交流，从而提高外墙裂缝分割精度。

综上所述，以Transformer为代表性网络，实验构建TransUNet、MultiLevel-TransUNet两种模型。具体而言：①TransUNet，即引入Transformer架构的改进U-Net，将瓶颈层替换为Transformer框架，研究其全局上下文建模能力在提升裂缝语义一致性与长程依赖捕捉方面的有效性；②MultiLevel-TransUNet，采用由图像序列化、Transformer编码与下采样构成的多层级编码器，考察原生多尺度全局建模机制在复杂裂缝结构识别与断裂连接方面的性能。

2.3 模型评价

评价参数和损失函数是评估裂缝检测模型的性能指标。前者是评价模型好坏的关键；后者是衡量预测值与真实值之间的差异。例如，为了对英国式建筑外墙裂缝检测模型进行评估，Loverdos和Sarhosis（2022）以准确度（accuracy，ACC）、F1分数（F1 score，F1）、精确率（precision，Pr）、召回率（recall，Re）为评价指标，以二值交叉熵（binary cross entropy，BCE）、加权交叉熵（weighted cross entropy，WCE）、Focal损失（focal loss，FL）和F1 损失（F1 loss，F1L）为损失函数，系统评价了U-Net及其改进的裂缝检测模型。此外，考虑裂缝图像的类别不平衡，如背景像素远多于裂缝像素，除了沿用上述四个评价指标，实验还增加交并比（intersection over union，IoU）指标，以精确描绘裂缝空间形态，有助于评价裂缝形状提取的精度情况。

1）评价参数

实验主要解决“裂缝”“非裂缝”二分类图像语义分割的问题，在评价参数中常用到二分类混淆矩阵。其中，TP为正确检测到的裂缝像素数量；TN为正确检测到的非裂缝像素数量；FP为错误检测到的裂缝像素数量；FN为错误检测到的非裂缝像素数量。

（1）准确度是指所有像素中被正确预测为裂缝的比例。用于模型性能的整体衡量，但在裂缝检测中可能会严重失真：

（2）精确率是指在所有预测为裂缝的像素中含有真实裂缝的数量。用于衡量模型“误报”程度：

（3）召回率是指所有真正的裂缝像素中被模型成功预测的比例。用于衡量模型的“漏报”程度：

（4）F1为精确率和召回率的调和平均数，弥补了精确率和召回率各自缺陷，尤其适用于裂缝检测类别不平衡的数据集（Lin等，2017）：

（5）IoU为衡量模型预测区域与标注区域之间重叠程度的指标。用于直接反映模型还原裂缝真实形态的能力（Rezatofighi等，2019）：

在裂缝检测模型评价中，IoU、F1两个参数互为补充。前者衡量预测值在空间几何上的吻合度，对边界精度较敏感；后者则综合考量了像素分类的精确性，有效平衡误报与漏报。对于裂缝检测而言，IoU确保裂缝形态的真实还原，而F1保证检测结果的可靠性。同时采用这两个性能指标，是评价模型综合性能的最佳实践。

2）损失函数

BCE对类别不平衡极度敏感，导致模型对稀疏的裂缝特征学习不足；WCE通过静态权重可提高裂缝类别的准确性，但权重设置依赖经验；FL采用动态缩放机制降低背景样本损失的贡献，使模型聚焦于稀疏的裂缝特征；F1L源于Dice损失（Dice loss，DL）系数，度量裂缝预测结果与标签之间的相似度，特别适合以“分割完整性”为目标的裂缝检测任务（于营等，2023）。进一步地，还引入Dice系数（Milletari等，2016），以处理裂缝与背景像素高度不平衡的问题。构建两个损失函数组合，即BDL（BCE Dice loss）与FDL（Focal Dice loss）。前者结合了BCE梯度稳定和Dice损失关注裂缝的优势，实现了裂缝分割精度与分割形状的平衡；后者集成了FL稀疏裂缝预测与Dice损失裂缝几何形态处理的优点，理论上能驱动模型在样本极度不平衡时对细微裂缝精准定位和完整分割。

（1）BDL，其中，BCE能提升模型区分裂缝与背景的识别能力，而DL具有处理样本类别不平衡的强稳健性：

式中，α、β为两种组合方式的调整系数。若侧重DL，则α= 0.5、β= 1，即更关注分割质量；否则，α= 1、β= 0.5，即考虑训练稳定性。

（2）FDL，其中，FL能动态应对样本类别失衡，确保模型关注于裂缝分割；DL能衡量预测值与真实裂缝在几何形状上的重叠度：

其中，α取值 0.3～0.7、β = 1，即更强调分割精度。

3 实验设置

以无人机影像外墙裂缝检测工程为例，使用自建数据集对U-Net及其改进、Transformer框架及其双分支结构进行详细评估。为验证模型可行性，与近年来主流裂缝图像分割模型进行比较分析。

3.1 数据集构建

实验数据集为课题组自行采集的无人机外墙裂缝航拍影像，数据来自近两年内不同时期、地点与环境下的十多栋建筑。这些楼宇建于2000年前后，其外立面广泛采用了喷涂饰面。随着材料老化，其外立面存在不同程度的开裂甚至脱落情况。使用大疆 Mavic 3T 无人机，采用自动环绕飞行模式并确保镜头正对建筑外立面，航向与旁向重叠度均设为80%，飞行高度保持在80～120 m。

为构建高质量的训练数据集，从自采的10万余幅原始影像中，筛选出涵盖不同环境的1万余幅图片，并将其裁剪为256像素×256像素的子图像。首先，随机选取3000幅包含裂缝的子图像，使用LabelMe进行精细手工标注，生成像素级标签。将这些数据按7︰3的比例划分为初始训练集与测试集，用于训练TransUNet初版模型。随后，利用该模型对剩余未标注的裂缝图像进行推理预测，并开发了一套半自动筛选流程，即：将模型预测结果与原始图像叠加，由标注人员快速核查，仅将模型预测正确（即预测裂缝与真实裂缝在形状和位置上基本吻合）的图像及其伪标签保留；将这些筛选出的“高置信度”图像加入训练池，进行新一轮的模型训练与迭代筛选。通过多次循环，构建一个包含6933幅高质量标注图像的数据集。最终，从6933幅标注的数据集中分别筛选出4853幅、1040幅、1040幅分别作为实验的训练集、验证集和测试集，对本文模型进行详细的评估。裂缝样本图像包含各种复杂度的裂缝，如图3所示。

考虑到外墙裂缝数据样本极不均衡，裂缝像素在样本图像中占比较低，因此原始数据集只选择包含裂缝的子图像用于实验。再通过对训练集进行数据增强操作，包括旋转、裁剪、平移、缩放、翻转、颜色扰动和添加噪声，增大模型训练时的样本量，提高模型的泛化能力。经数据增强后，训练集扩展到17180幅，评估集和测试集保持不变。

3.2 实验设计

实验环境配置32 GB内存、2.8 GHz CPU和NVIDIA GeForce RTX 3060 GPU服务器。使用Python 3.9和Pytorch 1.13.1，以及CUDA12.6和cuDNN8.9.7.29搭建深度学习框架。采用Adam优化器。由表4可知，外墙裂缝分割方法超参数设置详情。所有实验设置相同的训练参数，以F1L为损失函数，使用相同的数据集、训练/测试划分、数据增强策略、超参数、随机种子及硬件环境。

在统一数据集下，设计并进行两组实验。一是，模型对比实验。通过逐步引入注意力模块、残差模块及Transformer框架，系统分析各组件对裂缝分割性能的独立和协同贡献。二是，损失函数比较实验。旨在通过比较不同损失函数在解决裂缝–背景极端不平衡问题上的表现，评估其对训练过程稳定性及最终分割精度的影响。

1）模型对比实验

为系统评估不同架构对裂缝分割性能的影响，实验分为两大系列，分别是U-Net系列和非U-Net系列，总共七种模型。具体地，实验搭建的U-Net系列，如上文所述三种模型。Transformer代表性网络，如上文所述两种模型，以及SegFormer（Xie等，2021）。主流但非U-Net图像分割模型，典型代表是DeepLabV3+（Chen等，2018）。其中：

（1）SegFormer（Xie等，2021），基于分层Transformer编码器与轻量级MLP解码器，评估纯Transformer框架在裂缝分割任务中实现的精度–效率平衡能力；

（2） DeepLabV3+（Chen等，2018），以ResNet50为主干，结合ASPP模块构建编码器，通过渐进式上采样解码器验证多尺度感知机制对裂缝结构完整性与边界定位精度的提升作用。由表5可知，模型对比实验中基于不同网络的参数详情。

2）损失函数比较实验

为评估不同损失函数对裂缝分割性能的影响，以U-Net为基准，系统开展损失函数比较实验。上文所述六类损失函数的实验参数设置见表6。目的是重点分析各损失函数在应对裂缝–背景像素极端不平衡时的表现，并从模型收敛、分割精度、边界质量及对细裂缝的敏感度等多个维度进行综合评价，从而为模型优化提供损失函数的遴选依据。

4 结果分析

基于模型对比与损失函数比较两组实验，系统分析上文所述七种模型的核心模块、实现流程及其相互关系。

4.1 结果比较分析

4.1.1 模型性能对比分析

以U-Net为基准，在裂缝数据集上进行七种模型架构的对比实验。不同模型的裂缝分割结果见表7。具体如下所述。

1）基准模型组（U-Net及其改进）

该组模型在裂缝分割任务中均表现出稳定的性能。U-Net的F1为84.48%、IoU 为73.18%，为后续改进确立了性能基准；Residual U-Net表现最为突出，其精确率、F1与IoU均显著优于基准，证实了在编码器–解码器中嵌入残差连接，能有效促进深层特征传播、缓解梯度退化，从而全面提升模型的裂缝分割能力；Attention U-Net则呈现出精确率较高而召回率稍低的特点，表明在跳跃连接中引入注意力机制有助于模型聚焦于裂缝区域、减少漏检，但也可能对部分困难样本，如细小裂缝或噪声边缘，产生一定的误检倾向。

2）Transformer框架组

该组模型验证了Transformer框架在裂缝分割任务中的应用潜力。TransUNet凭借Transformer框架的全局依赖建模能力与基准模型的细节保留机制，在多项指标上明显超越基准模型，F1达89.48%、IoU达81.06%，体现了混合架构的优越性。MultiLevel-TransUNet进一步引入了编码器多级特征融合机制，其F1为88.15%，与Residual U-Net等模型表现接近，说明多层次特征融合有助于提升Transformer框架对局部细微结构的适应性。然而，SegFormer的表现显著落后，其高召回率（67.66%）与极低精确率（4.92%）形成鲜明对比，表明模型出现了严重的过拟合或结构–数据失配，导致其倾向于将多数像素预测为裂缝。这表明，在裂缝这类裂缝–背景高度不平衡的任务中，单Transformer框架若未搭配适当的正则化策略、损失函数或结构改进，则难以稳定收敛。

3）其他经典架构

DeepLabV3+展现出了不同的性能特点。凭借ASPP模块，在多尺度上下文信息提取方面具有优势，其整体像素分类能力较强，准确度（98.84%）与Residual U-Net、TransUNet模型相当。然而，其F1（88.59%）、IoU（79.69%）均低于表现最佳的Residual U-Net与TransUNet，且验证损失F1L（0.2155）更高，反映了其在细节恢复与边界定位上仍有提升空间。与跳跃连接机制的细节融合能力及Transformer框架全局建模机制相比，DeepLabV3+多尺度空洞卷积融合方法，在此任务中未能展现出高层语义与局部细节的协调关系。这可能是其裂缝分割性能稍逊一筹的原因之一。

总体而言，TransUNet获得了最优的综合分割精度，而Residual U-Net则表现出更稳定的训练特性与泛化能力。相比之下，MultiLevel-TransUNet并未超越TransUNet，说明其多层次编码器设计在裂缝检测任务中并未带来显著的性能提升。值得注意的是，基于单Transformer框架的轻量化模型SegFormer在所有评价指标上均显著落后。这不仅反映出其在本任务上的训练收敛困难，更暗示了其架构在缺乏卷积固有的局部归纳偏置时，对于裂缝这类细微、线状形态的特征提取存在根本性挑战。

4.1.2 损失函数比较分析

根据上文所述六类损失函数在裂缝检测任务中的表现，来研究其在应对极端类别不平衡与细节保留方面的特性，为裂缝检测任务的实际工程应用中损失函数的选取提供依据。考虑到裂缝分割任务的特征，结合表8可知，所评估的损失函数可归纳为如下四种模式。

（1）综合最优型，即F1L，其F1（87.38%）与IoU（77.59%）均为最优；且精确率（86.24%）与召回率（88.65%）达到最佳平衡。这说明其适用于精确量化裂缝尺寸与定位的场景。

（2）高召回倾向型，包括FL与WCE，其召回率极高，分别达98.19%、98.29%；但精确率显著偏低，最低至54.34%。这表明在裂缝检测任务中，为避免裂缝漏检而宁可接受较多误检的策略。

（3）均衡改进型，包括复合损失FDL、BDL，在单一损失函数基础上取得了更好的召回–精确权衡，如FDL的F1为86.67%。这说明其在精细检测中可兼具漏检与误检的平衡。

（4）基准参照型，即BCE，总体表现性能居中，召回率97.91%、精确率66.63%。其主要为评价其他损失函数的优劣提供对比基准。

因此，采用F1L可在裂缝检测的可靠性与精确性之间取得较好地平衡，是当前损失函数的首选。

4.2 模型训练综合评价

对模型的评价不应仅局限于最终性能，还需系统分析其训练过程，以综合反映模型的稳定性与泛化能力。实验选取训练损失（train loss）、训练准确度（train accuracy）、验证损失（val loss）和验证准确度（val accuracy）作为训练过程的核心评价指标，使用F1L为损失函数。基于上文所述模型对比实验的结果，选取Residual U-Net、TransUNet和DeepLabV3+三种代表性模型，对其训练动态进行深入评价与比较。

4.2.1 Residual U-Net模型训练评价

Residual U-Net模型训练曲线如图4所示。其训练过程具有典型性，展现了从随机初始化开始，经过学习、震荡、最终稳定收敛的良好过程，在第21～27轮次附近达到了稳定的性能。主要可分为如下三个阶段。

1）快速下降期

训练轮次为 1～5。模型迅速学习裂缝基本特征。训练损失从0.678迅速降至0.216；训练准确度从0.712提升至0.982；验证准确度在前3轮次持续上升至0.961，但在第4轮次出现异常波动，降至0.108，随后于第5轮次恢复至0.958。这表明模型已初步获得分割能力，但对验证数据的稳定性仍在建立中。

2）波动调整期

训练轮次为 6～20。模型进入深度优化阶段。训练损失进一步由0.199下降至0.156，训练准确度逐步升至0.987左右。此阶段，验证损失与验证准确度出现多次显著波动，如验证准确度在第4轮次触底后，于第11轮次升至0.985，第18轮次又降至0.968。这反映模型在参数空间中持续搜索更优解，验证性能在波动中整体呈上升趋势。

3）稳定收敛期

训练轮次为21～30。训练与验证指标均进入平稳状态。训练损失在0.154～0.156 窄幅波动，训练准确度维持在0.987附近；验证损失稳定在0.127～0.129的低位区间，验证准确度持续高于0.987。这说明最终模型在验证集上表现出稳定且良好的泛化性能。

因此，Residual U-Net借助于残差连接机制保障了训练的稳定性与收敛性，最终裂缝分割模型取得了高精度且稳健的性能，验证了可靠性。

4.2.2 TransUNet模型训练评价

与Residual U-Net明显不同的是，TransUNet模型训练过程优化轨迹呈现独特的“先探索、后跃升、最终稳定”三阶段模式，体现了Transformer与CNN混合架构从初步协调到高效协同的动态学习过程，如图5所示。主要可分为如下三个阶段。

1）探索适应期

训练轮次为1～10。模型初步学习融合Transformer框架的全局注意力与U-Net的局部卷积特征。训练损失从0.696逐渐下降至0.342，训练准确度从0.61提升至0.898，表明模型对训练数据逐渐适应；然而，验证准确度在0.061～0.979剧烈波动，尤其是第10轮次跌至0.061。这反映出模型在融合两类不同结构时泛化能力尚不稳定，仍处于特征协调与结构探索阶段。

2）性能优化期

训练轮次为11～20。自第11轮次起，模型验证性能显著提升并趋于稳定。验证准确度从0.98逐步上升并保持在0.979～0.981，验证损失也稳定在0.204～0.237的较低区间；与此同时，训练损失进一步降至0.301～0.332，训练准确度稳步提升至0.948左右。这表明Transformer框架的全局建模机制与U-Net的局部特征提取已实现有效协同，模型进入快速优化阶段。

3）稳定收敛期

训练轮次为21～30。模型整体进入平稳收敛状态。训练损失在0.302～0.306窄幅波动，训练准确度维持在0.946～0.949的高位；验证损失稳定在0.202～0.205，验证准确度持续高于0.98。最终，模型在训练与验证集上均达到高度一致且稳定的性能表现，显示出良好的拟合–泛化平衡，且无明显过拟合迹象。

总之，TransUNet模型结构在初期需要一定的迭代来协调两种不同的特征提取机制，然而一旦突破关键点，便能凭借全局上下文与局部细节的有效融合，稳健地收敛至卓越性能。这验证了其在裂缝分割任务上兼具强大学习能力与架构优越性。

4.2.3 DeepLabV3+模型训练评价

与上述两个模型的优化过程不同，DeepLabV3+模型训练过程轨迹呈现出显著的波动性。在训练前期经历了多轮剧烈的性能震荡，验证损失、验证准确度多次陡降又快速回升，直至中后期才逐步趋于稳定，如图6所示。主要可分为如下三个阶段。

1）反复失效期

训练轮次为1、5、10、 14、16、18～20。模型多次陷入“预测全体为背景”的失效状态。验证准确度大多维持在约0.95 的高位，但结合验证损失接近1及训练指标变化迟缓可知，模型并未学到有效的裂缝特征，仅通过偏向背景预测获得了表面上的高准确度。这表明优化过程极易陷入无效的局部最优。

2）剧烈波动期

训练轮次为 3～4、6～9、11～13、15、17。模型在脱离失效状态后，验证损失与验证准确度出现大幅震荡。例如，验证准确度在第4轮次为0.949，第6轮次降至0.896，第12轮次又升至0.97。这反映出优化路径极不稳定，模型在有效学习与失效边缘反复徘徊。

3）间歇突破期

训练轮次为21～30。训练后期，模型偶现性能提升。验证准确度多处于0.949～0.979，验证损失也处于0.215～0.315的较低水平，显示其具备中等偏上的表征潜力；然而，优异表现无法持续维持，指标仍存在一定波动。这说明模型始终未形成稳定的收敛平台，泛化可靠性相对有限。

上述分析表明，模型在面临裂缝这类极端类别不平衡任务的挑战时，其多尺度空洞卷积融合机制在训练初期难以像跳跃连接或Transformer框架那样，能够协调全局语境与局部细节之间的平衡。由此看来，DeepLabV3+中复杂的ASPP模块与深度主干网络的组合，在模型优化过程中出现了部分局部最优点与鞍点，导致标准训练策略难以稳定收敛。未来需为其设计更精细的学习率调度、更强的正则化方法或更长的预热周期，以协调多尺度特征融合机制，才得以实现稳定优化。

此外，结合表7可知，考虑F1、IoU指标，TransUNet在实验数据集上取得了最优的整体性能。这得益于Transformer框架对裂缝全局结构的有效建模，同时U-Net能较好地保留裂缝细节。虽然，DeepLabV3+在处理宽裂缝和复杂背景时展现出良好的稳健性，但其训练过程不稳定（图6），且对细裂缝敏感度不足。

4.3 外墙裂缝提取结果分析

为了对上文所述模型的裂缝分割结果进行更直观的展示和比较，在测试集上将裂缝分割预测图转化为灰度图，选取三种裂缝复杂度的数据，得到其结果与输入图像及标签的比较，如图7所示。其中，因SegFormer无法正确输出分割图像，故未展示。总体上，可视化结果与前述定量分析基本一致。无论是简单裂缝还是复杂裂缝，TransUNet、Residual U-Net和DeepLabV3+的分割形状更接近输入的原始图像与真实标签，表明其对裂缝细节具有较好的感知能力，漏检、误检区域相对较少。

从图7（a）来看，在裂缝较少的图像中，分割错误相对较少，但所有模型均存在不同程度的裂缝漏检。其中，Attention U-Net、DeepLabV3+几乎未检出目标，其他模型虽能检出，但范围仍小于标签区域。图7（b）中，对于裂缝较多的图像，所有模型同样出现漏检。Attention U-Net的漏检区域最为显著，其他模型之间漏检率差异不大。图7（c）则反映，在复杂裂缝图像中，漏检与误检的数量和范围均较（a）（b）中明显增加。值得注意的是，在 U-Net 中引入注意力机制的Attention U-Net，并未提升对裂缝结构的识别能力，反而增加了漏检区域；MultiLevel-TransUNet 也出现了类似情况。总体而言，在裂缝分割任务中，TransUNet、Residual U-Net 与DeepLabV3+展现出更优的细节保持与裂缝识别能力，其分割结果与真值吻合较好，漏检与误检均得到了有效控制；而Attention U-Net并未因引入注意力机制而提升性能，U-Net在编码器加入Transformer框架后并未显著改善裂缝识别，说明二者在此任务中的适应性有限。

因此，在实际工程选型中，应优先选用在裂缝敏感性与细节还原上表现稳健的架构，即：若追求最优精度且算力允许，宜采用TransUNet；若侧重稳定、快速的明显裂缝筛查，则可选用Residual U-Net。此外，DeepLabV3+在实验任务中表现波动较大，实践中需有针对性地调整训练策略以确保其可靠性。

5 结论

为满足高层建筑物外墙裂缝自动化检测的实际工程需求，本文在自建数据集上，以U-Net为基准，通过引入残差连接、注意力机制及Transformer框架，构建了一个增强模型表征能力的递进式改进系列，并与SegFormer（Xie等，2021）、DeepLabV3+（Chen等，2018）两个已有主流模型进行了比较分析。实验结果表明，不同架构在裂缝分割任务上存在明确的性能边界与适用场景。

（1）模型架构层面。所提TransUNet取得了最优的综合性能（IoU 81.06%，F1 89.48%），显著优于经典U-Net及其改进模型。所提Residual U-Net则在性能与稳健性上取得了最佳平衡，是实际部署中可靠、高效的备选方案。

（2）损失函数层面。F1L在缓解极端类别不平衡问题上表现最佳（F1 87.38%，IoU 77.59%），能有效平衡精确率与召回率。值得注意的是，FL虽获得最低训练损失，但其分割性能最差，揭示了损失值降低并不等同于模型分割性能的提升。

（3）工程选型层面。本文明确回答了“何种架构更适合实际应用”的问题。TransUNet是追求高精度场景的首选；Residual U-Net适用于需兼顾稳定性与效率的常规巡检；DeepLabV3+则需进一步有针对性地调参以确保稳定。这进一步印证了混合架构在实验任务中的必要性与优越性。

未来研究将围绕构建更丰富多样的裂缝数据集、提升模型跨场景泛化能力等方面展开，以推动研究成果在工程实践中的转化与大规模应用。同时，拓展应用场景，以期为建筑结构健康监测提供更可靠的技术支持。

《时空信息学报》是由自然资源部主管，国家基础地理信息中心、中国地理信息产业协会、黑龙江测绘地理信息局共同主办的中文学术期刊，双月刊。为分享最新研究成果，搭建学术交流平台，中国地理信息产业协会公众号开设“时空信息学报”专栏，独家刊载《时空信息学报》论文，供广大读者研阅。欢迎产学研用各界关注、分享！