《武汉工程大学学报》  2026年02期 209-215   出版日期:2026-04-30   ISSN:1674-2869   CN:42-1779/TQ
基于语义分割网络的点云焊缝识别研究



工业机器人是制造业领域中一种重要的自动化装备,被称为制造业的“皇冠顶端的明珠”。工业机器人的研发、制造与应用,已成为评判一个国家科技创新实力及高端制造业发展水准的关键指标[1-2]。自焊接机器人投入实际应用以来,其在制造业诸多领域的普及程度持续提升,涵盖汽车制造、航空航天、船舶工程等关键行业。历经半个多世纪的技术演进,焊接机器人的焊接精度与稳定性不断优化,在改善传统焊接作业的恶劣劳动环境、提升生产效率方面发挥了核心作用,正逐步替代传统人工焊接模式[3]。
近年来,机器视觉技术在机器人焊接领域的应用愈发深入。借助传感器精准识别焊缝轨迹,是实现焊接过程自动跟踪的核心前提。在各类焊缝轨迹识别传感器中,基于图像处理技术的视觉传感器凭借成本可控、环境适应性强等优势,已成为近年来的主流发展方向[4]。针对焊接场景中的复杂干扰因素与轨迹识别难题,国内外学者开展了大量研究:谢盛等[5]针对被动视觉焊缝跟踪系统中的图像去噪难题,提出一种基于帧间匹配的去噪策略,通过融合旋转不变性二进制描述算法与随机采样一致性算法[6]求解两帧图像的单应矩阵,完成焊件图像的精准对齐,再通过帧间灰度替换的方式剔除飞溅区域,最终获得无干扰的清晰焊缝图像;Xu等[7]通过深入分析焊接过程中的光谱特性,优化窄带滤光片的中心波长参数,有效抑制了环境干扰,成功获取了焊缝间隙较窄、轮廓清晰的图像;贾振威[8]聚焦强弧光环境对焊缝识别的干扰问题,设计了一种相贯线焊缝特征点识别算法,实现了该复杂光照条件下焊缝特征点的精准提取;Banafian等[9]研发了基于激光与立体视觉结构光的焊缝跟踪系统,通过优化图像处理算法提升特征提取精度,达成了焊缝轨迹的高精度跟踪。
三维点云数据在逆向工程、工程检测、自主导航、虚拟现实等领域的应用中发挥着至关重要的作用[10],三维点云是一种用于表示三维空间中原始几何信息的数据格式,每个点通常由其三维坐标(x, y, z)以及可能的颜色和强度信息描述,在三维场景理解任务中常用于表示三维模型或场景。近年来,随着深度学习和计算资源的迅速发展,大规模三维点云公开数据集(例如ScanNetV2 [11]、SemanticKITTI [12])的发布,推动了三维点云领域的研究和应用[13-15],基于点云数据的焊缝识别方法成为研究的热点。点云数据能够全面、真实地反映物体的三维形态,提供比传统二维图像更为丰富的空间信息,因此广泛应用在焊缝识别中。然而,三维点云数据通常包含大量的噪声和冗余信息,在进行预处理后[16],如何从中准确地提取出焊缝区域并进行有效识别,依然是一个技术挑战。
为了在复杂多平面工件和强曝光环境中识别并提取所需焊缝位置,本文提出了一种基于语义分割网络的点云焊缝识别方法。基于语义分割网络的焊缝特征点提取框架包括数据收集、数据增广、数据标注、模型训练和模型部署等步骤,用于实现复杂场景下焊缝特征的高效、准确识别,并通过对比实验验证其鲁棒性。
1 基于语义分割网络的焊缝特征点提取
免示教焊接方法所采用的硬件系统结构如图1所示,通过将三维点云数据转化为二维图像形式,利用语义分割网络进行焊缝区域的识别与分割。
<G:\武汉工程大学\2026\第1期\黄昆涛-1.tif>
图1 免示教焊接方法的硬件系统结构
Fig. 1 Teaching-free welding hardware system
焊缝特征点提取框架如图2所示。其中,数据收集、数据增广和数据标注为语义分割网络提供训练数据集,在模型训练成功后,运用训练好的模型对焊缝进行识别。
1.1 视觉模型
视觉模型是实现焊缝区域精准采集的基础,建立合理的坐标系与空间映射关系,为后续空间坐标转换提供支撑。图3展示了双目相机模型,其中,P(xP,yP,zP)为待检测物体表面点,OL、OR分别为双目相机的左、右相机光心,点P在左、右相机成像平面上的成像点分别为p和[p],CL、CR分别代表左、右相机各自的相机坐标系。同时双目相机模型中还存在像素坐标系(用于量化成像点在图像平面的像素位置)和世界坐标系(用于描述场景中物体的全局三维位置),多坐标系的转换是实现从图像到空间定位的核心逻辑。
<G:\武汉工程大学\2026\第1期\黄昆涛-3.tif>
图3 双目相机模型
Fig. 3 Binocular camera model
基于各坐标系间的对应关系,能够明确像素坐标到世界坐标的转换映射关系,随后采用张氏标定法求解相机的内参和外参。定义M为相机内参矩阵与外参矩阵的乘积,其表达式为:
[M=m11m21m31m12m22m32m13m23m33m14m24m34=fxγu00fyv0001RT] (1)
式中:fx、fy分别为相机x轴和y轴的像素单位焦距;(u0,v0)为像素坐标系的原点;[γ]为径向畸变系数;R、T分别为3×3旋转矩阵和3×1平移向量,用于描述左右相机方位和位置关系;m为参数矩阵的系数。
左、右相机由像素坐标向世界坐标的转换对应关系分别为:
[u1v11=ZC1MLxWyWzW1=ZC1m′11m′21m′31m′12m′22m′32m′13m′23m′33m′14m′24m′34xWyWzW1] (2)
[u2v21=ZC2MRxWyWzW1=ZC2m″11m″21m″31m″12m″22m″32m″13m″23m″33m″14m″24m″34xWyWzW1] (3)
式中:ZC1、ZC2分别对应左、右相机坐标系的尺度因子;(u1,v1)、(u2,v2)分别表示左、右相机拍摄图像中成像点的像素坐标;ML、MR分别为左、右相机内参矩阵与外参矩阵的乘积;(xW,yW,zW)为标定板角点的世界坐标。
联立式(2)和式(3)可得:
[(u1m′31-m′11)xW+(u1m′32-m′12)yW+(u1m′33-m′13)zW=m′14-u1m′34(v1m′31-m′21)xW+(v1m′32-m′22)yW+(v1m′33-m′23)zW=m′24-v1m′34(u2m″31-m″11)xW+(u2m″32-m″12)yW+(u2m″33-m″13)zW=m″14-u2m″34(v2m″31-m″21)xW+(v2m″32-m″22)yW+(v2m″33-m″23)zW=m″24-v2m″34] (4)
采用最小二乘法,即可联立求解出(xW,yW,zW)。
1.2 数据收集与数据增广
收集的焊缝图像由深度相机拍摄获取,将获取的图像进行数据增广,通过数据收集与增广构建充足且多样化的数据集,能够为网络模型提供更全面的特征学习基础,其丰富的样本分布可有效覆盖焊接场景的复杂变化,支撑模型训练出更强的泛化能力与识别精度。为了提高网络模型的鲁棒性,选择图像翻转、高斯噪声、亮度调整、中值滤波和仿射变换等数据增广算法,以增加数据集的多样化。示例数据集的增广图像如图4所示。
<G:\武汉工程大学\2026\第1期\黄昆涛-4.tif>[(b)][(a)][(d)][(c)][(f)][(e)]
图4 焊缝数据增广:(a)原始图像,(b)图像翻转,(c)高斯噪声,(d)亮度调整,(e)中值滤波,(f)仿射变换
Fig. 4 Weld seam data augmentation: (a) original image,(b) image flip,(c) Gaussian noise,(d) brightness adjustment,(e) median filtering,(f) affine transformation
1.3 数据标注
在数据标注操作中,采用手动标注的方式使模型可以从复杂背景图像中识别并得到焊缝相邻两平面。为了提高标注的准确性和质量,采用基于点云法向量输出二维图像的标注方法,能够更好地捕捉目标的几何特征,使标注范围更加精准。基于法向量输出的效果如图5所示。对输出的二维图像进行手动标注,相比于原图像,边界范围更加清晰,不易受到光线影响而导致平面边界的标注偏差。
采用基于点云法向量输出二维图像的标注方法包含以下5个步骤:(1)点云数据的加载;(2)点云的去噪(去除离群点和噪声)和下采样(减少数据量)处理;(3)使用最近邻法计算点云中每个点的法向量;(4)将点云数据投影到二维平面;(5)将法向量的3个分量分别映射到RGB通道,生成彩色法向量图像。
<G:\武汉工程大学\2026\第1期\黄昆涛-5.tif>[(b)][(a)]
图5 数据标注图像:(a)原始图像,(b)三维点云投影图像
Fig. 5 Data annotated image: (a)original,(b)3D point cloud projection
1.4 模型训练
语义分割网络为DeepLabv3-ResNet50网络,其结构如图6所示。语义分割数据集包含了通过数据标注获得的PNG格式图像和对应的标签文件。DeepLabv3-ResNet50网络从ImageNet预训练的ResNet50权重开始训练。预训练的网络为语义分割提供较为精准的初始化,用于加速训练并提高模型精度。通过DeepLabv3-ResNet50网络训练得到焊缝平面提取模型,以.pth权重文件的形式保存,为后续平面识别提供模型基础。
DeepLabv3-ResNet50网络结构中ResNet50 作为骨干网络,用于提取图像的多层次特征。DeepLabv3的分割头包括空洞卷积和空洞空间金字塔池化(atrous spatial pyramid pooling,ASPP)模块,用于捕捉多尺度上下文信息。ASPP模块中并行引入具有不同膨胀率(如 6、12 等)的空洞卷积层,同时结合全局平均池化层,增强模型对多尺度特征的表达能力。DeepLabv3-ResNet50的损失函数表示为:
[L=-1Ni=1Nc=1Cyi,cln(pi,c)] (5)
其中:N是图像中的像素总数;C是类别总数;yi,c是真实标签的one-hot编码,若第i个像素属于第c个类别,则yi,c=1,否则yi,c=0;pi,c是模型预测的第i个像素属于第c个类别的概率。
与最近广泛使用的语义分割网络(如FCN和U-Net)相比,DeepLabv3-ResNet50 通过引入空洞卷积和ASPP模块,显著提升了模型对多尺度特征的捕捉能力,同时保持了较高的计算效率。其中空洞卷积的公式为:
[Yfa,b=m=1Mn=1NXfa+r?m,b+r?n?wm,n] (6)
其中:Xf是输入特征图;Yf是输出特征图;w是卷积核权重;r是空洞率,控制卷积核中元素之间的间隔;M和N分别是卷积核的高度和宽度;a、b分别是输出特征图的行列坐标。
1.5 模型部署
首先,将训练得到的.pth权重文件转换为TorchScript格式(.pt文件),并将输入的焊缝图像转换为张量。其次,使用LibTorch提供的C++接口加载TorchScript模型,并对输入的焊缝图像进行语义分割预测,根据分割结果,提取焊缝相邻平面点的图像坐标。最后将像素坐标反向投影回三维点云计算三维平面。
1.6 特征点提取
特征点提取部分将提取的焊缝相邻平面点反投影回三维点云中后,通过平面求交算法,提取出焊缝线段,根据线段在点云中的坐标信息,转换为机器人坐标系中的三维坐标,用于机器人焊接路径规划。
在世界坐标系下,由焊缝相邻两平面的法向量[n1,n2],求出交线向量[v]:
[v=n1×n2] (7)
交线参数方程为:
[r(t)=p0+t?v] (8)
其中:[p0]是焊缝相邻两平面交线上一点P0的位置向量;定点P0是交线上任一点,可通过联立焊缝相邻两平面的不定方程求解得到;t是直线方程参数。
选取焊缝平面提取模型计算所得的一对矩形平面,遍历两个矩形平面的所有点,筛选与交线距离满足预设阈值的点并汇聚成点集,该点集即为交线段的点云。提取该点集中x坐标的最小值xmin和最大值xmax。当x坐标取xmin和xmax时,可分别求得焊缝相邻两平面的交线与矩形边界的交点P1、P2,即为焊缝线段的两端端点。随后,将焊缝线段的端点P1和P2代入坐标转换公式,即可计算出其在机器人坐标系下的位置。
2 实验与结果
2.1 基本设置
实验系统主要包括工业计算机、视觉传感器、焊接机器人、机器人控制器和焊接机。计算机配备Intel i7-10700 CPU和NVIDIA GeForce RTX-3070 GPU,机器人使用ABB IRB 1300_10六轴机械臂,视觉传感器为MINI_F_130_5W。工业计算机和机器人控制器通过以太网进行通信。
工业计算机上运行的操作系统是Windows 11。由于Windows不是实时操作系统,因此在Windows中引入了实时扩展套件Kithara以确保实时性能。作为一个实时系统,工业计算机每30 ms向机器人控制器发送测量数据,机器人的控制周期为40 ms。
2.2 焊缝平面提取模型训练
模型训练:在机器人焊接过程中收集了200张原始焊缝图像。然后,通过数据增强获得 1 000张焊缝图像,其中200张来自添加噪声,200张来自图像滤波,200张来自图像翻转,200张来自亮度调整,200张来自仿射变换。将包含1 200张图像的数据集按照9∶1的比例划分为训练集和测试集,训练轮次140次,类别区域3类,交并比训练阈值为0.50。
训练结果:如图7所示,经过140 轮训练后,每轮测试集中120张图片的平均损失值达到 0.013。所有类别的平均像素准确率为95.3%。
<G:\武汉工程大学\2026\第1期\黄昆涛-7.tif>[100
80
60
40
20
0][平均像素准确率 / %][0.25
0.20
0.15
0.10
0.05
0.00][平均损失值][0.15
0.12
0.09
0.06
0.03
0.00][学习率 / %][0 20 40 60 80 100 120 140
轮次][平均像素准确率
平均损失值
学习率
]
图7 焊缝平面提取模型训练曲线
Fig. 7 Weld plane model training curves
2.3 系统验证
针对焊缝识别提取中环境光强反射引发过度曝光、降低精度的问题,聚焦反光干扰场景,开展焊缝识别方法研究。搭建强曝光等典型工业环境测试场景,对比焊缝区域强曝光与无曝光工况下的实验结果如图8所示。结果表明,所提方法在光照剧烈变化、强反射干扰环境中,展现出更优鲁棒性,可有效识别焊缝,为工业焊接自动化提供可靠技术支撑。
由于焊件表面反光噪声的干扰会影响信息提取,传统的无反光焊缝提取算法并不适用,而采用文献[17]所用几何特征的方法、文献[18]所用条纹特征的方法和本文所用方法能够在反光噪声干扰下识别焊缝点。几何特征方法的焊缝识别准确率为69.2%,条纹特征方法的焊缝识别准确率为92.4%,而本文方法的焊缝识别准确率为95.3%,提高了反光噪声干扰下识别焊缝点的准确率。
为了验证系统精度,将其生成的焊接轨迹与人工示教方式获取的轨迹进行对比分析与偏差量化,图9中虚线标记的离散点位为系统自主生成的焊接轨迹路径点,实线为人工示教轨迹的基准位置。两者的位置偏差分布情况如图10所示,经计算,系统生成轨迹与示教轨迹的平均偏差为 0.208 mm,均方根差为 0.212 mm。实验结果显示,基于立体视觉的焊缝自主识别系统所生成的轨迹,与人工示教轨迹的贴合度良好,能够满足常规焊接作业的精度需求。



<G:\武汉工程大学\2026\第1期\黄昆涛-10.tif>[0 10 20 30 40 50
轨迹点序号][0.30
0.27
0.24
0.21
0.18
0.15][偏差值 / mm]
图10 系统生成轨迹与示教轨迹偏差分布
Fig. 10 Deviation distribution between the system-generated trajectory and the manual teaching trajectory
3 结 论
(1)为了满足具有多平面的复杂工件在光照变化环境下的自动化焊接需求,构建了融合二维语义分割与三维点云技术的焊缝识别方法。该方法通过二维语义分割网络精准提取图像中焊缝平面的特征区域,再将提取的像素坐标反向投射至三维点云,结合点云信息完成焊缝三维坐标的计算,实现了复杂场景下焊缝特征的高效、准确识别。
(2)与现有的焊缝特征点提取方法相比,基于语义分割网络的点云焊缝识别方法,能在光照变化环境下从多平面复杂工件中提取出焊缝,语义分割网络可以持续更新,因此通过在新的焊缝数据集上进行训练,焊缝特征点的提取性能也会不断提升。为了验证焊缝提取方法的有效性,搭建了机器人焊接系统,实验结果表明,焊缝识别准确率为95.3%,平均偏差为0.208 mm,证明了该方法的可靠性和有效性。此外,该方法借助语义分割网络的特征学习能力,提升了反光噪声干扰下焊缝点的识别准确率。