基于YOLO v5与层次化分类算法的生活垃圾识别研究

来源：年旅网

∗∗∗第41卷第11期Vol.41No.11JournalofSuihuaUniversity绥化学院学报2021年11月Nov.2021基于YOLOv5与层次化分类算法的生活垃圾识别研究吴超1蒋鹏飞1吕刚2（1.合肥学院生物食品与环境学院；2.合肥学院先进制造工程学院安徽合肥230601）摘要：目前我国传统生活垃圾分类工厂的工作方式仍然以人工分拣为主，为解决工人工作效率低和工作环境恶劣等问题，自动化垃圾分类工厂应运而生，而作为其技术支撑的生活垃圾检测算法则是衡量自动化工厂分拣效率的一个重要指标。文章提出一种基于YOLOv5与层次化分类算法，首先将特征相似、难以区分的垃圾图片整合后作为新的类别数据，裁剪后训练得到分类模型。其次将YOLOv5网络的输出经分类网络得到细分的预测类别，再重新赋予YOLOv5的输出完成识别，最终将此算法应用于生活垃圾的识别工作中。实验结果表明改进算法较原算法模型的AP88提高0.5个百分点，AP提高1.7个百分点，AP90提高2.8个百分点，能够有效提升生活垃圾的识别率。关键词：YOLOv5；目标检测；VGG16分类模型；垃圾识别中图分类号：TP313文献标识码：A文章编号：2095-0438（2021）11-0152-04随着生活垃圾分类立法、执法等工作的顺利开展以及人工智能的飞速发展，视觉处理中的垃圾目标检测对垃圾处理工厂提升分拣效率、降低工人劳动强度等方面有着重要的研究意义。近年来基于深度学习中目标检测准确率高、模型学习速度快等特点，⓪其在日常生活中的应用场景越来越广泛，众多学者也转向了目标检测的研究领域。深度学习目标检测根据设计理念的不同可分为有无anchor[1]两大类：在anchor出现前，最初R-CNN[2]算法使用的SelectiveSearch[3]方法以及滑动窗口等方法，其中SelectiveSearch方法是能够分割出多达上千个候选区域，依据图像颜色、纹理、合并后的最小总面积等原则生成两个大概率存在目标区域，最终输出候选区域。Anchor的首次出现是在FasterR-CNN[1]中，一组3×3的Anchor框是人为地按照3种长宽比(0.5,1,2)，3种缩放比(8,16,32)设置成，故并不适用于所有数据集。直到YOLO（YouOnlyLookOnce）的出现，在YOLOv2[4]中提出使用K-means聚类来自动生成一组适用于特定数据集的特定尺寸的anchor，简化工作量的同时，可以使网络的检测效果更好。深度学习目标检测识别算法飞速发展的成果也呈现在生活垃圾检测识别领域：YingWang等人[5]采用RESNET作为特征提取网络，通过在城市自然环境中融合垃圾图像的方式扩充得到更多的数据集样本，从而提高了模型的检测精度收稿日期：2021-06-19作者简介：吴超（1996-），男，合肥学院生物食品与环境学院硕士研究生，研究方向：计算机视觉;蒋鹏飞（1994-），男，合肥学院生物食品与环境学院硕士研究生，研究方向：计算机视觉；吕刚（1978-），男，合肥学院先进制造工程学院教授，研究方向:数据挖掘，计算机视觉。基金项目：安徽高校协同创新项目“掘锚支机器人关键技术及装备研发”（GXXT-2019-048）；安徽省自然科学基金青年科学基金项目“视频视觉语义图谱的构建、表示及应用研究”（2008085QF295）；安徽省高等学校自然科学研究项目“基于图模型的视频-文本跨模态检索方法研究”（KJ2020A0651）。152

Copyright©博看网 www.bookan.com.cn. All Rights Reserved.和准确率。彭昕昀[6]采用利用数据增强对SSD算法进行垃圾识别检测，但SSD的检测框准确率较低。Abeywickrama等人[7]将垃圾分类视为图像分类，结合支持向量机与卷积神经网络对垃圾进行了识别分类，得到较高的识别率。宁凯等人[8]对YOLOv3[9]网络进行轻量化改进后在自制垃圾数据集上检测准确率较高，但是基于Darknet框架的YOLOv3在环境配置上较为复杂。为了简化生活垃圾目标识别算法的网络结构，选取了轻量化的YOLOv5[10]算法，并且为提高其在生活垃圾上的检测精度，在识别外观相似物体时拥有更高的的泛化性，本文提出了基于YOLOv5与层次化分类结合的生活垃圾识别算法。首先将部分相似类别的垃圾数据合并，并对类别较少的数据集进行数据扩充，在一定程度上缓解了数据分布不均衡的问题。对这些预处理数据使用VGG16[11]网络依次训练得到八个分类器，将其与YOLOv5网络模型的输出融合，当检测网络输出类别与分类器对应的类别相同时，根据检测模型输出的位置信息将图片进行裁剪，输入到对应的分类器中进行具体的分类，用于相似类别垃圾的具体分类。再将预测的类别提供给检测模型的损失函数训练，以达到提升准确率的目的，且此改进算法结构简单清晰，训练方便。算法。YOLOv5极大地提升了算法的灵活性和速度的同时，依然具有较高的识别准确率。但是在实际实验过程中发现，该算法在检测外观相似物体的过程中，类别的判定效果不佳，这极大的了垃圾目标识别准确率的提升。为了缓解这一不足，我们提出了基于YOLOv5与层次化分类算法的生活垃圾识别算法，该算法任务的框架如图1所示。======图1改进算法框架图

算法核心是将原YOLOv5网络输出的三个不同尺寸的特征提取面，对特征提取面上的每个点构建anchor，Anchor的构建是通过K-mean聚类以及对应本层特征提取面的尺寸得到的，再通过IOU和非极大值抑制筛选anchor，训练得到一、算法设计分析

预测框和类别，根据预测框的位置对归并类所指的位置区域将裁剪的图片送入已训练好的VGG16网络进行（一）YOLOv5算法介绍。YOLO系列是非常经典的进行裁剪，将得到的类别重新赋予YOLOv5的类别输出，完one-stage[12]目标检测算法，YOLOv1[13]解决了通过直接拟合精确分类，进行坐标位置、宽高存在很明显的缺陷；YOLOv2改为偏移量预成改进网络预测类别的替换。经过类别损失函数优化，计算最终准确率。测：采用了anchor机制局部预测，但YOLOv2还是存在小目迭代训练，（三）损失函数。首先公式化定义基于YOLOv5与层次标预测不准确的问题；YOLOv3随着resnet[14]的出现网络更深，backbone改为Darknet-53[15],检测头改为多尺度；YOLO化分类算法的生活垃圾识别任务。由于希望控制在检测过需要对分类模型传入数据进行训练，以得v4[16]在bakbone更改为采用CSPDarknet53，数据增强采用了程中的时间成本，概率分布p为期望cutmixandmosaic,classlabelsmoothing，网络结构采用了到预训练模型参数。假设N表示样本数，输出，概率分布q为实际输出，则分类任务可以公式化为：SPP、PAN、SAM网络。1N

YOLOv5在YOLOv4的基础上由Ultralytics公司提出，L(p,q)=∑L(p(xi),q(xi))=-Ni=1

输入端依然采用Mosaic的数据增强方式，即将四张图片进NM

行随机裁剪，再拼接到一张图上作为训练数据，提出了新的1∑p(xij)log(q(xij))（1）Ni=1∑j=1

自适应聚类设定anchor大小，将预测框和真实框的M表示类别数，其中L(p,q)表示交叉熵损失函数，groundtruth进行比对，计算两者差距后反向更新迭代网络参q(xij)表示样本i属否则为0；数，同时能够自适应检测图片的大小缩放。如图1所示，在p(xij)表示变量如相同即为1，Backbone上的主要是采用了Focus结构，主干网络采用于类别j的预测概率。而检测识别部分classprobabilityscore采用了BCELossCSP1_X结构，在Neck上采用了FPN结构和PAN结构。由，objectnessscore采用了BECWithLogitsLoss于YOLOv5模型的目标检测功能还能够定位出垃圾所在位（交叉熵损失）boundingbox采用了GIOU置，为我们生活垃圾识别的层次化分类算法研究提供了直接（BCEloss和sigmoid融合），Loss：支持。Lcls(ci,ci)=-cilog(ci)-(1-ci)log(1-ci)（2）（二）基于YOLOv5与层次化分类算法的生活垃圾识别153

（3）j处有目标时为1，lobj其中lnoobj否则为0；i,j表示在i，i,j表示在i，否则为0，j处有无目标时为1，λnoobj和λobj表示权重因子。|C\\(A⋃B)|GIoU=IoU-（4）|C|LGIoU=1-GIoU（5）B表示标签框，C表示能够把A与B其中A表示预测框，C\\围起来的最小框，IoU表示预测框与真实框的交并比，(A⋃B)表示C的面积减去(A⋃B)的面积。改进后的算法损失函数如式（6）所示：Loss=∑Lcls(ci,ci)+∑Lobj(qi,qi)+∑LGIoU（6）改进算法的损失函数主要在Lcls部分联合分类网络的输出做了相应的改进，简化成更简单的类别细分任务，同时提高类别分类准确率。二、试验及结果分析

图2改进的YOLOv5损失函数图像

训练参数betchsize为32，共迭代次数为3500次，由图中可以看出，改进模型的损失函数在迭代到3000次左右时收敛到0.01附近，在迭代次数达到3500次后完成训练，得到最终检测识别模型。（三）实验测试及结果分析。训练得到的改进模型通过在测试集上测试，得到的检测效果如图3所示。（一）实验数据与实验环境。本文试验数据集在VOC2007基础上扩充到44个类别包含19933张生活垃圾图片，其中训练集13953张、测试集5980张分别用于原模型的训练和测试。后对其中的18个类别根据图片的相似度合并为8个类别，制成总类别为34的数据集。通过对原数据标签格式转换、划分数据类别、数据增强等方法完成数据预处理，图3多场景下检测识别结果缓解因数据不平衡对模型训练的影响。本次实验操作系统为Ubuntu18，深度学习框架为Pytorch1.4，显卡为NVIDIAQuadroP5000，加速环境为CUDA11。（二）改进模型训练。本次实验分类模型的训练采用VGG16网络，根据数据标签的位置信息，将指定的目标图片对应位置裁剪得到分类训练数据，对类别较少的数据采用数据增强进行图片扩充，图片预处理后尺寸统一设置为90×90后输入网络得到8个预训练模型。检测模型部分采用最小的YOLOv5s预训练模型，原始图片尺寸统一设置为416×416，先后训练出原始44个类别的数据的检测模型以及相似类别合并后改进的34个类别的数据的检测图4光线复杂环境下的检测识别结果

图4中显示为多个类别在各种场景下的检测识别结果，模型。图2为改进模型进行3500次迭代的类别损失函数图像。效果不错，训练后的模型基本能够准确检测出目标位置，识1

Copyright©博看网 www.bookan.com.cn. All Rights Reserved.别出其类别信息，且置信度较高。图4中在光线不平衡的环境下依然能够获得不错的检测识别结果，对于角落小物体的识别依然较为出色。说明改进模型在应对复杂环境下的生活垃圾检测识别具有较高的普适性。为评估YOLOv5与层次化分类算法对生活垃圾识别的有效性，本文采用平均准确率均值mAP（meanAveragePrecision）来作为衡量改进的垃圾目标识别模型性能的指标。mAP是指所有类别目标的准确率AP（AveragePrecision）的均值。对改进模型与原模型多次测试结果比较，绘制出表1。表1YOLOv3网络模型改进前后测试数据结果比较

AP88(%)Backbonemodel原YOLOv5改进YOLOv5

33.133.67.4AP(%)30.532.26.2AP90(%)27.830..5由表1可以得出，原模型的AP88为33.1%，在垃圾目标识别情景下取得了不错的识别准确率。改进后的模型的AP88比原模型高出了0.5%，比YOLOv3高出了26.2%。此AP90较各模型均有较大程度的提高，外改进模型的AP、且占据的优势越来越大，说明改进的模型在预测框与真实框具有更大的重叠区域时，表现得比原模型更为出色，准确率也更高，其出现误识别的几率更小。三、结语

针对复杂环境下较多类别的垃圾检测识别，本文采用了基于YOLOv5与层次化分类算法，包括对数据预处理、算法原理分析、检测和分类模型的训练及后期优化。通过大量的实验对比发现，改进后的YOLOv5算法能够有效提升生活垃圾识别的准确率，在复杂环境下依然能够较原模型发挥出较大的优势。由于条件，本文所使用的数据集数量相对欠缺，对最终模型的表现关联较大，导致小物体的特征学习较为困难，在测试数据集上的泛化性有所欠缺。接下来的工作中，还需要对数据样本进行扩充优化分类模型，在保障现有性能的基础上解决更低IoU的识别准确率问题，进一步提高本算法的鲁棒性。参考文献：

[1]RenS,HeK,GirshickR,etal.FasterR-CNN:TowardsReal-TimeObjectDetectionwithRegionProposalNetworks[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2017,39(6):1137-1149.[2]GIRSHICKR,DONAHUEJ,DARRELL,etal.Richfeaturehierarchiesforaccurateobjectdetectionandsemanticsegmentation[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,2014.[3]UijlingsJRR,VanDeSandeKEA,GeversT,etal.Selectivesearchforobjectrecognition[J].Internationaljournalofcomputervision,2013,104(2):1-171.[4]RedmonJ,FarhadiA.YOLO9000:better,faster,stronger[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2017.[5]YingW,XuZ.Autonomousgarbagedetectionforintelligenturbanmanagement[J].MATECWebofConferences,2018,232(4):1056-1060.[6]彭昕昀,李嘉乐,李婉,等.基于SSD算法的垃圾识别分类研究[J].韶关学院学报,2019,40(6):15-20.[7]UijlingsJRR,VanDeSandeKEA,GeversT,etal.Selectivesearchforobjectrecognition[J].Internationaljournalofcomputervision,2013,104(2):1-171.[8]宁凯,张东波,印峰，等.基于视觉感知的智能扫地机器人的垃圾检测与分类[J].中国图象图形学报,2019(8)：1358-1368.[9]2016.LiuW,AnguelovD,ErhanD,etal.Ssd:Singleshotmultiboxdetector[C]//Europeanconferenceoncomputervision.Springer,Cham,2016.[10]https://github.com/ultralytics/yolov5.[11]BiJ.AFlowerClassificationStudybasedonSVMandVGG16[J].InternationalCoreJournalofEngineering,2021,7(2):368-377.[12]刘芳,韩笑.基于多尺度深度学习的自适应航拍目标检测[J/OL].航空学报:1-13[2021-03-10].http://kns.cnki.net/kcms/detail/11.1929.V.20210301.1047.018.html.[13]RedmonJ,DivvalaS,GirshickR,etal.Youonlylookonce:Unified,real-timeobjectdetection[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2016.[14]蔡振宇,王泽锴,陈特欢,等.基于YOLOv3的正下无人机视角挖掘机实时检测方法[J].宁波大学学报(理工版),2021,34(2):42-48.[15]苏娟,杨龙,黄华,等.用于SAR图像小目标舰船检测的改进SSD算法[J].系统工程与电子技术,2020,042(005):1026-1034.[16]BochkovskiyA,WangCY,LiaoH.YOLOv4:OptimalSpeedandAccuracyofObjectDetection[J].2020.[责任编辑郑丽娟]

155

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文