文/自贡市张亮陈小松 摘要:随着视频图像智能化分析和视频结构化描述技术的发展,视频大数据系统显著地提升了视频实战应用的效率和成 效。目前,全国各地机关正在如火如荼建设基于分布式数据库Hadoop的视频大数据系统,本文结合大数据 应用实践。围绕视频大数据运维管理系统的设计进行探讨。  ̄7--.-:视频图像大数据Hadoop运维管理系统 1引言 随着视频监控系统的不断建设.监控数据量呈现指数 发人员还是运维管理人员.想要熟练的使用大数据方面的 类数据库产品,都存在一定的技术门槛。这就需要对相关 人员进行专门的培训,甚至需要多次的业务培训I。这些人 员对于关系型数据库Oracle、Mysql等可能非常熟悉,可 以熟练的通过关系型数据库的各种客户端或者命令,对数 据库进行各种操作,查看数据库中的表结构及表中的各种 数据,执行各种sql语句等。 级的爆炸式增加,特别是随着基于深度学习的视频智能分 析技术的快速发展,有关车辆、人脸/人像等的结构化描述 信息呈现指数级的爆炸式增加。同时,视频大数据具有有 别于互联网大数据的特点,如视频大数据的海量循环覆写、 模糊查询、百级甚至千亿级记录查询的近实B-,t1]J-,"延要求等。 关系型数据库已经远远不能满足监控系统大容量、高效快 速的业务需求,近年来发展起来的大数据技术的出现为解 决这个问题提供了可能,成为替代现有产品的不二选择。 目前,大数据领域相关产品大多都是开源的,也有越 因此,通过对视频安防监控领域需要的大数据技术和 功能的研究.建设统一大数据管理平台,有效整合各类信 息资源,通过可视化、图形化方式对大数据平台资源进行 管理,填补大数据方面数据管理平台缺失的空白,是亟需 来越多优秀的大数据相关产品不断的开源出来。在使用开 源的大数据产品时,对于产品的使用管理和维护优化也可 能存在一系列问题。在大数据平台使用过程中,对于数据 的管理,要么是专业人员以命令行的方式进行管理,要么 是管理功能分散存在各个部件之中不能统一,并没有一个 专门的对大数据平台上的数据进行管理的软件或平台。大 解决的问题。针对视频监控的视频大数据运维管理平台对 一线运维管理人员来说是十分必要的。 2视频大数据平台技术路线分析 目前行业内,使用开源的Hadoop平台主要为 HDP、CDH两种,HDP是由Hortonworks公司发行的 Hadoop版本,CDH是由Cloudera公司发行的Hadoop 版本。CDH版本基于原生Apache Hadoop版本进行改 进,添加了补丁和自行开发的组件,更加稳定易用。CDH 通过CM(Cloudera Manager)进行可视化安装,采用 数据平台产品的使用人员想要了解或者管理平台之上存储 的数据,只能求助于专业人员,这无疑对机关公共安 全视频监控系统的运维造成诸多不便和隐患。 同时.对于没有接触过大数据技术的人员,不论是研 CHINA SECURITY PROTECTIoN CERTIFICATION 2018年第1期 21 parcel包方式安装,便于后期升级维护。由于HBase不 支持SQL方式的查询,但是使用HBase提供的API,对 开发人员的要求比较高,为了能让HBase支持SQL访问, ·搜索集群为ES集群。 ● 数据汇聚为Kafka和Sparkslreaming协同工作, 实现ES和HBase的数据汇聚,部署在CDH5.5集群内。 · ESSQL为专门开发的ES集群的SQL接口.部 署在ES集群。 ● 数据抽取ETL(“Extract”、“Transf0rm”、 可以使用HIVE和HBase集群的方式,达到使用JDBC访 问HBase的目的。HBase本身不支持二级索引,但使用 HBase的Coprocessor技术,选择Observer框架,类似 于Oracle的触发器,实现了二级索引。 的视频大数据业务应用对于模糊查询的需求比较 多,这并不是Hadoop平台的强项,应用ElasticSearch (ES)作为全文搜索的平台。解决模糊查询的问题。ES 是一个实时的分布式搜索引擎。ES使用Lucene作为内 部引擎,但是在使用它做全文搜索时,只需要使用统一开 “Load”的缩写)云采集为Flume和Kettle协同工作, 部署在CDH5.5集群内。 ● MR(MapReduce)和Spark者B音B署在CDH5.5 集群内。 本文提出的视频大数据运维管理平台是在上述大数据 平台架构基础进行设计的。 发好的API即可,而不需要了解其背后复杂的Lucene的 运行原理。为了让普通的开发人员都能进行开发,在ES 之上封装了支持SQL语句的ESSQL,开发人员只需要通 过SQL语句就能访问ES集群。 3视频大数据运维管理平台主要功能设计 视频大数据运维管理平台主要解决以下fo3题: · 可视化的集群状态监控,能明显减轻运维人员运 维压力。 ● 能实时了解到集群的运行情况,对异常问题及时 大数据平台架构如下图所示: 做出有效的处理。 ● 降低运维人员维护集群的技术要求.对集群的增、 亩 删、改、查都做到了可视化操作。 · 大集群的维护无需投入更多的人力,通过远程操 作的方式就可以维护集群。 视频大数据运维管理平台的主要功能如下图所示: 截据钆_豫 三 、 ..~ 盯L云霍蜒 ......................_/ 图1大数据平台架构 图2视频大数据运维管理平台的主要功能 其中: 视频大数据运维管理平台主要由反应集群概况的仪表 盘、Hadoop集群管理、ES集群管理、应用管理、系统 ● 分析集群为CDH5.5集群。 22 2018年第1期 中全防范认证 一圈_管理等功能模块组成。 ~Il li:{l}j ..固 3.1集群概况仪表盘 = 一=~兰 } 一 1)ZooKeeper.已用CPU、运行状况等相关图表信息。 2)YARN:正在运行的应用程序(累计)、失败的应 用程序(累计)、已停止的应用程序(累计)等相关图表信息。 3)Hbase:各个Region Servers总区域、读写请求、 运行状况等等相关图表信息。 4)HDFS:HDFS容量、已用的cpu内核、各个 DataNodes中总写入的字节等相关图表信息。 5)Hive:已用CPU内核、运行状况相关图表信息。 6)Spark:主机CPU、驻留内存等图表信息。 图3运维管理系统总体功能 兰 一一 ■ 3.2.2 Hadoop集群维护 Hadoop集群启动、停止和增加各个部件节点,对 总体功能上: Hadoop的各个部件下的各个节点可以启动、停止和增加 节点。具体业务逻辑如下: 1)集群节点增加,各个基本信息验证通过后需要下 载必要的安装包。以便安装部件节点使用。 2)部件节点增加时,基本信息验证通过后需要安装 对应的包和设置基本配置信息。 1)ZooKeeper:通过图标动态显示ZooKeeper集群 已用cpu内核信息。 2)HDFS:显示HDFS的数据总量和配置的容量。 3)YARN:通过动态图显示正在运行的应用程序。 4)Oozie:通过动态图显示每个时间运行的作业。 5)Sqoop:通过动态图显示每个时间触发的导入 操作。 6)ElasticSearch:当前ES总空间、已用空间、乘』 余空f-aj、总表数、总记录数。 3.2.3平台导入数据量监控 导入数据量通过图表的方式呈现: 通过动态图表分别显示导入到ES和Hbase每个时刻 的数据量,不仅可以显示当前导入数据情况而且可以显示 图4 Hadoop集群管理页面 3.2 Hadoop集群管理 3.2.1 Hadoop集群状态监控 能够在页面上显示当前平台安装的部件,同时显示整 个集群的cpu、集群磁盘io、集群网络io和HDFS io。 CHINA SECURITY PRoTECTloN CERTIFICATION 2018年第1期 23 过去1小时、3小时、6/J\B ̄、1天以来的导入数据情况, 同时显示通过平台导入数据的总量。 3。2.4任务管理 对平台中运行的MR任务和Spark任务实时监控,显 示当前平台已经运行和正在运行了MR和Spark任务。 3.2.5 Hadoop配置文件 对已安装的各个部件配置进行修改 各个部件根据各 自情况只提供关键信息进行修改,通过键一值对的方式显 示,当配置信息过多需分页显示。 口口口■一‘● “ № H cP ■ *■■ ㈣ 一 ●: ’ 一 一, ■一 图5 ES集群管理页面 3。3 ES集群管理 3.3.1 ES集群维护 在运维系统可以控制ES集群的停止、启动、删除和 增加节点。 24 2018年第1期 1)停止、启动和删除直接通过java执行远程shell 脚本来控制,删除时需要在ES节点表删除该节点的地址 信息。 2)增加新的节点时需要做ES基本配置信息的验证, 验证通过该节点才能够加入到ES集群中,同时对加入集 群成功的节点需在ES节点表里增加该节点的相关信息。 3.3.2 ES集群监控 对ES集群里每个节点的运行状况都可以监控,具体 功能如下: 1)通过图表的方式显示CPU、内存、硬盘、jvm 信息。 2)当集群里机器CPU、jvm使用持续超过警戒值需 要通过邮件的方式通知给相关人员,每一项的阀值在数据 库里进行设置。 符 重垃 童 l 鬻 臻嚣ii琴鬻 / / 图6 ES集群监控页面 3.3。3 ES集群配置 在页面输入框显示每个配置信息对应的数据信息并支 持修改,修改后的信息保存成功后直接同步到集群上,修 改的配置信息需要重启ES部件才能生效。 3。4应用管理 3.4.1应用监控 监控在视频大数据集群中实现的所有应用模块的运行 状态。 3.4.2性能测试 通过选择页面查询条件,测试当前搭建的ES大数据 平台的搜索性能。传统测试ES搜索性是直接通过调用ES 鳓IT 哪 ■● l■雌 .I§*_ 圭n 蚺●—■●阻—■■ I ’ l E蜘覃l_ ¨ 哪 ● 2辨19 0t”I |_、ll。 ·l¨fJ j 0 图7应用监控页面 2)对于系统中出现的error日志,系统会定时将报错 信息通过邮件的方式发送给相关人员。 3.5.4邮件管理 可以对系统的邮件新增、修改、删除操作.这里配置 的邮件信息以供系统中发送邮件使用。 图8性能测试页面 提供的接口测试,这种方式对于不熟悉ES接口的开发人 员编写测试代码不方便,增加编写测试用例难度。 4结语 本系统投入使用近后将大大提高系统的运维效率。通过 运维管理平台的监测,实现了更加优化的大数据计算性能, 动态调整计算资源,确保重点类型的数据具有足够的处理能 力。保障了视频大数据系统的正常稳定,有效地支撑了构建 在该基础上的视频图像信息实战应用系统的高效运行。 3.5系统管理 3.5.1用户管理 管理大数据运维平台和数据平台系统中的用户.新建 用户时可以给用户赋角色.此时用户就会拥有该角色下的 操作权限。还可以对用户的密码、角色进行修改。 3。5.2角色管理 权限管理显示当前系统中各种用户角色,角色跟系统 操作权限进行绑定,某个角色赋予运维平台系统权13EB,-j-, 参考文献 [1】杨巨龙.大数据技术全解基础、设计、开发 与实践[M].北京:电子工业出版社.2O15. [2】朱洁,罗华霖.大数据架构详解:从数据 拥有该角色的用户就可以拥有对应系统权限。角色管理只 控制系统级别,根据需要也可以控制到系统下级菜单,实 现更精细的权限控制。 3.5。3日志管理 管理人员可以查看大数据平台已安装的部件的运行日 志信息,具体包含以下功能: 1)在系统中选择部件名称就可以看到对应部件下的 日志信息。 获取到深度学习【M】.北京:电子工业出版 社.2O16. [3]王家林.大数据Spark企业级实战[M].北京: 电子工业出版社.2015. CHlNA SECURITY PR0TECTl0N CERTIFICATIoN 2018年第1期 25