大数据技术-题库

来源：年旅网

⼤数据技术-题库

1、第⼀次信息化浪潮主要解决什么问题？A、信息传输B、信息处理C、信息爆炸D、信息转换

2、下⾯哪个选项属于⼤数据技术的\"数据存储和管理\"技术层⾯的功能？

A、利⽤分布式⽂件系统、数据仓库、关系数据库等实现对结构化、半结构化和⾮结构化海量数据的存储和管理B、利⽤分布式并⾏编程模型和计算框架，结合机器学习和数据挖掘算法，实现对海量数据的处理和分析C、构建隐私数据保护体系和数据安全体系，有效保护个⼈隐私和数据安全D、把实时采集的数据作为流计算系统的输⼊，进⾏实时处理分析3、在⼤数据的计算模式中，流计算解决的是什么问题？A、针对⼤规模数据的批量处理B、针对⼤规模图结构数据的处理C、⼤规模数据的存储管理和查询分析D、针对流数据的实时计算4、⼤数据产业指什么？

A、⼀切与⽀撑⼤数据组织管理和价值发现相关的企业经济活动的集合B、提供智能交通、智慧医疗、智能物流、智能电⽹等⾏业应⽤的企业C、提供数据分享平台、数据分析平台、数据租售平台等服务的企业D、提供分布式计算、数据挖掘、统计分析等服务的各类企业5、下列哪⼀个不属于⼤数据产业的产业链环节？A、数据存储层B、数据源层C、数据分析层D、数据应⽤层

6、下列哪⼀个不属于 IT 领域最新的技术发展趋势？A、互联⽹

B、云计算C、⼤数据D、物联⽹

7、云计算平台层（PaaS）指的是什么？A、操作系统和围绕特定应⽤的必需的服务B、将基础设施(计算资源和存储)作为服务出租

C、从⼀个集中的系统部署软件，使之在⼀台本地计算机上(或从云中远程地) 运⾏的⼀个模型

D、提供硬件、软件、⽹络等基础设施以及提供咨询、规划和系统集成服务 8、云计算数据中⼼是什么？A、数据中⼼是云计算的重要载体，为各种平台和应⽤提供运⾏⽀撑环境B、提供智能交通、智慧医疗、智能物流、智能电⽹等C、提供分布式计算、数据挖掘、统计分析等服务D、提供硬件、软件、⽹络等基础设施9、下列哪个不属于物联⽹的应⽤？A、智能物流B、智能安防C、环保监测D、数据采集

10、下列哪项不属于⼤数据的发展历程？A、成熟期B、萌芽期C、⼤规模应⽤期D、迷茫期

11、第三次信息化浪潮的标志是什么？A、个⼈计算机B、物联⽹

C、云计算和⼤数据D、互联⽹

12、信息科技为⼤数据时代提供哪些技术⽀撑？

A、存储设备容量不断增加B、⽹络带宽不断增加C、 CPU 处理能⼒⼤幅提升D、数据量不断增⼤13、⼤数据具有哪些特点？A、数据的\"⼤量化\"B、数据的\"快速化\"C、数据的\"多样化\"D、数据的\"价值化\"

14、下⾯哪个属于⼤数据的应⽤领域？A、智能医疗研发B、监控⾝体情况C、实时掌握交通状况D、⾦融交易

15、⼤数据的两个核⼼技术是什么？A、分布式存储B、数据处理与分析

C、分布式处理D、数据存储与管理

16、云计算关键技术包括什么？A、分布式存储B、虚拟化C、分布式计算D、多租户

17、云计算的服务模式和类型包括哪些？A、软件即服务（SaaS）B、平台即服务（PaaS）C、基础设施即服务（IaaS）D、数据即服务（DaaS）

18、物联⽹主要由下列哪些部分组成的？

A、应⽤层B、处理层C、感知层D、⽹络层

19、物联⽹的关键技术包括哪些？A、识别和感知技术B、⽹络与通信技术C、数据挖掘与融合技术D、信息处理⼀体化技术

20、⼤数据对社会发展的影响有哪些？A、⼤数据成为⼀种新的决策⽅式

B、⼤数据应⽤促进信息技术与各⾏业的深度融合C、⼤数据开发推动新技术和新应⽤的不断涌现D、⼤数据使得数据科学家成为热门职业21、下列哪个不属于 Hadoop 的特性？A、成本⾼B、⾼可靠性C、⾼容错性

D、运⾏在 Linux 平台上

22、Hadoop 框架中最核⼼的设计是什么？

A、为海量数据提供存储的 HDFS 和对数据进⾏计算的 MapReduce

B、提供整个 HDFS ⽂件系统的 NameSpace(命名空间)管理、块管理等所有服务C、 Hadoop 不仅可以运⾏在企业内部的集群中，也可以运⾏在云计算环境中D、 Hadoop 被视为事实上的⼤数据处理标准

23、在⼀个基本的 Hadoop 集群中，DataNode 主要负责什么？

A、存储被拆分的数据块B、协调数据计算任务

C、负责协调集群中的数据存储

D、负责执⾏由 JobTracker 指派的任务 24、Hadoop 最初是由谁创建的？

A、 Doug CuttingB、 LuceneC、 ApacheD、 MapReduce

25、下列哪⼀个不属于 Hadoop 的⼤数据层的功能？A、数据挖掘B、离线分析C、实时查询D、 BI 分析

26、在⼀个基本的 Hadoop 集群中，SecondaryNameNode 主要负责什么？A、帮助 NameNode 收集⽂件系统运⾏的状态信息B、负责执⾏由 JobTracker 指派的任务C、协调数据计算任务

D、负责协调集群中的数据存储27、下⾯哪⼀项不是 Hadoop 的特性？A、只⽀持少数⼏种编程语⾔B、可扩展性⾼C、成本低

D、能在 linux 上运⾏

28、下列哪个不是 Hadoop 在企业中的应⽤架构？A、⽹络层B、访问层C、⼤数据层D、数据源层

29、在 Hadoop 项⽬结构中，HDFS 指的是什么？A、分布式⽂件系统B、分布式并⾏编程模型C、资源管理和调度器D、 Hadoop 上的数据仓库

30、在 Hadoop 项⽬结构中，MapReduce 指的是什么？

A、分布式并⾏编程模型B、流计算框架

C、 Hadoop 上的⼯作流管理系统

D、提供分布式协调⼀致性服务 31、Hadoop 的特性包括哪些？A、⾼可扩展性B、⽀持多种编程语⾔C、成本低

D、运⾏在 Linux 平台上

32、Hadoop 在企业中的应⽤架构包括哪⼏层？A、访问层B、⼤数据层C、数据源层D、⽹络层

33、Hadoop 中，访问层的功能是什么？A、数据分析B、数据实时查询C、数据挖掘D、数据接收

34、MapReduce 的作业主要包括什么？A、从磁盘或从⽹络读取数据，即 IO 密集⼯作B、计算数据，即 CPU 密集⼯作

C、针对不同的⼯作节点选择合适硬件类型D、负责协调集群中的数据存储

35、⼀个基本的 Hadoop 集群中的节点主要包括什么？A、 DataNode：存储被拆分的数据块B、 JobTracker：协调数据计算任务

C、 TaskTracker：负责执⾏由 JobTracker 指派的任务

D、 SecondaryNameNode：帮助 NameNode 收集⽂件系统运⾏的状态信息 36、下列关于 Hadoop 的描述，哪些是正确的?

A、为⽤户提供了系统底层细节透明的分布式基础架构B、具有很好的跨平台特性

C、可以部署在廉价的计算机集群中

D、被公认为⾏业⼤数据标准开源软件 37、Hadoop 主要提供哪些技术服务?A、开发⼯具B、开源软件C、商业化⼯具D、数据采集

38、Hadoop 集群的整体性能主要受到什么因素影响？A、 CPU 性能B、内存C、⽹络D、存储容量

39、下列关于 Hadoop 的描述，哪些是错误的？A、为⽤户提供了系统顶层分布式基础架构B、具有较差的跨平台特性

C、可以部署在廉价的计算机集群中D、被公认为⾏业⼤数据标准开源软件40、下列哪⼀项不属于 Hadoop 的特性？A、较低可扩展性B、只⽀持 java 语⾔C、成本低

D、运⾏在 Linux 平台上

41、分布式⽂件系统指的是什么？

A、把⽂件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群B、⽤于在 Hadoop 与传统数据库之间进⾏数据传递

C、⼀个⾼可⽤的，⾼可靠的，分布式的海量⽇志采集、聚合和传输的系统

D、⼀种⾼吞吐量的分布式发布订阅消息系统，可以处理消费者规模的⽹站中的所有动作流数据

42、下⾯哪⼀项不属于计算机集群中的节点？A、源节点（SourceNode）B、主节点(Master Node)C、名称结点(NameNode)D、节点（Slave Node）

43、在 HDFS 中，默认⼀个块多⼤？A、 MBB、 32MBC、 128MBD、 16MB

44、下列哪⼀项不属于 HDFS 采⽤抽象的块概念带来的好处？A、强⼤的跨平台兼容性B、⽀持⼤规模⽂件存储C、简化系统设计D、适合数据备份

45、在 HDFS 中，NameNode 的主要功能是什么？A、存储元数据B、存储⽂件内容

C、⽂件内存保存在磁盘中

D、维护了 block id 到 datanode 本地⽂件的映射关系 46、下⾯对 FsImage 的描述，哪个是错误的？A、 FsImage ⽂件没有记录⽂件包含哪些块以及每个块存储在哪个数据节点B、 FsImage ⽂件包含⽂件系统中所有⽬录和⽂件 inode 的序列化形式C、 FsImage ⽤于维护⽂件系统树以及⽂件树中所有的⽂件和⽂件夹的元数据

D、 FsImage ⽂件记录了所有针对⽂件的创建、删除、重命名等操作47、下⾯对 SecondaryNameNode 第⼆名称节点的描述，哪个是错误的？A、 SecondaryNameNode ⼀般是并⾏运⾏在多台机器上

B、它是⽤来保存名称节点中对 HDFS 元数据信息的备份，并减少名称节点重启的时间

C、 SecondaryNameNode 通过 HTTPGET ⽅式从 NameNode 上获取到 FsImage 和 EditLog ⽂件，并下载到本地的相应⽬录下

D、 SecondaryNameNode 是 HDFS 架构中的⼀个组成部分 48、HDFS 采⽤了什么模型？A、主从结构模型B、分层模式C、管道-过滤器模式D、点对点模式

49、在 Hadoop 项⽬结构中，HDFS 指的是什么？A、分布式⽂件系统B、流数据读写C、资源管理和调度器D、 Hadoop 上的数据仓库

50、下列关于 HDFS 的描述，哪个不正确？

A、 HDFS 采⽤具体的块概念，具有⽀持⼤规模⽂件存储、简化系统设计B、 HDFS 采⽤了主从（Master/Slave）结构模型C、 HDFS 采⽤了冗余数据存储，增强了数据可靠性

D、 HDFS 还采⽤了相应的数据存放、数据读取和数据复制策略，来提升系统整体读写响应性能51、HDFS 要实现以下哪⼏个⽬标？A、兼容廉价的硬件设备B、流数据读写C、⼤数据集D、复杂的⽂件模型

52、HDFS 特殊的设计，在实现上述优良特性的同时，也使得⾃⾝具有⼀些应⽤局限性，主要包括以下哪⼏个⽅⾯？A、不适合低延迟数据访问B、⽆法⾼效存储⼤量⼩⽂件

C、不⽀持多⽤户写⼊及任意修改⽂件D、较差的跨平台兼容性

53、HDFS 采⽤抽象的块概念可以带来以下哪⼏个明显的好处？A、⽀持⼤规模⽂件存储B、简化系统设计

C、适合数据备份

D、⽀持中等规模⽂件存储

、在 HDFS 中，名称节点（NameNode）主要保存了哪些核⼼的数据结构？A、 FsImage

B、 EditLogC、 BlockD、 DN8

55、数据节点（DataNode）的主要功能包括哪些？A、负责数据的存储和读取

B、根据客户端或者是名称节点的调度来进⾏数据的存储和检索C、向名称节点定期发送⾃⼰所存储的块的列表

D、⽤来保存名称节点中对 HDFS 元数据信息的备份，并减少名称节点重启的时间56、HDFS 的命名空间包含什么？A、⽬录B、⽂件C、块D、磁盘

57、下列对于客服端的描述，哪些是正确的？

A、客户端是⽤户操作 HDFS 最常⽤的⽅式，HDFS 在部署时都提供了客户端B、 HDFS 客户端是⼀个库，暴露了 HDFS ⽂件系统接⼝C、严格来说，客户端并不算是 HDFS 的⼀部分D、客户端可以⽀持打开、读取、写⼊等常见的操作

58、HDFS 只设置唯⼀⼀个名称节点，这样做虽然⼤⼤简化了系统设计，但也带来了哪些明显的局限性？A、命名空间的B、性能的瓶颈C、隔离问题D、集群的可⽤性

59、HDFS 数据块多副本存储具备以下哪些有点？A、加快数据传输速度

B、容易检查数据错误C、保证数据可靠性D、适合多平台上运⾏

60、HDFS 具有较⾼的容错性，设计了哪些相应的机制检测数据错误和进⾏⾃动恢复？A、名称节点出错B、数据节点出错C、数据出错D、数据源太⼤

61、下列哪个不属于 NoSQL 数据库的特点？A、灵活的可扩展性B、灵活的数据模型C、与云计算紧密融合D、⼤型的数据库

62、下⾯关于 NoSQL 和关系数据库的简单⽐较，哪个是错误的？A、 RDBMS 有关系代数理论作为基础，NoSQL 没有统⼀的理论基础

B、 NoSQL 很难实现横向扩展，RDBMS 可以很容易通过添加更多设备来⽀持更⼤规模的数据

C、 RDBMS 需要定义数据库模式，严格遵守数据定义，NoSQL 不存在数据库模式，可以⾃由灵活定义并存储各种不同类型的数据D、 RDBMS 借助于索引机制可以实现快速查询，很多 NoSQL 数据库没有⾯向复杂查询的索引63、下列哪⼀项不属于 NoSQL 的四⼤类型？A、⽂档数据库B、图数据库C、列族数据库D、时间戳数据库

、下列关于键值数据库的描述，哪⼀项是错误的？A、扩展性好，灵活性好B、⼤量写操作时性能⾼C、⽆法存储结构化信息

D、条件查询效率⾼

65、下列关于列族数据库的描述，哪⼀项是错误的？A、查找速度慢，可扩展性差

B、功能较少，⼤都不⽀持强事务⼀致性C、容易进⾏分布式扩展D、复杂性低

66、下列哪⼀项不属于数据库事务具有 ACID 四性？A、间断性B、原⼦性C、⼀致性D、持久性

67、下⾯关于 MongoDB 说法，哪⼀项是正确的？A、具有较差的⽔平可扩展性

B、设置个别属性的索引来实现更快的排序C、提供了⼀个⾯向⽂档存储，操作复杂

D、可以实现替换完成的⽂档（数据）或者⼀些指定的数据字段 68、下列关于 MongoDB 数据类型的说法，哪⼀项是错误的？A、 Code ⽤于存储⼆进制数据B、 Object ⽤于内嵌⽂档C、 Null ⽤于创建空值

D、 String 字符串，储数据常⽤的数据类型

69、下列关于 NoSQL 与关系数据库的⽐较，哪个说法是错误的？A、在⼀致性⽅⾯，RDBMS 强于 NoSQLB、在数据完整性⽅⾯，RDBMS 容易实现C、在扩展性⽅⾯，NoSQL ⽐较好

D、在可⽤性⽅⾯，NoSQL 优于 RDBMS

70、关于⽂档数据库的说法，下列哪⼀项是错误的？A、数据是规则的B、性能好（⾼并发）C、缺乏统⼀的查询语法

D、复杂性低

71、关系数据库已经⽆法满⾜ Web2.0 的需求，主要表现在以下⼏个⽅⾯？A、⽆法满⾜海量数据的管理需求B、⽆法满⾜数据⾼并发的需求

C、⽆法满⾜⾼可扩展性和⾼可⽤性的需求D、使⽤难度⾼

72、下列关于 MySQL 集群的描述，哪些是正确的？A、复杂性：部署、管理、配置很复杂

B、数据库复制：MySQL 主备之间采⽤复制⽅式，只能是异步复制

C、扩容问题：如果系统压⼒过⼤需要增加新的机器，这个过程涉及数据重新划分D、动态数据迁移问题：如果某个数据库组压⼒过⼤，需要将其中部分数据迁移出去

73、关系数据库引以为傲的两个关键特性（完善的事务机制和⾼效的查询机制），到了 Web2.0 时代却成了鸡肋，主要表现在以下哪⼏个⽅⾯？

A、 Web2.0 ⽹站系统通常不要求严格的数据库事务B、 Web2.0 ⽹站系统基本上不⽤数据库来存储C、 Web2.0 并不要求严格的读写实时性D、 Web2.0 通常不包含⼤量复杂的 SQL 查询

74、下⾯关于 NoSQL 与关系数据库的⽐较，哪些是正确的？A、关系数据库以完善的关系代数理论作为基础，有严格的标准B、关系数据库可扩展性较差，⽆法较好⽀持海量数据存储C、 NoSQL 可以⽀持超⼤规模数据存储

D、 NoSQL 数据库缺乏数学理论基础，复杂查询性能不⾼ 75、下列关于⽂档数据库的描述，哪些是正确的？A、性能好（⾼并发），灵活性⾼B、具备统⼀的查询语法

C、⽂档数据库⽀持⽂档间的事务D、复杂性低，数据结构灵活

76、下列关于图形数据库的描述，哪些是正确的？A、专门⽤于处理具有⾼度相互关联关系的数据

B、⽐较适合于社交⽹络、模式识别、依赖分析、推荐系统以及路径寻找等问题C、灵活性⾼，⽀持复杂的图形算法

D、复杂性⾼，只能⽀持⼀定的数据规模 77、NoSQL 的三⼤基⽯？A、 CAP

B、最终⼀致性C、 BASED、 DN8

78、关于 NoSQL 的三⼤基⽯之⼀的 CAP，下列哪些说法是正确的？A、⼀致性，是指任何⼀个读操作总是能够读到之前完成的写操作的结果量B、⼀个分布式系统可以同时满⾜⼀致性、可⽤性和分区容忍性这三个需求C、可⽤性，是指快速获取数据

D、分区容忍性，是指当出现⽹络分区的情况时（即系统中的⼀部分节点⽆法和其他节点进⾏通信），分离的系统也能够正常运⾏79、当处理 CAP 的问题时，可以有哪⼏个明显的选择？

A、 CA：也就是强调⼀致性（C）和可⽤性（A），放弃分区容忍性（P）B、 CP：也就是强调⼀致性（C）和分区容忍性（P），放弃可⽤性（A）C、 AP：也就是强调可⽤性（A）和分区容忍性（P），放弃⼀致性（C）

D、 CAP：也就是同时兼顾可⽤性（A）、分区容忍性（P）和⼀致性（C），当时系统性能会下降很多80、数据库事务具有 ACID 四性，下⾯哪⼏项属于四性？A、原⼦性B、持久性C、间断性D、⼀致性

81、下列哪个不属于云计算的优势？A、按需服务B、随时服务C、通⽤性D、价格不菲

82、下列关于云数据库的描述，哪个是错误的？A、云数据库是部署和虚拟化在云计算环境中的数据库

B、云数据库是在云计算的⼤背景下发展起来的⼀种新兴的共享基础架构的⽅法C、云数据库价格不菲，维护费⽤极其昂贵

D、云数据库具有⾼可扩展性、⾼可⽤性、采⽤多租形式和⽀持资源有效分发等特点83、下列哪⼀个不属于云数据库产品？A、 MySQLB、阿⾥云 RDSC、 Oracle CloudD、百度云数据库

84、UMP 系统是构建在⼀个⼤的集群之上的，下列哪⼀项不属于系统向⽤户提供的功能？A、读写分离B、分库分表C、数据安全D、资源合并

85、下列关于 UMP 系统功能的说法，哪个是错误的？A、充分利⽤主从库实现⽤户读写操作的分离，实现负载均衡B、 UMP 系统实现了对于⽤户透明的读写分离功能

C、 UMP 采⽤的两种资源隔离⽅式（⽤ Cgroup MySQL 进程资源和在 Proxy 服务器端 QPS）D、 UMP 系统只设计了⼀种机制来保证数据安全 86、下列关于阿⾥云 RDS 的说法，哪个是错误的？A、 RDS 是阿⾥云提供的关系型数据库服务B、 RDS 由专业数据库管理团队维护

C、 RDS 具有安全稳定、数据可靠、⾃动备份

D、 RDS 实例，是⽤户购买 RDS 服务的基本单位。在实例中，⽤户只能创建⼀个数据库87、下⾯哪⼀项不是云数据库的特性？A、动态可扩展

B、⾼成本C、易⽤性D、⼤规模并⾏处理

88、下列哪个不是 UMP 系统中的⾓⾊？A、 Controller 服务器B、 Proxy 服务器C、愚公系统D、数据处理服务器

、关于 UMP 系统架构依赖的开源组件 Mnesia，说法错误的是哪⼀项？A、 Mnesia 是⼀个分布式数据库管理系统

B、 Mnesia 的数据库模式(schema)只能在未运⾏前静态重配置

C、 Mnesia 的这些特性，使其在开发云数据库时被⽤来提供分布式数据库服务D、 Mnesia ⽀持事务，⽀持透明的数据分⽚

90、关于 UMP 系统架构的 Controller 服务器，说法错误的是哪⼀项？A、 Controller 服务器向 UMP 集群提供各种管理服务

B、 Controller 服务器上运⾏了⼀组 Mnesia 分布式数据库服务

C、当其它服务器组件需要获取⽤户数据时，不可以向 Controller 服务器发送请求获取数据D、为了避免单点故障，保证系统的⾼可⽤性，UMP 系统中部署了多台 Controller 服务器91、云数据库具有以下哪些特性？A、动态可扩展B、⾼可⽤性C、免维护D、安全

92、下列关于云数据库的描述，哪些是正确的？A、 Amazon 是云数据库市场的先⾏者

B、 Google Cloud SQL 是⾕歌公司推出的基于 MySQL 的云数据库C、从数据模型的⾓度来说，云数据库并⾮⼀种全新的数据库技术

D、云数据库并没有专属于⾃⼰的数据模型93、UMP 系统架构设计遵循了以下哪些原则？

A、保持单⼀的系统对外⼊⼝，并且为系统内部维护单⼀的资源池B、消除单点故障，保证服务的⾼可⽤性

C、保证系统具有良好的可伸缩，能够动态地增加、删减计算与存储节点D、保证分配给⽤户的资源也是弹性可伸缩的94、UMP 系统架构依赖的哪些开源组件？A、 MnesiaB、 LVSC、 RabbitMQD、 ZooKeeper

95、⼀个基本的 Hadoop 集群中的节点主要包括什么？A、 DataNode：存储被拆分的数据块B、 JobTracker：协调数据计算任务

C、 TaskTracker：负责执⾏由 JobTracker 指派的任务

D、 SecondaryNameNode：帮助 NameNode 收集⽂件系统运⾏的状态信息 96、下列关于 UMP 系统架构的描述，哪些是正确的？A、信息统计服务器定期将采集到的⽤户的连接数B、 Web 控制台向系统⼈员提供系统管理界⾯C、 LVS(Linux Virtual Server)即 Linux 虚拟服务器D、 UMP 系统借助于 LVS 来实现集群内部的负载均衡97、为什么说云数据库是个性化数据存储需求的理想选择？A、云数据库可以满⾜⼤企业的海量数据存储需求B、云数据库可以满⾜中⼩企业的低成本数据存储需求C、云数据库可以满⾜企业动态变化的数据存储需求

D、前期零投⼊、后期免维护的数据库服务，可以很好满⾜它们的需求 98、下列关于云数据库与其他数据库的关系，哪些是正确的？A、从数据模型的⾓度来说，云数据库并⾮⼀种全新的数据库技术

B、云数据库并没有专属于⾃⼰的数据模型，云数据库所采⽤的数据模型可以是关系数据库所使⽤的关系模型C、同⼀个公司只能提供采⽤不同数据模型的单个云数据库服务

D、许多公司在开发云数据库时，后端数据库都是直接使⽤现有的各种关系数据库或 NoSQL 数据库产品

99、下列关于 Amazon 的云数据库产品，说法正确的哪⼏项？A、 Amazon RDS：云中的关系数据库B、 Amazon SimpleDB：云中的键值数据库C、 Amazon DynamoDB：云中的数据仓库D、 Amazon ElastiCache：云中的分布式内存缓存

100、Microsoft 的云数据库产品 SQL Azure 具有以下哪些特性？A、属于关系型数据库：⽀持使⽤ TSQL 来管理、创建和操作云数据库

B、⽀持存储过程：它的数据类型、存储过程和传统的 SQL Server 具有很⼤的相似性

C、⽀持⼤量数据类型

D、⽀持云中的事务：⽀持局部事务，但是不⽀持分布式事务 101、下列传统并⾏计算框架，说法错误的是哪⼀项？A、⼑⽚服务器、⾼速⽹、SAN，价格贵，扩展性差上B、共享式(共享内存/共享存储)，容错性好C、 what-how，难

D、实时、细粒度计算、计算密集型

102、下列关于 MapReduce 模型的描述，错误的是哪⼀项？A、 MapReduce 采⽤\" 分⽽治之\"策略

B、 MapReduce 设计的⼀个理念就是\" 计算向数据靠拢\"C、 MapReduce 框架采⽤了 Master/Slave 架构D、 MapReduce 应⽤程序只⽤ Java 来写

103、MapReduce 的体系结构在，JobTracker 是主要任务是什么？A、负责资源监控和作业调度，监控所有 TaskTracker 与 Job 的健康状况B、使⽤\"slot\"等量划分本节点上的资源量（CPU、内存等）

C、会周期性地通过\"⼼跳\"将本节点上资源的使⽤情况和任务的运⾏进度汇报给 TaskTrackerD、会跟踪任务的执⾏进度、资源使⽤量等信息，并将这些信息告诉任务（Task）

104、下列关于 MapReduce ⼯作流程，哪个描述是正确的？A、所有的数据交换都是通过 MapReduce 框架⾃⾝去实现的B、不同的 Map 任务之间会进⾏通信

C、不同的 Reduce 任务之间可以发⽣信息交换

D、⽤户可以显式地从⼀台机器向另⼀台机器发送消息 105、下列关于 MapReduce 的说法，哪个描述是错误的？A、 MapReduce 具有⼴泛的应⽤，⽐如关系代数运算、分组与聚合运算等

B、 MapReduce 将复杂的、运⾏于⼤规模集群上的并⾏计算过程⾼度地抽象到了两个函数

C、编程⼈员在不会分布式并⾏编程的情况下，也可以很容易将⾃⼰的程序运⾏在分布式系统上，完成海量数据集的计算D、不同的 Map 任务之间可以进⾏通信

106、下列关于 Map 和 Reduce 函数的描述，哪个是错误的？

A、 Map 将⼩数据集进⼀步解析成⼀批对，输⼊ Map 函数中进⾏处理B、 Map 每⼀个输⼊的会输出⼀批。是计算的中间结果

C、 Reduce 输⼊的中间结果中的 List(v 2 )表⽰是⼀批属于不同⼀个 k 2 的 valueD、 Reduce 输⼊的中间结果中的 List(v 2 )表⽰是⼀批属于同⼀个 k 2 的 value107、下⾯哪⼀项不是 MapReduce 体系结构主要部分？A、 ClientB、 JobTracker

C、 TaskTracker 以及 TaskD、 Job

108、关于 MapReduce 的体系结构的描述，下列说法错误的是？A、⽤户可通过 Client 提供的⼀些接⼝查看作业运⾏状态

B、⽤户编写的 MapReduce 程序通过 Client 提交到 JobTracker 端C、 JobTracker 负责资源监控和作业调度

D、 JobTracker 会跟踪任务的执⾏进度、资源使⽤量等信息，并将这些信息告诉任务调度器（TaskScheduler）109、关于 MapReduce 的体系结构的描述，下列说法错误的是？

A、 Task 分为 Map Task 和 Reduce Task 两种，分别由 JobTracker 和 TaskTracker 启动

B、 slot 分为 Map slot 和 Reduce slot 两种，分别供 MapTask 和 Reduce Task 使⽤C、 TaskTracker 使⽤\"slot\"等量划分本节点上的资源量（CPU、内存等）

D、 TaskTracker 会周期性接收 JobTracker 发送过来的命令并执⾏相应的操作（如启动新任务、杀死任务等）110、下列说法有误的是？

A、 Hadoop MapReduce 是 MapReduce 的开源实现，后者⽐前者使⽤门槛低很多B、 MapReduce ⾮共享式，容错性好C、 MapReduce 批处理、实时、数据疏散型D、 MapReduce 采⽤\" 分⽽治之\"策略

111、MapReduce 相较于传统的并⾏计算框架有什么优势？A、⾮共享式，容错性好B、普通 PC 机，便宜，扩展性好C、 what，简单

D、批处理、⾮实时、数据密集型

112、MapReduce 体系结构主要由以下那⼏部分构成？A、 ClientB、 JobTrackerC、 TaskTrackerD、 Task

113、下列关于 MapReduce 的体系结构的描述，说法正确的有？A、⽤户编写的 MapReduce 程序通过 Client 提交到 JobTracker 端B、 JobTracker 负责资源监控和作业调度

C、 TaskTracker 监控所有 TaskTracker 与 Job 的健康状况

D、 TaskTracker 使⽤\"slot\"等量划分本节点上的资源量（CPU、内存等） 114、MapReduce 的作业主要包括什么？A、从磁盘或从⽹络读取数据，即 IO 密集⼯作B、计算数据，即 CPU 密集⼯作

C、针对不同的⼯作节点选择合适硬件类型D、负责协调集群中的数据存储

115、对于 MapReduce ⽽⾔，其处理单位是 split。split 是⼀个逻辑概念，它包含哪些元数据信息？A、数据起始位置B、数据长度C、数据所在节点D、数据⼤⼩

116、下列关于 Map 端的 Shuffle 的描述，哪些是正确的？A、 MapReduce 默认 1000MB 缓存

B、多个溢写⽂件归并成⼀个或多个⼤⽂件，⽂件中的键值对是排序的

C、当数据很少时，不需要溢写到磁盘，直接在缓存中归并，然后输出给 Reduce

D、每个 Map 任务分配多个缓存，使得任务运⾏更有效率 117、MapReduce 的具体应⽤包括哪些？A、关系代数运算（选择、投影、并、交、差、连接）B、分组与聚合运算C、矩阵-向量乘法D、矩阵乘法

118、MapReduce 执⾏的全过程包括以下哪⼏个主要阶段？A、从分布式⽂件系统读⼊数据B、执⾏ Map 任务输出中间结果

C、通过 Shuffle 阶段把中间结果分区排序整理后发送给 Reduce 任务D、执⾏ Reduce 任务得到最终结果并写⼊分布式⽂件系统119、下列关于分布式并⾏编程的描述，哪些是正确的？A、 \"摩尔定律\"， CPU 性能⼤约每隔 18 个⽉翻⼀番B、分布式程序运⾏在⼤规模计算机集群上

C、⾕歌公司最先提出了分布式并⾏编程模型 MapReduceD、 MapReduce 是 Hadoop 的开源实现120、下列说法正确的是？

A、 MapReduce 体系结构主要由四个部分组成，分别是：Client、 JobTracker、TaskTracker 以及 TaskB、 Task 分为 Map Task 和 Reduce Task 两种，均由 TaskTracker 启动

C、在 MapReduce ⼯作流程中，所有的数据交换都是通过 MapReduce 框架⾃⾝去实现的D、在 MapReduce ⼯作流程中，⽤户不能显式地从⼀台机器向另⼀台机器发送消息

121、Hadoop1.0 的核⼼组件（仅指 MapReduce 和 HDFS，不包括 Hadoop ⽣态系统内的 Pig、Hive、HBase 等其他组件），下列哪项是它的不⾜？A、抽象层次⾼

B、表达能⼒有限，抽象层次低，需⼈⼯编码C、价格昂贵D、可维护性低

122、下⾯哪个选项不属于 Hadoop1.0 的问题？A、单⼀名称节点，存在单点失效问题B、单⼀命名空间，⽆法实现资源隔离C、资源管理效率低D、很难上⼿

123、下列哪项是 Hadoop ⽣态系统中 Spark 的功能？A、处理⼤规模数据的脚本语⾔

B、⼯作流和协作服务引擎，协调 Hadoop 上运⾏的不同任务

C、⽀持 DAG 作业的计算框架

D、基于内存的分布式并⾏编程框架，具有较⾼的实时性，并且较好⽀持迭代计算124、在 Hadoop ⽣态系统中，Kafka 主要解决 Hadoop 中存在哪些的问题？A、 Hadoop ⽣态系统中各个组件和其他产品之间缺乏统⼀的、⾼效的数据交换中介B、不同的 MapReduce 任务之间存在重复操作，降低了效率C、延迟⾼，⽽且不适合执⾏迭代计算D、抽象层次低，需要⼿⼯编写⼤量代码

125、下列哪⼀个不属于 HDFS1.0 中存在的问题？A、不可以⽔平扩展B、多点故障问题

C、 HDFS HA 是热备份，提供⾼可⽤性，但是⽆法解决可扩展性、系统性能和隔离性

D、系统整体性能受限于单个名称节点的吞吐量

126、关于 HDFS Federation 的设计的描述，哪个是错误的？A、属于不同命名空间的块可以构成同⼀个\"块池\"

B、 HDFS Federation 中，所有名称节点会共享底层的数据节点存储资源，数据节点向所有名称节点汇报C、设计了多个相互独⽴的名称节点D、 HDFS 的命名服务能够⽔平扩展

127、下列关于.HDFS Federation 的描述，错误的是？A、不存在单点故障

B、 JobTracker\"⼤包⼤揽\"导致任务过重

C、容易出现内存溢出（分配资源只考虑 MapReduce 任务数，不考虑 CPU、内存）

D、资源划分不合理（强制划分为 slot ，包括 Map slot 和 Reduce slot） 128、下列哪⼀项不属于 MapReduce1.0 的缺陷？A、数据中⼼是云计算的重要载体，为各种平台和应⽤提供运⾏⽀撑环境B、提供智能交通、智慧医疗、智能物流、智能电⽹等C、提供分布式计算、数据挖掘、统计分析等服务D、提供硬件、软件、⽹络等基础设施

129、下列哪个不属于 YARN 体系结构中 ResourceManager 的功能？A、处理客户端请求B、监控 NodeManagerC、资源分配与调度

D、处理来⾃ ApplicationMaster 的命令

130、下列哪个不属于 YARN 体系结构中 ApplicationMaster 的功能？A、任务调度、监控与容错B、为应⽤程序申请资源

C、将申请的资源分配给内部任务D、处理来⾃ ResourceManger 的命令

131、下列选项中，哪些属于 Hadoop1.0 的核⼼组件的不⾜之处？A、实时性差（适合批处理，不⽀持实时交互式）

B、资源浪费（Map 和 Reduce 分两阶段执⾏）

C、执⾏迭代操作效率低D、难以看到程序整体逻辑

132、Hadoop 的优化与发展主要体现在哪⼏个⽅⾯？A、 Hadoop ⾃⾝核⼼组件 MapReduce 的架构设计改进B、 Hadoop ⾃⾝核⼼组件 HDFS 的架构设计改进C、 Hadoop ⽣态系统其它组件的不断丰富

D、 Hadoop ⽣态系统减少不必要的组件，整合系统 133、下列哪些属于 Hadoop2.0 的改进？A、设计了 HDFS HAB、提供名称节点热备机制

C、设计了 HDFS Federation，管理多个命名空间D、设计了新的资源管理框架 YARN

134、下⾯哪个属于不断完善的 Hadoop ⽣态系统中的组件？A、 PigB、 SparkC、 KafkaD、 DN8

135、HDFS1.0 主要存在哪些问题？A、单点故障问题B、不可以⽔平扩展

C、单个名称节点难以提供不同程序之间的隔离性D、系统整体性能受限于单个名称节点的吞吐量

136、HDFS Federation 相对于 HDFS1.0 的优势主要体现在哪⾥？A、能够解决单点故障问题B、 HDFS 集群扩展性C、性能更⾼效D、良好的隔离性

137、JobTracker 主要包括哪三⼤功能？A、资源管理B、任务调度

C、任务监控D、数据即服务

138、YARN 体系结构主要包括哪三部分？A、 ResourceManagerB、 NodeManagerC、 ApplicationMasterD、 DataManager

139、在 YARN 体系结构中，ApplicationMaster 主要功能包括哪些？

A、当⽤户作业提交时，ApplicationMaster 与 ResourceManager 协商获取资源，ResourceManager 会以容器的形式为ApplicationMaster 分配资源

B、把获得的资源进⼀步分配给内部的各个任务（Map 任务或 Reduce 任务），实现资源的\"⼆次分配\"C、定时向 ResourceManager 发送\"⼼跳\"消息，报告资源的使⽤情况和应⽤的进度信息

D、向 ResourceManager 汇报作业的资源使⽤情况和每个容器的运⾏状态 140、YARN 的⽬标就是实现\"⼀个集群多个框架\"，为什么？A、⼀个企业当中同时存在各种不同的业务应⽤场景，需要采⽤不同的计算框架

B、为了避免不同类型应⽤之间互相⼲扰，企业就需要把内部的服务器拆分成多个集群，分别安装运⾏不同的计算框架，即\"⼀个框架⼀个集群\"

C、这些产品通常来⾃不同的开发团队，具有各⾃的资源调度管理机制D、解决单点故障

141、下列关于 Spark 的描述，错误的是哪⼀项？

A、 Spark 最初由美国加州伯克利⼤学（UCBerkeley）的 AMP 实验室于 2009 年开发B、 Spark 在 2014 年打破了 Hadoop 保持的基准排序纪录.

C、 Spark ⽤⼗分之⼀的计算资源，获得了⽐ Hadoop 快 3 倍的速度D、 Spark 运⾏模式单⼀

142、下⾯关于 Spark 的说法，错误的是哪⼀项？A、使⽤ DAG 执⾏引擎以⽀持循环数据流与内存计算

B、可运⾏于独⽴的集群模式中，可运⾏于 Hadoop 中，也可运⾏于 Amazon EC2 等云环境中

C、⽀持使⽤ Scala、Java、Python 和 R 语⾔进⾏编程，但是不可以通过 Spark Shell 进⾏交互式编程D、 Spark 提供了内存计算，可将中间结果放到内存中，对于迭代计算效率更⾼143、下列关于 Scala 特性的描述，错误的是哪⼀项？A、 Scala 语法复杂，但是能提供优雅的 API 计算

B、 Scala 具备强⼤的并发性，⽀持函数式编程，可以更好地⽀持分布式系统C、 Scala 兼容 Java，运⾏速度快，且能融合到 Hadoop ⽣态圈中D、 Scala 是 Spark 的主要编程语⾔ 144、下列说法哪项有误？A、相对于 Spark 来说，使⽤ Hadoop 进⾏迭代计算⾮常耗资源

B、 Spark 将数据载⼊内存后，之后的迭代计算都可以直接使⽤内存中的中间结果作运算，避免了从磁盘中频繁读取数据C、 Hadoop 的设计遵循\"⼀个软件栈满⾜不同应⽤场景\"的理念

D、 Spark 可以部署在资源管理器 YARN 之上，提供⼀站式的⼤数据解决⽅案 145、在 Spark ⽣态系统组件的应⽤场景中，下列哪项说法是错误的？

A、 Spark 应⽤在复杂的批量数据处理B、 Spark SQL 是基于历史数据的交互式查询C、 Spark Streaming 是基于历史数据的数据挖掘D、 GraphX 是图结构数据的处 146、下列说法错误的是？A、 RDD（Resillient Distributed Dataset）是运⾏在⼯作节点（WorkerNode）的⼀个进程，负责运⾏ TaskB、 Application 是⽤户编写的 Spark 应⽤程序

C、⼀个 Job 包含多个 RDD 及作⽤于相应 RDD 上的各种操作

D、 Directed Acyclic Graph 反映 RDD 之间的依赖关系 147、下列关于 RDD 说法，描述有误的是？A、⼀个 RDD 就是⼀个分布式对象集合，本质上是⼀个只读的分区记录集合B、每个 RDD 可分成多个分区，每个分区就是⼀个数据集⽚段C、 RDD 是可以直接修改的

D、 RDD 提供了⼀种⾼度受限的共享内存模型

148、下列哪⼀项不属于 Spark 架构的优点？

A、实现⼀键式安装和配置、线程级别的任务监控和告警B、降低硬件集群、软件维护、任务监控和应⽤开发的难度C、便于做成统⼀的硬件、计算平台资源池D、不⽤负载应⽤混搭，集群利⽤率⾼

149、Spark ⽣态系统组件 Spark Streaming 的应⽤场景是？A、基于历史数据的数据挖掘B、图结构数据的处理

C、基于历史数据的交互式查询D、基于实时数据流的数据处理

150、Spark ⽣态系统组件 MLlib 的应⽤场景是？A、图结构数据的处理

B、基于历史数据的交互式查询C、复杂的批量数据处理D、基于历史数据的数据挖掘

151、Spark 具有以下哪⼏个主要特点？A、运⾏速度快B、容易使⽤C、通⽤性D、运⾏模式单⼀

152、Scala 具有以下哪⼏个主要特点？

A、 Scala 的优势是提供了 REPL（Read-Eval-Print Loop，交互式解释器），提⾼程序开发效率B、 Scala 兼容 Java，运⾏速度快，且能融合到 Hadoop ⽣态圈中C、 Scala 具备强⼤的并发性，⽀持函数式编程

D、 Scala 可以更好地⽀持分布式系统 153、下列哪些选项属于 Hadoop 的缺点？A、表达能⼒有限B、磁盘 IO 开销⼤C、延迟⾼

D、在前⼀个任务执⾏完成之前，其他任务就⽆法开始，难以胜任复杂、多阶段的计算任务1、下列说法中，哪些选项描述正确？

A、 Spark 在借鉴 Hadoop MapReduce 优点的同时，很好地解决了 MapReduce 所⾯临的问题B、 Spark 的计算模式也属于 MapReduce，但不局限于 Map 和 Reduce 操作

C、 Hadoop MapReduce 编程模型⽐ Spark 更灵活

D、 Hadoop MapReduce 提供了内存计算，可将中间结果放到内存中，对于迭代运算效率更⾼155、在实际应⽤中，⼤数据处理主要包括以下哪三个类型？A、复杂的批量数据处理：通常时间跨度在数⼗分钟到数⼩时之间B、基于历史数据的交互式查询：通常时间跨度在数⼗秒到数分钟之间C、基于实时数据流的数据处理：通常时间跨度在数⼗秒到数分钟之间

D、基于实时数据流的数据处理：通常时间跨度在数百毫秒到数秒之间 156、在实际应⽤中，⼤数据处理难免会带来哪些问题？A、不同场景之间输⼊输出数据⽆法做到⽆缝共享，通常需要进⾏数据格式的转换B、不同的软件需要不同的开发和维护团队C、需要较⾼的使⽤成本

D、⽐较难以对同⼀个集群中的各个系统进⾏统⼀的资源协调和分配

157、与 Hadoop MapReduce 计算框架相⽐，Spark 所采⽤的 Executor 具有哪些优点？A、利⽤多线程来执⾏具体的任务，减少任务的启动开销

B、 Executor 中有⼀个 BlockManager 存储模块，有效减少 IO 开销C、提供了⼀种⾼度受限的共享内存模型

D、不同场景之间输⼊输出数据能做到⽆缝共享 158、Spark 运⾏架构具有以下哪些特点？A、每个 Application 都有⾃⼰专属的 Executor 进程，并且该进程在 Application 运⾏期间⼀直驻留B、 Executor 进程以多线程的⽅式运⾏ Task

C、 Spark 运⾏过程与资源管理器⽆关，只要能够获取 Executor 进程并保持通信即可

D、 Task 采⽤了数据本地性和推测执⾏等优化机制

159、Spark 采⽤ RDD 以后能够实现⾼效计算的原因主要在于？A、⾼效的容错性

B、中间结果持久化到内存，数据在内存中的多个

C、存放的数据可以是 Java 对象，避免了不必要的对象序列化和反序列化D、现有容错机制：数据复制或者记录⽇志160、Spark ⽀持三种不同类型的部署⽅式，包括？

A、 Standalone（类似于 MapReduce1.0，slot 为资源分配单位）B、 Spark on Mesos（和 Spark 有⾎缘关系，更好⽀持 Mesos）C、 Spark on YARND、 Spark on HDFS

161、下列关于流计算的说法，哪项是错误的？

A、实时获取来⾃不同数据源的海量数据，经过实时分析处理，获得有价值的信息B、流计算秉承⼀个基本理念，即数据的价值随着时间的流逝⽽降低C、对于⼀个流计算系统来说，它应该⽀持 TB 级甚⾄是 PB 级的数据规模

D、流计算只需要保证较低的延迟时间，即只达到秒级别即可处理⼀切问题 162、下列关于数据处理流程，说法有误的是？A、在传统的数据处理流程中，存储的数据是旧的

B、在传统的数据处理流程中，需要⽤户主动发出查询来获取结果

C、传统的数据处理流程，需要先采集数据并存储在关系数据库等数据管理系统中

D、流计算的处理流程⼀般包含三个阶段：数据实时采集、数据批量计算、实时查询服务163、下列哪项不属于流计算的处理流程的三个阶段？A、数据实时采集B、数据批量采集C、数据实时计算D、实时查询服务

1、下列哪⼀项不属于 Storm 的特点？

A、⽀持各种编程语⾔：Storm ⽀持使⽤各种编程语⾔来定义任务

B、容错性：Storm 需要⼈⼯进⾏故障节点的重启、任务的重新分配C、可扩展性：Storm 的并⾏特性使其可以运⾏在分布式集群中

D、免费、开源：Storm 是⼀款开源框架，可以免费使⽤ 165、下列关于 Storm 设计思想，描述有误的是？A、 Storm 将 Streams 的状态转换过程抽象为 Spout

B、 Storm 认为每个 Stream 都有⼀个源头，并把这个源头抽象为 SpoutC、 Storm 将 Spouts 和 Bolts 组成的⽹络抽象成 Topology

D、 Topology ⾥⾯的每个处理组件（Spout 或 Bolt）都包含处理逻辑，⽽组件之间的连接则表⽰数据流动的⽅向166、下列关于 Storm 和 Hadoop 架构组件功能对应关系，哪个是错误的？A、 Hadoop Job 对应 Storm Topology

B、 Hadoop TaskTracker 对应 Storm SupervisorC、 Hadoop JobTracker 对应 Storm Spout

D、 Hadoop Reduce 对应 Storm Bolt 167、下⾯哪⼀项不属于 Samza 的系统架构？A、流数据层（Kafka）B、执⾏层（YARN）C、处理层（Samza API）D、数据采集层（Scribe）168、下列哪个说法是错误的？

A、从编程的灵活性来讲，Storm 是⽐较理想的选择，它使⽤ Apache Thrift，可以⽤任何编程语⾔来编写拓扑结构（Topology）B、当有⼤量的状态需要处理时，⽐如每个分区都有数⼗亿个元组，则可以选择 Storm 和 Spark StreamingC、 Spark Streaming ⽆法实现毫秒级的流计算

D、在 Spark 上可以统⼀部署 Spark SQL，Spark Streaming、MLlib，GraphX 等组件，提供便捷的⼀体化编程模型169、下列关于 Storm 的描述，有误的是？

A、 Storm 将流数据 Stream 描述成⼀个有限的 Tuple 序列B、 Storm 保证每个消息都能完整处理

C、 Storm 认为每个 Stream 都有⼀个源头，并把这个源头抽象为 Spout

D、 Bolt 可以执⾏过滤、函数操作、Join、操作数据库等任何操作 170、下列哪个关于 Stream Groupings 的描述，有误的是？A、 FieldsGrouping：⼴播发送，每⼀个 Task 都会收到所有的 TupleB、 GlobalGrouping：全局分组，所有的 Tuple 都发送到同⼀个 Task 中

C、 NonGrouping：不分组，和 ShuffleGrouping 类似，当前 Task 的执⾏会和它的被订阅者在同⼀个线程中执⾏

D、 DirectGrouping：直接分组，直接指定由某个 Task 来执⾏ Tuple 的处理 171、流数据具有以下哪些特征？A、数据快速持续到达，潜在⼤⼩也许是⽆穷⽆尽的B、数据来源众多，格式复杂

C、注重数据的整体价值，不过分关注个别数据

D、系统可以控制将要处理的新到达的数据元素的顺序 172、下列关于批量计算和实时计算的说法，正确的有？A、批量计算：充裕时间处理静态数据，如 Hadoop

B、静态数据不适合采⽤批量计算，因为它不适合⽤传统的关系模型建模C、流数据必须采⽤实时计算D、流数据的响应时间为秒级

173、对于⼀个流计算系统来说，它应达到以下哪些需求？A、⾼性能：处理⼤数据的基本要求，如每秒处理⼏⼗万条数据B、实时性：保证较低的延迟时间，达到秒级别，甚⾄是毫秒级别C、分布式：⽀持⼤数据的基本架构，必须能够平滑扩展D、可靠性：能可靠地处理流数据

174、下列关于流计算与 Hadoop 的说法，正确的有？A、 Hadoop 擅长批处理，不适合流计算

B、 MapReduce 是专门⾯向静态数据的批量处理的C、 Hadoop 设计的初衷是⾯向⼤规模数据的批量处理D、 MapReduce 不适合⽤于处理持续到达的动态数据

175、下列关于流处理系统与传统的数据处理系统的描述，正确的有？

A、流处理系统处理的是实时的数据，⽽传统的数据处理系统处理的是预先存储好的静态数据

B、⽤户通过流处理系统获取的是实时结果，⽽通过传统的数据处理系统，获取的是过去某⼀时刻的结果C、流处理系统⽆需⽤户主动发出查询，实时查询服务可以主动将结果推送给⽤户

D、传统的数据处理系统系统⽆需⽤户主动发出查询，批量查询服务可以主动将结果推送给⽤户176、Storm 具有以下哪些特点？

A、整合性：Storm 可⽅便地与队列系统和数据库系统进⾏整合B、简易的 API：Storm 的 API 在使⽤上即简单⼜⽅便

C、容错性：Storm 可⾃动进⾏故障节点的重启、任务的重新分配

D、可扩展性：Storm 的并⾏特性使其可以运⾏在分布式集群中 177、⽬前，Storm 中的 Stream Groupings 有如下哪⼏种⽅式？A、 AllGrouping：⼴播发送，每⼀个 Task 都会收到所有的 TupleB、 GlobalGrouping：全局分组，所有的 Tuple 都发送到同⼀个 Task 中

C、 FieldsGrouping：按照字段分组，保证相同字段的 Tuple 分配到同⼀个 Task 中

D、 DirectGrouping：随机分组，随机分发 Stream 中的 Tuple，保证每个 Bolt 的 Task 接收 Tuple 数量⼤致⼀致178、下列关于 Storm 框架，描述正确的有？

A、 worker:每个 worker 进程都属于⼀个特定的 TopologyB、 executor：executor 是产⽣于 worker 进程内部的线程C、 task:实际的数据处理由 task 完成

D、在 Topology 的⽣命周期中，每个组件的 task 数⽬是不会发⽣变化的，⽽ executor 的数⽬却不⼀定

179、下列关于 Spark Streaming 与 Storm 的描述，哪些是正确的的？A、 Spark Streaming ⽆法实现毫秒级的流计算B、 Storm 可以实现毫秒级响应件

C、 Storm 的低延迟执⾏引擎（100ms+）可以⽤于实时计算

D、 Spark Streaming 采⽤的⼩批量处理的⽅式使得它可以同时兼容批量和实时数据处理的逻辑和算法180、下列关于 Samza 的描述，哪些是正确的？

A、⼀个作业（Job）是对⼀组输⼊流进⾏处理转化成输出流的程序

B、 Samza 的流数据单位既不是 Storm 中的元组，也不是 Spark Streaming 中的 DStream，⽽是⼀条条消息C、⼀个作业会被进⼀步分割成多个任务（Task）来执⾏D、分区之间没有定义顺序，从⽽允许每⼀个任务独⽴执⾏181、下列关于数据可视化的描述，哪个是错误的？

A、数据可视化是指将⼤型数据集中的数据以图形图像形式表⽰B、利⽤数据分析和开发⼯具发现其中未知信息的处理过程

C、数据可视化技术的基本思想是将数据库中每⼀个数据项作为单个图元素表⽰D、将数据的各个属性值以⼀维数据的形式表⽰

182、学习 D3 可视化库需要的⼀些基础知识，下列说法错误的是？A、 HTML：⽂档对象模型，⽤于修改⽂档的内容和结构B、 CSS：层叠样式表，⽤于设定⽹页的样式C、 SVG：可缩放⽮量图形，⽤于绘制可视化的图形

D、 JavaScript：⼀种直译式脚本语⾔，⽤于设定⽹页的⾏为 183、下列选项中，哪些不属于 SVG 标签的视觉元素？A、矩形B、圆形C、线条D、图⽚

184、下列哪个不属于可视化⼯具？A、 Google Chart APIB、 D3C、 Visual.lyD、 Spark

185、下列说法错误的是？

A、⼤数据魔镜是⼀款优秀的国产数据分析软件，可以让⽤户真正理解探索分析数据

B、 Tableau 是桌⾯系统中最简单的商业智能⼯具软件，是⼀个⽤于⽹页作图、⽣成互动图形的 JavaScript 函数库C、 Google Fusion Tables 让⼀般使⽤者也可以轻松制作出专业的统计地图

D、 Modest Maps 是⼀个⼩型、可扩展、交互式的免费库，提供了⼀套查看卫星地图的 API186、下⾯关于 Timetoast 的描述，哪个是错误的？A、 Timetoast 是在线创作基于时间轴事件记载服务的⽹站B、提供个性化的时间线服务

C、 Timetoast 基于 flash 平台，可以在类似 flash 时间轴上任意加⼊事件D、 Timetoast 是⼀个社区类型的时间轴⽹站

187、HBase 实际应⽤中的性能优化⽅法不包括下⾯哪⼀项？

A、创建表的时候，可以通过 HColumnDescriptor.setInMemory(true)将表放到 Region 服务器的缓存中，保证在读取的时候被 cache 命中B、创建表的时候，可以通过 HColumnDescriptor.setMaxVersions(int maxVersions)设置表中数据的最⼤版本，如果只需要保存最新版本的数据，那么可以设置 setMaxVersions(1)

C、创建表的时候，可以通过 HColumnDescriptor.setTimeToLive(int timeToLive)设置表中数据的存储⽣命期D、如果最近写⼊ HBase 表中的数据是最可能被访问的，可以考虑将时间戳作为⾏键的⼀部分188、下列关于可视化⼯具中⾼级分析⼯具的说法，错误的是？A、 R 是属于 GNU 系统的⼀个⾃由、免费、源代码开放的软件

B、 Weka 主要⽤于社交图谱数据可视化分析，可以⽣成⾮常酷炫的可视化图形C、 Gephi 主要⽤于社交图谱数据可视化分析，可以⽣成⾮常酷炫的可视化图形D、 R 通常⽤于⼤数据集的统计与分析1、下⾯关于 D3 的说法，哪个是错误的？A、 D3 是⼀个被数据驱动的⽂档

B、 D3 是⼀个 JavaScript 的函数库，使⽤它主要是⽤来做数据可视化的C、 D3 是⼀个 JavaScript 函数库，并不需要通常所说的\"安装\"D、 D3 有多个⽂件，在 HTML 中引⽤即可

190、在⼤数据时代，可视化技术可以⽀持实现哪些⽬标？A、观测、跟踪数据B、分析数据C、辅助理解数据

D、增强数据吸引⼒

191、信息图表是信息、数据、知识等的视觉化表达，下列哪个说法正确？

A、⾕歌公司的制图服务接⼝ Google Chart API，可以⽤来为统计数据并⾃动⽣成图⽚B、 D3 是最流⾏的可视化库之⼀，是⼀个⽤于⽹页作图、⽣成互动图形的 JavaScrip 函数库C、 Visual.ly 可以⽤它来快速创建⾃定义的、样式美观且具有强烈视觉冲击⼒的信息图表

D、⼤数据魔镜是⼀款优秀的国产数据分析软件，它丰富的数据公式和算法可以让⽤户真正理解探索分析数据192、下列说法正确的有？

A、 HTML：超⽂本标记语⾔，⽤于设定⽹页的内容B、 CSS：⼀种直译式脚本语⾔，⽤于设定⽹页的⾏为C、 DOM：⽂档对象模型，⽤于修改⽂档的内容和结构D、 SVG：层叠样式表，⽤于设定⽹页的样式193、D3 可以处理哪些类型的数据？A、数值数组B、字符串

C、对象（本⾝包含其他数组或键/值对）D、 JSON 和 GeoJSON

194、下列描述正确的有？

A、 d3.select(\"body\")查找 DOM 中的 bodyB、 selectAll(\"p\")选择 DOM 中的所有段落C、 enter()绑定数据和 DOM 元素

D、 text(\"New paragraph!\")为新创建的 p 标签插⼊⼀个⽂本值 195、下列关于 SVG 标签的描述，说法正确的有？A、圆。使⽤ cx 和 cy，指定指定半径的中⼼的坐标，和ŗ表⽰半径

B、线。使⽤ x1 和 Y1 到指定线的⼀端的坐标，x2 和 y2 指定的另⼀端的坐标。C、⽂本。使⽤ x 和 y 指定⽂本的位置

D、椭圆。使⽤ x 和 y 的指定左上⾓的坐标，width 和 height 指定的尺⼨ 196、下列关于 SVG 性质的描述，说法正确的有？

A、描边（stroke） -颜⾊值

B、描边宽度（stroke-width） -数字（通常以像素为单位）C、 SVG 的默认样式是⿊⾊填充

D、不透明度（opacity） – 0.0（完全透明）和 1.0（完全不透明）之间的数值197、下列关于数据可视化的描述，正确的有？

A、数据可视化是指将⼤型数据集中的数据以图形图像形式表⽰

B、数据可视化技术的基本思想是将数据库中每⼀个数据项作为单个图元素表⽰C、利⽤数据分析和开发⼯具发现其中未知信息的处理过程D、将数据的各个属性值以⼀维数据的形式表⽰198、下列说法中，哪些是正确的？

A、 CSS：层叠样式表，⽤于设定⽹页的样式

B、 JavaScript：⼀种直译式脚本语⾔，⽤于设定⽹页的⾏为

C、 SVG 标签包含⼀些视觉元素，包括矩形，圆形，椭圆形，线条，⽂字和路径等D、 SVG 的默认样式是⿊⾊填充。如果想换颜⾊，就必须将样式应⽤到相应的元素199、下列说法中，哪些是正确的？

A、 Modest Maps 是⼀个⼩型、可扩展、交互式的免费库

B、 Leaflet 是⼀个⼩型化的地图框架，通过⼩型化和轻量化来满⾜移动⽹页的需要C、 Google Fusion Tables 让⼀般使⽤者也可以轻松制作出专业的统计地图

D、⼤数据魔镜是⼀款优秀的国产数据分析软件，它丰富的数据公式和算法可以让⽤户真正理解探索分析数据200、下列说法错误的是？

A、 UserCF 算法推荐的是那些和⽬标⽤户有共同兴趣爱好的其他⽤户所喜欢的物品B、 ItemCF 算法推荐的是那些和⽬标⽤户之前喜欢的物品类似的其他物品C、 UserCF 算法的推荐更偏向个性化

D、 UserCF 随着⽤户数⽬的增⼤，⽤户相似度计算复杂度越来越⾼ 201、下⾯关于 UserCF 算法和 ItemCF 算法的对⽐，哪个是错误的？

A、 UserCF 算法的推荐更偏向社会化：适合应⽤于新闻推荐、微博话题推荐等应⽤场景，其推荐结果在新颖性⽅⾯有⼀定的优势B、 ItemCF 算法的推荐更偏向于个性化

C、 ItemCF 随着⽤户数⽬的增⼤，⽤户相似度计算复杂度越来越⾼

D、 UserCF 推荐结果相关性较弱，难以对推荐结果作出解释，容易受⼤众影响⽽推荐热门物品

202、下列哪⼀项不属于⼤数据的应⽤？A、电信⾏业：客户离⽹分析B、智能机器⼈

C、零售⾏业：发现关联购买⾏为、进⾏客户群体细分D、推荐系统

203、下列关于推荐系统的描述，哪⼀项是错误的？A、推荐系统是⼤数据在互联⽹领域的典型应⽤B、推荐系统是⾃动联系⽤户和物品的⼀种⼯具

C、推荐系统可以创造全新的商业和经济模式，帮助实现长尾商品的销售D、推荐系统分为基于物品的协同过滤和基于商家的协同过滤204、下列哪⼀项不属于推荐算法？A、基于物品和商家的联合协同推荐B、基于统计的推荐C、专家推荐D、基于内容的推荐205、下列描述有误的是？

A、专家推荐：⼈⼯推荐，由资深的专业⼈⼠来进⾏物品的筛选和推荐，需要较多的⼈⼒成本性B、基于统计的推荐：通过机器学习的⽅法去描述内容的特征，并基于内容的特征来发现与之相似的内容C、协同过滤推荐：应⽤最早和最为成功的推荐⽅法之⼀D、混合推荐：结合多种推荐算法来提升推荐效果206、下列哪⼀项不属于完整推荐系统的三个模块之⼀？A、⽤户建模模块B、推荐对象建模模块

C、推荐算法模块D、数据采集模块

207、下列关于协同过滤的说法，哪⼀项是错误的？

A、协同过滤可分为基于⽤户的协同过滤和基于物品的协同过滤

B、 UserCF 算法符合⼈们对于\"趣味相投\"的认知，即兴趣相似的⽤户往往有相同的物品喜好C、实现 UserCF 算法的关键步骤是计算物品与物品之间的相似度

D、基于物品的协同过滤算法（简称 ItemCF 算法）是⽬前业界应⽤最多的算法 208、下列哪个说法是错误的？A、⽆论是亚马逊还是 Netflix，其推荐系统的基础都是 ItemCF 算法B、 ItemCF 算法是给⽬标⽤户推荐那些和他们之前喜欢的物品相似的物品C、 ItemCF 算法主要通过分析⽤户的⾏为记录来计算物品之间的相似度D、实现 UserCF 算法的关键步骤是计算物品与物品之间的相似度209、下列哪⼀项说法是错误的？

A、 UserCF 算法推荐的是那些和⽬标⽤户有共同兴趣爱好的其他⽤户所喜欢的物品B、 ItemCF 算法推荐的是那些和⽬标⽤户之前喜欢的物品类似的其他物品C、 ItemCF 算法的推荐更偏向社会化，⽽ UserCF 算法的推荐更偏向于个性化

D、 ItemCF 算法倾向于推荐与⽤户已购买商品相似的商品，往往会出现多样性不⾜、推荐新颖度较低的问题210、下列哪些属于⼤数据应⽤？A、推荐系统：为⽤户推荐相关商品

B、物流：基于⼤数据和物联⽹技术的智能物流C、智能交通：利⽤交通⼤数据，实现交通实时监控

D、汽车：⽆⼈驾驶汽车，实时采集车辆各种⾏驶数据和周围环境 211、下列关于推荐系统集群的描述，哪些是正确的？A、为了让⽤户从海量信息中⾼效地获得⾃⼰所需的信息，推荐系统应运⽽⽣B、推荐系统是⼤数据在互联⽹领域的典型应⽤C、推荐系统是⾃动联系⽤户和物品的⼀种⼯具

D、推荐系统是利⽤⼤数据为⽤户推荐消费内容、调整线下门店布局、控制店内⼈流量

212、下列关于推荐长尾理论的描述，哪些是正确的？

A、推荐系统可以创造全新的商业和经济模式，帮助实现长尾商品的销售

B、 \"长尾\"概念于 2004 年提出，⽤来描述以亚马逊为代表的电⼦商务⽹站的商业和经济模式C、可以通过发掘长尾商品并推荐给感兴趣的⽤户来提⾼销售额

D、热门推荐的主要缺陷在于推荐的范围有限，所推荐的内容在⼀定时期内也相对固定。⽆法实现长尾商品的推荐213、推荐系统的本质是建⽴⽤户与物品的联系，根据推荐算法的不同，推荐⽅法包括以下哪⼏类？A、专家推荐：⼈⼯推荐，由资深的专业⼈⼠来进⾏物品的筛选和推荐，需要较多的⼈⼒成本

B、基于统计的推荐：基于统计信息的推荐（如热门推荐），易于实现，但对⽤户个性化偏好的描述能⼒较弱C、基于内容的推荐：通过机器学习的⽅法去描述内容的特征，并基于内容的特征来发现与之相似的内容D、混合推荐：结合多种推荐算法来提升推荐效果 214、⼀个完整的推荐系统通常包括以下哪三个模块？A、⽤户建模模块B、数据采集模块C、推荐对象建模模块D、推荐算法模块

215、下列关于推荐系统的描述，哪些是正确的？

A、⽤户建模模块：对⽤户进⾏建模，根据⽤户⾏为数据和⽤户属性数据来分析⽤户的兴趣和需求B、推荐对象建模模块：根据对象数据对推荐对象进⾏建模

C、推荐算法模块：基于⽤户特征和物品特征，采⽤推荐算法计算得到⽤户可能感兴趣的对象D、推荐算法模块：根据推荐场景对推荐结果进⾏⼀定调整，将推荐结果最终展⽰给⽤户216、协同过滤可分为哪⼏种过滤⽅式？A、基于⽤户的协同过滤B、基于物品的协同过滤

C、基于⽤户和物品的联合协同过滤

D、基于商家的协同过滤

217、关于基于⽤户的协同过滤，下列哪些说法是正确的？

A、基于⽤户的协同过滤算法（简称 UserCF 算法）在 1992 年被提出，是推荐系统中最古⽼的算法B、 UserCF 算法符合⼈们对于\"趣味相投\"的认知

C、实现 UserCF 算法的关键步骤是计算⽤户与⽤户之间的兴趣相似度D、 UserCF 算法符合兴趣相似的⽤户往往有相同的物品喜好

218、实现 UserCF 算法的关键步骤是计算⽤户与⽤户之间的兴趣相似度，下列哪些是属于计算相似度的算法？A、泊松相关系数B、余弦相似度C、调整余弦相似度D、调整正弦相似度

219、下列关于协同过滤算法的描述，哪些是正确的？

A、基于物品的协同过滤算法（简称 ItemCF 算法）是⽬前业界应⽤最多的算法B、 ItemCF 算法是给⽬标⽤户推荐那些和他们之前喜欢的物品相似的物品

C、 ItemCF 算法通过建⽴⽤户到物品倒排表（每个⽤户喜欢的物品的列表）来计算物品相似度D、 UserCF 算法推荐的是那些和⽬标⽤户有共同兴趣爱好的其他⽤户所喜欢的物品220、下列关于 BigTable 的描述，哪个是错误的？

A、爬⾍持续不断地抓取新页⾯，这些页⾯每隔⼀段时间地存储到 BigTable ⾥B、 BigTable 是⼀个分布式存储系统

C、 BigTable 起初⽤于解决典型的互联⽹搜索问题

D、⽹络搜索应⽤查询建⽴好的索引，从 BigTable 得到⽹页

221、下列选项中，关于 HBase 和 BigTable 的底层技术对应关系，哪个是错误的？A、 GFS 与 ZookeeperB、 GFS 与 HDFS

C、 MapReduce 与 Hadoop MapReduceD、 Chubby 与 Zookeeper

222、在 HBase 中，关于数据操作的描述，下列哪⼀项是错误的？

A、 HBase 则采⽤了更加简单的数据模型，它把数据存储为未经解释的字符串B、 HBase 操作不存在复杂的表与表之间的关系C、 HBase 操作只有简单的插⼊、查询、删除、清空等

D、 HBase 在设计上就避免了复杂的表和表之间的关系 223、在 HBase 访问接⼝中，Pig 主要⽤在哪个场合？A、适合做数据统计B、适合 HBase 管理使⽤

C、适合其他异构系统在线访问 HBase 表数据

D、适合 Hadoop MapReduce 作业并⾏批处理 HBase 表数据

224、HBase 中需要根据某些因素来确定⼀个单元格，这些因素可以视为⼀个 \"四维坐标\"，下⾯哪个不属于\"四维坐标\"？A、关键字B、⾏键C、列族D、时间戳

225、关于 HBase 的三层结构中各层次的名称和作⽤的说法，哪个是错误的？A、 Zookeeper ⽂件记录了⽤户数据表的 Region 位置信息

B、 -ROOT-表记录了.META.表的 Region 位置信息

C、 .META.表保存了 HBase 中所有⽤户数据表的 Region 位置信息D、 Zookeeper ⽂件记录了-ROOT-表的位置信息

226、下⾯关于主服务器 Master 主要负责表和 Region 的管理⼯作的描述，哪个是错误的？A、实现相同 Region 服务器之间的负载均衡⾏

B、在 Region 或合并后，负责重新调整 Region 的分布C、对发⽣故障失效的 Region 服务器上的 Region 进⾏迁移D、管理⽤户对表的增加、删除、修改、查询等操作

227、HBase 实际应⽤中的性能优化⽅法不包括下⾯哪⼀项？

C、创建表的时候，可以通过 HColumnDescriptor.setTimeToLive(int timeToLive)设置表中数据的存储⽣命期D、如果最近写⼊ HBase 表中的数据是最可能被访问的，可以考虑将时间戳作为⾏键的⼀部分228、HBase 只有⼀个针对⾏健的索引，如要要访问 HBase 表中的⾏，下⾯哪种⽅式是不可⾏的？A、通过单个⾏健访问B、通过时间戳访问

C、通过⼀个⾏健的区间来访问D、全表扫描

229、下⾯关于 Region 的说法，哪个是错误的？A、同⼀个 Region 不会被分拆到多个 Region 服务器

B、为了加快访问速度，.META.表的全部 Region 都会被保存在内存中C、⼀个-ROOT-表可以有多个 Region

D、为了加速寻址，客户端会缓存位置信息，同时，需要解决缓存失效问题

230、关系数据库已经流⾏很多年，并且 Hadoop 已经有了 HDFS 和 MapReduce，为什么需要 HBase？

A、 Hadoop 可以很好地解决⼤规模数据的离线批量处理问题，但是，受限于 Hadoop MapReduce 编程框架的⾼延迟数据处理机制，使得Hadoop ⽆法满⾜⼤规模数据实时处理应⽤的需求上B、 HDFS ⾯向批量访问模式，不是随机访问模式

C、传统的通⽤关系型数据库⽆法应对在数据规模剧增时导致的系统扩展性和性能问题

D、传统关系数据库在数据结构变化时⼀般需要停机维护；空列浪费存储空间 231、HBase 与传统的关系数据库的区别主要体现在以下哪⼏个⽅⾯？A、数据类型B、数据操作C、存储模式D、数据维护

232、HBase 访问接⼝类型包括哪些？A、 Native Java APIB、 HBase Shell

C、 Thrift GatewayD、 REST Gateway

233、下列关于数据模型的描述，哪些是正确的？

A、 HBase 采⽤表来组织数据，表由⾏和列组成，列划分为若⼲个列族B、每个 HBase 表都由若⼲⾏组成，每个⾏由⾏键（row key）来标识C、列族⾥的数据通过列限定符（或列）来定位

D、每个单元格都保存着同⼀份数据的多个版本，这些版本采⽤时间戳进⾏索引234、HBase 的实现包括哪三个主要的功能组件？A、库函数：链接到每个客户端B、⼀个 Master 主服务器C、许多个 Region 服务器D、部署在廉价的计算机集群中

235、HBase 的三层结构中，三层指的是哪三层？A、 Zookeeper ⽂件B、 -ROOT-表C、 .META.表D、数据类型

236、HBase 性能监视主要包括以下哪⼏⽅⾯？A、 Master-status(⾃带)B、 GangliaC、 OpenTSDBD、 Ambari

237、Zookeeper 是⼀个很好的集群管理⼯具，被⼤量⽤于分布式计算，它主要提供什么服务？A、配置维护B、域名服务C、分布式同步D、组服务

238、下列关于 Region 服务器⼯作原理的描述，哪些是正确的？A、每个 Region 服务器都有⼀个⾃⼰的 HLog ⽂件

B、每次刷写都⽣成⼀个新的 StoreFile，数量太多，影响查找速度C、合并操作⽐较耗费资源，只有数量达到⼀个阈值才启动合并D、 Store 是 Region 服务器的核⼼

239、下列关于 HLog ⼯作原理的描述，哪些是正确的？A、分布式环境必须要考虑系统出错。HBase 采⽤ HLog 保证B、 HBase 系统为每个 Region 服务器配置了⼀个 HLog ⽂件C、 Zookeeper 会实时监测每个 Region 服务器的状态

D、 Master ⾸先会处理该故障 Region 服务器上⾯遗留的 HLog ⽂件 240、下列关于图结构数据的描述，错误的是？A、许多⾮图结构的⼤数据，通常会被转换为关系模型后进⾏分析

B、许多⼤数据都是以⼤规模图或⽹络的形式呈现C、图数据结构很好地表达了数据之间的关联性D、关联性计算是⼤数据计算的核⼼

241、下⾯哪个细节是⽤户通过⽹页监控看不到的？A、关于出度分布的柱状图B、处于活跃状态的边数量

C、在当前超步的时间信息和消息流量D、所有⽤户⾃定义 Aggregator 的值

242、在 Pregel 计算模型中，图中的每个顶点会对应⼀个计算单元，下列哪⼀项不属于计算单元的成员变量？A、顶点值（Vertex value）：顶点对应的 PR 值

B、出射边（Out edge）：只需要表⽰⼀条边，可以不取值C、消息（Message）：传递的消息

D、⼊射边（Iut edge）：只需要表⽰⼀条边，可以不取值

243、采⽤ MapReduce 实现 PageRank 的计算过程包括三个阶段，下列哪⼀项是错的？A、第⼀阶段：解析⽹页B、第⼆阶段：PageRank 分配C、第三阶段：收敛阶段D、第⼀阶段：收集⽹页

244、下列关于 PageRank 算法在 MapReduce 中的实现的描述，错误的是？

A、解析⽹页的任务就是分析⼀个页⾯的链接数，但是不赋初值B、 PageRank 分配就是多次迭代计算页⾯的 PageRank 值C、收敛阶段的任务就是由⼀个⾮并⾏组件决定是否达到收敛

D、⼀般判断是否收敛的条件是所有⽹页的 PageRank 值不再变化，或者运⾏ 30 次以后我们就认为已经收敛了245、下列哪个不属于 PageRank 算法在 Pregel 和 MapReduce 中实现⽅式的区别？A、 Pregel 将 PageRank 处理对象看成是连通图，⽽ MapReduce 则将其看成是键值对B、 Pregel 将计算细化到顶点，同时在顶点内控制循环迭代次数C、 apReduce 将计算批量化处理，按任务进⾏循环迭代控制

D、图算法如果⽤ Pregel 实现，需要⼀系列的 Pregel 的调⽤ 246、下列哪项不属于在 Vetex 类中的值类型参数？A、顶点的出度B、顶点C、边D、消息

247、在每个超步中，Worker 调⽤顶点上的 Compute()函数，下列哪个参数是不需要传递？A、该顶点的当前值

B、⼀个接收到的消息的迭代器C、⼀个出射边的迭代器D、⼀个⼊射边的迭代器

248、下列哪⼀项不属于每个超步的组件？

A、全局计算B、局部计算C、通讯D、栅栏同步

249、在⼀个 Worker 中，它所管辖的分区的状态信息是保存在内存中的，下列哪⼀项不属于分区的状态信息？A、顶点的当前值B、消息队列

C、标志位

D、⼀个接收到的消息的迭代器

250、很多传统的图计算算法都存在以下哪些典型问题？A、常常表现出⽐较差的内存访问局部性B、针对单个顶点的处理⼯作过少C、计算过程中伴随着并⾏度的改变D、计算过程简易

251、针对⼤型图（⽐如社交⽹络和⽹络图）的计算问题，哪些说法是正确的？A、为特定的图应⽤定制相应的分布式实现：通⽤性不好

B、基于现有的分布式计算平台进⾏图计算：在性能和易⽤性⽅⾯往往⽆法达到最优C、使⽤单机的图算法库，但是，在可以解决的问题的规模⽅⾯具有很⼤的局限性

D、使⽤已有的并⾏图计算系统，但是，对⼤规模分布式系统⾮常重要的⼀些⽅⾯（⽐如容错），⽆法提供较好的⽀持252、针对⼤型图的计算，⽬前通⽤的图计算软件主要哪些？A、基于遍历算法的、实时的图数据库，如 Neo4j、OrientDB、DEX 和 Infinite Graph

B、以图顶点为中⼼的、基于消息传递批处理的并⾏引擎，如 GoldenOrb、 Giraph、Pregel 和 HamaC、基于遍历算法的、实时的图数据库，如 GoldenOrb、Giraph、Pregel 和 HamaD、以图顶点为中⼼的、基于消息传递批处理的并⾏引擎，如 Neo4j、 OrientDB、DEX 和 Infinite Graph

253、⼀次 BSP(Bulk Synchronous Parallel Computing Model，⼜称\"⼤同步\"模型)计算过程包括⼀系列全局超步（所谓的超步就是计算中的⼀次迭代），每个超步主要包括哪些组件？A、局部计算：每个参与的处理器都有⾃⾝的计算任务B、通讯：处理器群相互交换数据

C、栅栏同步：当⼀个处理器遇到\"路障\"（或栅栏），会等到其他所有处理器完成它们的计算步骤D、基于现有的分布式计算平台进⾏图计算 2、下列说法正确的是？

A、在 Pregel 执⾏计算过程时，在每个超步中都会并⾏调⽤每个顶点上定义的 Compute()函数B、顶点之间的通讯是借助于消息传递机制来实现的

C、在默认情况下，Pregel 计算框架并不会开启 Combiner 功能

D、通常只对那些满⾜交换律和结合律的操作才可以去开启 Combiner 功能 255、在 Pregel 计算框架中，图的保存格式多种多样，具体包括哪些？

A、⽂本⽂件B、关系数据库C、键值数据库D、语⾳⽂件

256、下列对于 Pregel 的执⾏过程，哪些是正确的？

A、选择集群中的多台机器执⾏图计算任务，每台机器上运⾏⽤户程序的⼀个副本B、 Master 把⼀个图分成多个分区，并把分区分配到多个 WorkerC、 ster 会把⽤户输⼊划分成多个部分，通常是基于⽂件边界进⾏划分D、 ster 向每个 Worker 发送指令，Worker 收到指令后，开始运⾏⼀个超步

257、在⼀个 Worker 中，它所管辖的分区的状态信息是保存在内存中的，分区中的顶点的状态信息包括？A、顶点的当前值

B、以该顶点为起点的出射边列表，每条出射边包含了⽬标顶点 ID 和边的值C、消息队列，包含了所有接收到的、发送给该顶点的消息D、标志位，⽤来标记顶点是否处于活跃状态

258、在每个超步中，Worker 会对⾃⼰所管辖的分区中的每个顶点进⾏遍历，并调⽤顶点上的 Compute()函数，在调⽤时，会把以下哪些参数传递进去？A、该顶点的当前值

B、⼀个接收到的消息的迭代器C、⼀个出射边的迭代器

D、标志位，⽤来标记顶点是否处于活跃状态 259、下列说法正确的有？A、在 Pregel 中，为了获得更好的性能，\"标志位\"和输⼊消息队列是分开保存的

B、在超步 S 中，当⼀个 Worker 在进⾏顶点处理时，⽤于当前超步的消息会被处理C、需要两个消息队列⽤于存放作⽤于当前超步 S 的消息和作⽤于下⼀个超步 S+1 的消息

D、每个 Worker 上都保存了⼀个或多个分区的状态信息，当⼀个 Worker 发⽣故障时，它所负责维护的分区的当前状态信息就会丢失

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文