下列关于spark中的RDD描述正确的有()。
A.RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是spark中最基本的数据抽象
B.Resilient:表示弹性的,弹性表示
C.Destributed:分布式,可以并行在集群计算
D.Dataset:就是一个集合,用于存放数据的
A.RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是spark中最基本的数据抽象
B.Resilient:表示弹性的,弹性表示
C.Destributed:分布式,可以并行在集群计算
D.Dataset:就是一个集合,用于存放数据的
A、Spark SQL在HDFS文件上可根据自定义方式进行文件与表的映射关系
B、Spark Streaming准实时流计算框架,数据可以消费MQ、Kafka等
C、Spark MLlib机器机器学习算法库,封装了主流的机器学习算法
D、Spark GraphX进行基于图计算的服务支持
A.元数据是地理信息中用于描述地理数据集的内容、质量、表示方法、空间参考系、管理方式以及数据集的其他特征的数据
B.元数据是关于数据的数据
C.元数据有时候也叫做数据字典
D.元数据是实现地理空间信息共享的前提条件和基本保障
A.Hive hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能
B.Impala Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据
C.Kylin Kylin?是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维析(OLAP)能力以支持超大规模数据
D.HBase HBase是一个分布式的、面向列的开源数据库