A.非实时分析,例如日志分析,统计分析
B.数据挖掘,例如用户行为分析,兴趣分析,区域展示
C.数据汇总,例如每天,每用户点击数,点击排行
D.实时在线数据分析
A、Spark SQL在HDFS文件上可根据自定义方式进行文件与表的映射关系
B、Spark Streaming准实时流计算框架,数据可以消费MQ、Kafka等
C、Spark MLlib机器机器学习算法库,封装了主流的机器学习算法
D、Spark GraphX进行基于图计算的服务支持
A.我们随机抽取一些样本,在这些少量样本之上训练
B.我们可以试用在线机器学习算法
C.我们应用PCA算法降维,减少特征数
D.B和C
E.A和B
F.以上所有