在使用Spark开发的过程中,DataFrame是经常使用的一个数据类型,它比RDD有了更加高级的API,更高的执行效率。 然而,某些情况下,经需要将一个RDD转换为DataFrame,这一步经常需要生成一个StructType来生成DataFrame的schema。直接生成StructTyp…
Spark常用Scala语言进行开发,Spark中的RDD处理过程中,经常会与Scala集合进行互相转换。 首先,盗一张图来说明Scala集合类的继承关系 Scala集合类的继承关系 由上图可知,Scala中集合主要分为三大类: 1. Seq,是一组有序的元素。 2. Set,是一组没有重复元素的集合。 3. Map,是一组k-v对。 …
Spark程序的开发,难免会迁涉到Kafka的有关内容,而Kafka的运行又依赖于Zookeeper。 Zookeeper的安装与部署 官网下载的Kafka程序包里面已经包含的一个Zookeeper程序,在这些文章中,我们没有使用它,而是使用了独立的Zookeeper程序。 先去官网下载Zoo…
工作快两个月了,已经大半年没有更新了,决定继续更新博客。续更的第一个系列将会是与目前工作相关Spark系列。第一篇就从Spark的安装与配置开始。 集群的准备 要搭建Spark集群环境,首先要准备集群。笔者这里使用了三台机器,都为debian8系统。 三台机的信息如下: 172.30.232.140 master 172…