分类: Spark

4 篇文章

[Spark] 从字符串创建StructType
    在使用Spark开发的过程中,DataFrame是经常使用的一个数据类型,它比RDD有了更加高级的API,更高的执行效率。     然而,某些情况下,经需要将一个RDD转换为DataFrame,这一步经常需要生成一个StructType来生成DataFrame的schema。直接生成StructTyp…
[Spark] Scala集合类详解
    Spark常用Scala语言进行开发,Spark中的RDD处理过程中,经常会与Scala集合进行互相转换。 首先,盗一张图来说明Scala集合类的继承关系 Scala集合类的继承关系 由上图可知,Scala中集合主要分为三大类: 1. Seq,是一组有序的元素。  2. Set,是一组没有重复元素的集合。  3. Map,是一组k-v对。 …
[Spark]Zookeeper3.4.12和Kafka1.0.0的安装及配置
    Spark程序的开发,难免会迁涉到Kafka的有关内容,而Kafka的运行又依赖于Zookeeper。 Zookeeper的安装与部署     官网下载的Kafka程序包里面已经包含的一个Zookeeper程序,在这些文章中,我们没有使用它,而是使用了独立的Zookeeper程序。 先去官网下载Zoo…
[Spark]Spark2.1.0与Hadoop2.7.5的集群安装及配置
    工作快两个月了,已经大半年没有更新了,决定继续更新博客。续更的第一个系列将会是与目前工作相关Spark系列。第一篇就从Spark的安装与配置开始。 集群的准备 要搭建Spark集群环境,首先要准备集群。笔者这里使用了三台机器,都为debian8系统。 三台机的信息如下: 172.30.232.140 master 172…