shoudi_study

导航

内存分布式文件系统

1.背景 Spark平台以分布式内存计算的模式达到更高的计算性能,然而,分布式内存计算的模式也是一柄双刃剑,在提高性能的同时不得不面对分布式数据存储所产生的问题,具体问题主要有以下几个: 1) 当两个Spark作业需要共享数据时,必须通过写磁盘操作。比如:作业1要先把生成的数据写入HDFS,然后作业

posted on 2016-06-06 15:53  better_me  阅读(1690)  评论(0编辑  收藏  举报