摘要: 前言这篇文章主要是用sqoop从mysql导入数据到hive时遇到的坑的总结。环境:系统:Centos 6.5Hadoop:Apache,2.7.3Mysql:5.1.73JDK:1.8Sqoop:1.4.7Hadoop以伪分布式模式运行。一、使用的导入命令a56爆大奖在线娱乐主要是参考一篇文章去测试的,Sqoop: Import Data From MySQL to Hive。参照里面的方法,在mysql建了表,... 阅读全文
posted @ 2018-05-18 17:19 大师兄啊哈 阅读(15210) 评论(0) 推荐(0) 编辑
摘要: 一、sqoop简介 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数 阅读全文
posted @ 2018-05-18 16:40 大师兄啊哈 阅读(1792) 评论(0) 推荐(0) 编辑
摘要: 前言 最近用爬虫爬豆瓣上的资料,无奈总是被封,agent伪装和cookie修改这些都用过了,可惜都起不了什么作用,到了一定次数,还是会返回403。想用代理ip,无奈免费的太不稳定,买收费的又有点没必要。今天在查资料的时候,读到一篇谈ADSL拨号代理的文章,刚好a56爆大奖在线娱乐又是用这种方式上网,于是想到了一个对付 阅读全文
posted @ 2018-05-17 00:26 大师兄啊哈 阅读(10527) 评论(0) 推荐(1) 编辑
摘要: 前言 最近想爬点东西,2.7比较稳定,但是因为在linux机器上用yum安装的默认是2.6.6版本的,a56爆大奖在线娱乐需要升级到2.7。 一、安装过程 1. 先安装相应的依赖 如果没安装好这些依赖的,后面还要重新走编译流程,别问a56爆大奖在线娱乐为什么知道 。 2. 下载软件包 3. 解压安装包 4. 安装 在检测脚本中加上e 阅读全文
posted @ 2018-05-11 14:07 大师兄啊哈 阅读(11599) 评论(7) 推荐(2) 编辑
摘要: 一、描述 在书中第二章,有一个例子,构建完之后,运行: 如果用的spark版本与书中用到的不一样的话,就会出现各种问题,譬如书中用的是1.2.0而a56爆大奖在线娱乐用的是最新的2.3.0。 二、问题及解决 1. 第一次编译的时候,出现类似下面的报错: 首先是解决版本依赖的问题: (1)获得spark-core的版本 阅读全文
posted @ 2018-05-04 17:37 大师兄啊哈 阅读(1032) 评论(0) 推荐(1) 编辑
摘要: 原文链接:/harrymore/p/8985058.html 一、问题描述 早上在学习《Spark快速大数据分析》的时候,需要下载书本的实例代码,于是用git clone一下给出的库: https://github.com/databricks/lear 阅读全文
posted @ 2018-05-03 14:07 大师兄啊哈 阅读(49138) 评论(0) 推荐(0) 编辑
摘要: 一、文件系统 1. 概念 所谓文件系统,是操作系统用于明确磁盘或分区上的文件的方法和数据结构;即在磁盘上组织文件的方法。也指用于存储文件的磁盘或分区,或文件系统种类。 2. Local File System 这里的本地文件系统指的是操作系统层面的文件系统,譬如Linux支持的文件系统,ext3,e 阅读全文
posted @ 2018-04-28 17:05 大师兄啊哈 阅读(1087) 评论(0) 推荐(1) 编辑
摘要: 一、简述HiveQL是a56爆大奖在线娱乐声明式语言,用户提交查询,而Hive会将其转换成MapReduce job,如下图。一般来说大部分时间可以无视这个执行过程的内部逻辑,但是如果能了解这些底层实现细节,在调优的时候就会更得心应手。二、过程将HiveQL转化为MapReduce任务,整个编译过程主要分为六个阶段:Antlr定义SQL的语法规则,完成SQL词法,语法解析,将SQL转化为抽象语法树AST;遍历AS... 阅读全文
posted @ 2018-04-26 10:58 大师兄啊哈 阅读(4342) 评论(0) 推荐(1) 编辑
摘要: 一、前言 昨天在写bat脚本的时候,发现在for里面的set命令竟然不起作用!于是搜了一下,前面的几篇都有说到这个是变量扩展的问题,但是什么是变量扩展?为什么会出现这种问题,什么又是延迟环境变量扩展?则说得不明不白。那些文章里给的解决方案,试过了一下甚至无法起作用。可怕的是那篇文章其他人还复制了。 阅读全文
posted @ 2018-04-24 16:42 大师兄啊哈 阅读(919) 评论(0) 推荐(0) 编辑
摘要: 假如在hive的配置文件hive-site.xml中,属性hive.metastore.warehouse.dir被设置为/root/hive/warehouse。 如果Hadoop是本地模式,则仓库路径是file:///root/hive/warehouse; 其他模式则是hdfs://namen 阅读全文
posted @ 2018-04-21 10:08 大师兄啊哈 阅读(5614) 评论(0) 推荐(0) 编辑