51dev.com IT技术开发者社区

51dev.com 技术开发者社区

Flume_初识

Flume_初识

企业架构数据源webserverRDBMS数据的采集shell、flume、sqoopjob监控和调度hue、oozie数据清洗及分析mapreduce、hive数据保存sqoop 概念:三大功能collecting(收集),aggregating(聚合),moving(传输)Flume是...

日志分析_对一号店日志分析

日志分析_对一号店日志分析

一、需求分析二、分析指标PVUV登录人数游客人数平均访问时长二跳率PV:有多少用户访问了页面(一次访问记做一次记录)UV:有多少用户访问了页面(不管访问多少页面)登录人数:会员人数游客人数:非会员人数平均时长:每个用户开始访问时间到离开时间平均值二跳率:用户点击页面次数大于等于2三、实现a.HIVE...

Hadoop_UDAF示例

Hadoop_UDAF示例

UDAF:多进一出GenericUDAFEvaluator:就是根据job的不同阶段执行不同的方法Hive通过GenericUDAFEvaluator.Modle来确定job的执行阶段PARTIAL1:从原始数据到部分聚合,调用方法iterate和terminatePartial方法PARTIAL2...

Hadoop_UDTF示例

Hadoop_UDTF示例

UDTF:一进多出UDTF(User-DefinedTable-GeneratingFunction)支持一个输入多个输出,一般用于解析工作,比如说解析url,然后获取url中的信息编码:继承GenericUDTF,实现方法:initializa(返回返回值的参数类型)、process具体的处理方法...

Hadoop_UDF示例

Hadoop_UDF示例

UDF: 一进一出Eclipse端1.继承UDF2.实现evaluate方法(可重裁实现多个evaluate方法,以实现不同需求)3.导出类jar包,注意指定main方法Hive端1.将jar包添加到Hive:addjarlinux_path#0.14版才开始支持2.创建临时函数:crea...

Hive_数据倾斜处理

Hive_数据倾斜处理

Hive中三种joinmapjoin(小表join大表,将小表加入到内存)设置mapjoin:hive.auto.convert.join=truehive.mapjoin.smalltable.filesize=2500000;PS:如果有一张表是小表便自动执行mapjoin,根绝表大小是否超过2...

Hadoop openssl false

Hadoop openssl false

错误如图检查Hadoopnative经过:1.重新编译cdh的hadoop2.5.0,复制native2.重新格式化namenode都不行,另外openssl和openssl-dev都已安装像-mkdir,-ls都可以但导入数据还是这个错我再次重新解压cdh版hadoop源码包并编译,将native...

Hive_进阶

Hive_进阶

回顾:hive优点1.类sql语句靠近关系型数据库,可自定义函数,增加了扩展性,易于开发,减少mapreduce学习成本2.hive转换sql语句为mapreduce程序以mapreduce为底层实现3.hive基于hadoop的hdfs,在hdfs上存储,因为hdfs的扩展性,hive的存储扩展性...

Failed to execute goal org.apache.maven.plugins:maven-antrun-plugin:1.7:run (dist) on project hadoop-kms: An Ant BuildException has occured

Failed to execute goal org.apache.maven.plugins:maven-antrun-plugin:1.7:run (dist) on project hadoop-kms: An Ant BuildException has occured

 编译cdh版hadoop2.5.0出现的问题系统:CentOs6664位JDK:1.7Maven:3.0.5Protobuf: libprotoc2.5.0编译命令: mvnpackage-DskipTests-Pdist,native****************...

Sqoop_mysql,hive,hdfs导入导出操作

Sqoop_mysql,hive,hdfs导入导出操作

前言:搭建环境,这里使用cdh版hadoop+hive+sqoop+mysql下载hadoop-2.5.0-cdh5.3.6.tar.gz  hive-0.13.1-cdh5.3.6.tar.gz  sqoop-1.4.5-cdh5.3.6.tar.gz配置Hadoop  *.env(3个)--jd...

日志分析_统计每日各时段的的PV,UV

日志分析_统计每日各时段的的PV,UV

第一步:需求分析需要哪些字段(时间:每一天,各个时段,id,url,guid,tracTime)需要分区为天/时PV(统计记录数)UV(guid去重)第二步:实施步骤建Hive表,表列分隔符和文件保持一至Load数据到Hive表中写HiveSql进行统计,将结果放入Hive另一张表中(数据清洗)从H...

Sqoop_ 从 hive 导到mysql常遇九问题总结(转)

Sqoop_ 从 hive 导到mysql常遇九问题总结(转)

以前以为版本不同,遇到的问题就不同,后来发现,无论是新版本,还是老版本,遇到的问题大部分都是相同的。下面解决问题的方法仅供借鉴1.拒绝连接的错误表现是什么?2.表不存在该如何解决?3.null字段填充符该如何指定?环境hive版本hive-0.11.0sqoop版本sqoop-1.4.4.bin__...

Sqoop_ 简单介绍

Sqoop_ 简单介绍

一、基本作用概念:Sqoop被称为协作框架,是在Hadoop.2.X生态系统的辅助型框架,简单说,就是一个数据转换工具,类似的协作框架有文件收集库框架Flume,任务协调框架Oozie,大数据Web工具Hue过程:数据源(RDBMS)取得数据<--->数据清洗/数据分析<---&g...

Linux_MySql_yum_安装

Linux_MySql_yum_安装

1、卸载原始mysql-libsudorpm-e--nodepsmysql-libs-xx2、yum安装mysql-serversudoyum-yinstallmysql-serverps:注意联网状态,和yum源/etc/yum.repos.d/xxx更新软件sudoyumupdatexxx3、配...

MySql_设置编码

MySql_设置编码

1、查看mysql编码(默认latin1)showvariableslike'collation_%';+--------------------------+----------------------------+|Variable_name|Value|+-------------------...