开发

Linux_10个需要了解的Linux网络和监控命令(转)

源文地址:http://www.linuxde.net/2013/10/15325.html1.hostnamehostname没有选项,显示主机名字hostname–d显示机器所属域名hostname–f显示完整的主机名和域名hostname–i显示当前机器的ip地址2.pingping将数据包发向用户指定地址。当包...

异常处理_Maven之web项目java.lang.LinkageError

浏览器运行项目异常如下:HTTPStatus500-typeExceptionreportmessagedescriptionTheserverencounteredaninternalerror()thatpreventeditfromfulfillingthisrequest.exceptionjava.lang....

Hadoop.2.x_常用端口及定义方法(转)

组件 节点默认端口配置用途说明HDFSDataNode50010dfs.datanode.addressdatanode服务端口,用于数据传输HDFSDataNode50075dfs.datanode.http.addresshttp服务的端口HDFSDataNode50475dfs.datanode.htt...

Hive_配置远程Metastore

注:待测试一、准备两三台linux机器,最好是hadoop集群环境 机器A:10.0.0.2 机器B:10.0.0.3 机器C:10.0.0.4二、个机器安装信息机器A安装mysql(用于存储元数据信息)与Hive(用于开启hiveserver)机器B可是作为mysql的主备机器C作为hiveclient有hive客户...
代码星球·2020-12-07

异常处理_Maven多模块web项目整合ssm+dubbo

异常如下:[ERROR][org.springframework.web.context.ContextLoader.initWebApplicationContext(ContextLoader.java:215)]-Contextinitializationfailedorg.springframework.bea...

Hadoop_常用存储与压缩格式

HDFS文件格式file_format:  TEXTFILE   默认格式  RCFILE     hive0.6.0和以后的版本  ORC      hive0.11.0和以后的版本  PARQUET    hive0.13.0和以后的版本,该数据格式企业中最常用  AVRO      hive0.14.0和以后的版...

Oozie_初识

Oozie任务调度框架(基于工作流)oozie运行于hadoop集群,对hive,mr,flume,Soop,spark,shell等框架进行任务流调度如:job1-->job2&job3-->job4&job5...其中,job1用于采集数据,job2与job3用于数据清洗,job4,jo...
代码星球·2020-12-07

Oozie_示例

Oozie官方示例解压oozie-examples.tar.gz  将examples/上传到HDFS家目录    $bin/hdfsdfs-put/opt/cdh-5.6.3/oozie-4.0.0-cdh5.3.6/examplesexamples  试运行自带的wordcount示例examples/apps/m...
代码星球·2020-12-07

Flume_企业中日志处理

企业中的日志存放_1201611/20161112.log.tmp  第二天文件变为20161112.log与20161113.log.tmp拷贝一份flume-conf.properties.template改名为dir-mem-hdfs.properties实现监控某一目录,如有新文件产生则上传至hdfs,另外过滤...
代码星球·2020-12-07

Flume_使用

案例一:source:hive.logchannel:memory sink:logger输出拷贝一份flume-conf.properties.template改名为hive-mem-log.propertieshive-mem-log.properties  a1.sources=s1  a1.chann...
代码星球·2020-12-07

Flume_常见的几个问题

在HDFS的文件默认生成文件大小1K,如何设置文件大小和数量拷贝一份flume-conf.properties.template改名为hive-mem-size.propertieshive-mem-size.properties  a1.sources=s1  a1.channels=c1  a1.sinks=k1 ...
代码星球·2020-12-07

Flume_初识

企业架构数据源webserverRDBMS数据的采集shell、flume、sqoopjob监控和调度hue、oozie数据清洗及分析mapreduce、hive数据保存sqoop 概念:三大功能collecting(收集),aggregating(聚合),moving(传输)Flume是一个分布式的,可靠的...
代码星球·2020-12-07

日志分析_对一号店日志分析

一、需求分析二、分析指标PVUV登录人数游客人数平均访问时长二跳率PV:有多少用户访问了页面(一次访问记做一次记录)UV:有多少用户访问了页面(不管访问多少页面)登录人数:会员人数游客人数:非会员人数平均时长:每个用户开始访问时间到离开时间平均值二跳率:用户点击页面次数大于等于2三、实现a.HIVE创建数据库creat...
代码星球·2020-12-07

Hadoop_UDAF示例

UDAF:多进一出GenericUDAFEvaluator:就是根据job的不同阶段执行不同的方法Hive通过GenericUDAFEvaluator.Modle来确定job的执行阶段PARTIAL1:从原始数据到部分聚合,调用方法iterate和terminatePartial方法PARTIAL2:从部分数据聚合到部...
代码星球·2020-12-07

Hadoop_UDTF示例

UDTF:一进多出UDTF(User-DefinedTable-GeneratingFunction)支持一个输入多个输出,一般用于解析工作,比如说解析url,然后获取url中的信息编码:继承GenericUDTF,实现方法:initializa(返回返回值的参数类型)、process具体的处理方法,  一般在这个方法...
代码星球·2020-12-07