互联网络

【Hadoop离线基础总结】网站流量日志数据分析系统

目录点击流数据模型概述点击流模型网站流量分析网站流量模型分析网站流量来源网站流量多维度细分网站内容及导航分析网站转化及漏斗分析流量常见分析角度和指标分类指标概述指标分类分析角度流量日志分析网站整体架构模块步骤模块开发之数据采集模块开发之数据预处理点击流模型PageViews表点击流模型visit信息表点击流数据模型概述...

【Hadoop离线基础总结】hive的窗口函数

概述hive中一般求取TopN时就需要用到窗口函数专业窗口函数一般有三个rank()overdenserank()overrow_number()over实例创建一个f_test表拿到以下数据+------------+--------------+-------------+--+|f_test.id|f_test....

【Hadoop离线基础总结】Sqoop常用命令及参数

目录常用命令常用公用参数公用参数:数据库连接公用参数:import公用参数:export公用参数:hive常用命令&参数从关系表导入——import导出到关系表——exportcodegencreate-hive-tablejobmerge配合【Hadoop离线基础总结】Sqoop数据迁移一起阅读更佳常用命令常...

【Hadoop离线基础总结】Sqoop数据迁移

目录Sqoop介绍概述版本Sqoop安装及使用Sqoop安装Sqoop数据导入导入关系表到Hive已有表中导入关系表到Hive(自动创建Hive表)将关系表子集导入到HDFS中sql语句查找导入到HDFS两种增量导入方式Sqoop的数据导出Sqoop介绍概述Sqoop是Apache开源提供过的一款Hadoop和关系数据...

【Hadoop离线基础总结】工作流调度器azkaban

目录Azkaban概述工作流调度系统的作用工作流调度系统的实现常见工作流调度工具对比Azkaban简单介绍安装部署Azkaban的编译azkaban单服务模式安装与使用azkaban两个服务模式安装与使用使用多job工作流flowHDFS操作任务MAPREDUCE任务HIVE脚本任务定时任务Azkaban概述工作流调度...

【Hadoop离线基础总结】日志采集框架Flume

Flume介绍概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。它可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到的数据sink(下沉)到HDFS、hbase、hive、kafka等众多外部存储系统中,因此,flume可以适用于大部分的日常数据采集场景...

【Hadoop离线基础总结】Hive调优手段

最常用的调优手段Fetch抓取MapJoin分区裁剪列裁剪控制map个数以及reduce个数JVM重用数据压缩Fetch的抓取出现原因Hive中对某些情况的查询不必使用MapReduce计算。在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。(原则就是能不用MapRe...

【Hadoop离线基础总结】Hive的基本操作

创建数据库与创建数据库表创建数据库的相关操作创建数据库:CREATETABLEIFNOTEXISTSmyhivehive创建表成功后的存放位置由hive-site.xml配置文件中的一个属性指定<name>hive.metastore.warehouse.dir</name><value&...

【Hadoop离线基础总结】Hive的安装部署以及使用方式

安装部署Derby版hive直接使用cd/export/softwares将上传的hive软件包解压:tar-zxvfhive-1.1.0-cdh5.14.0.tar.gz-C../servers/cd/export/servers/hive-1.1.0-cdh5.14.0/启动:bin/hive缺点:多个地方安装hi...

【Hadoop离线基础总结】数据仓库和hive的基本概念

数据仓库概述数据仓库英文全称为DataWarehouse,一般简称为DW。主要目的是构建面向分析的集成化数据环境,主要职责是对仓库中的数据进行分析,支持我们做决策。主要特征面向主题(Subject-Oriented):数据分析有一定的范围,需要选取一定的主题进行分析。集成性(Integrated):集成各个其他方面关联...

【Hadoop离线基础总结】Yarn集群的资源调度

介绍概述Yarn是Hadoop2.x引入的新的资源管理系统模块,主要用于管理集群当中的资源(主要是服务器的各种硬件资源,比如内存、CPU等),它不光管理硬件资源,还管理运行的一些任务信息等。Yarn调度资源可以分为两个层级一级管理调度:管理计算机的资源、运行job任务的生命周期二级管理调度:任务的计算模型(maptas...

【Hadoop离线基础总结】HDFS的API操作

创建maven工程并导入jar包注意由于cdh版本的所有的软件涉及版权的问题,所以并没有将所有的jar包托管到maven仓库当中去,而是托管在了CDH自己的服务器上面,所以我们默认去maven的仓库下载不到,需要自己手动的添加repository去CDH仓库进行下载。要用CDH的jar包,要先添加一个repositor...

【Hadoop离线基础总结】HDFS详细介绍

分布式文件系统设计思路概述只有一台机器时的文件查找:hello.txt/export/servers/hello.txt如果有多台机器时的文件查找:hello.txtnode02/export/servers/hello.txt  为了解决数据丢失的问题,引入副本机制,保证数据不会丢失  如果对文件进行切块存储,那么元...

【Hadoop离线基础总结】HDFS入门介绍

概述HDFS全称为HadoopDistributeFileSystem,也就是Hadoop分布式文件系统,是Hadoop的核心组件之一。分布式文件系统是横跨在多台计算机上的存储系统,主要解决的就是大数据存储的问题特性master/slave架构HDFS集群一般是由一个NameNode和一定数目的DataNode组成。N...

【Hadoop离线基础总结】完全分布式环境搭建

服务规划适用于工作当中正式环境搭建安装步骤第一步:安装包解压停止之前的Hadoop集群的所有服务,并删除所有机器的Hadoop安装包,然后重新解压Hadoop压缩包三台机器都执行rm-rf/export/servers/hadoop-2.7.5/在第一台机器解压压缩包cd/export/softwarestar-zxv...