hdfs主题的文章列表，还有hdfs的技术要点_第3页

HDFS基本命令行操作及上传文件的简单API

一、HDFS基本命令行操作：1.HDFS集群修改SecondaryNameNode位置到hd09-2（1）修改hdfs-site.xml<configuration>//配置元数据存储位置<property><name>dfs.namenode.name.dir</name&g...

代码星球·2020-12-18

HDFS分布式集群安装

HDFS集群安装：1.准备工作虚拟机(电脑8G内存磁盘500GB)3台linux系统（1台namenode2台datanode）（1）关闭防火墙firewall-cmd--state查看防火墙状态systemctlstopfirewalld.service关闭防火墙systemctldisablefirewalld.s...

代码星球·2020-12-18

HDFS集群启动start-dfs.sh报错

[root@mastersbin]#start-dfs.shStartingnamenodeson[master]master:Error:JAVA_HOMEisnotsetandcouldnotbefound.Theauthenticityofhost'localhost(::1)'can'tbeestablishe...

代码星球·2020-12-18

HDFS集群安装

DFS集群安装：1.准备工作（1）虚拟机(电脑8G磁盘500GB)（2）3台linux系统（1台namenode2台datanode）2.安装HDFS(软件)（1）关闭防火墙firewall-cmd--state查看防火墙状态systemctlstopfirewalld.service关闭防火墙systemctldis...

代码星球·2020-12-18

sqoop导出数据|Hive|HDFS和脚本编写

在Sqoop中，“导出”概念指：从大数据集群（HDFS，HIVE，HBASE）向非大数据集群（RDBMS）中传输数据，叫做：导出，即使用export关键字。HIVE/HDFS到RDBMS$bin/sqoopexport--connectjdbc:mysql://hadoop102:3306/company--usern...

代码星球·2020-12-15

Layui_Tree模块遍历HDFS

注：转载请署名一、实体packagecom.ebd.application.common.Base;importjava.util.List;publicclassHDFSDir{privateStringid;//自定idprivateStringpid;//父IDprivateStringname;//当前目录名称...

代码星球·2020-12-07

Sqoop_mysql,hive,hdfs导入导出操作

前言:搭建环境,这里使用cdh版hadoop+hive+sqoop+mysql下载hadoop-2.5.0-cdh5.3.6.tar.gz　　hive-0.13.1-cdh5.3.6.tar.gz　　sqoop-1.4.5-cdh5.3.6.tar.gz配置Hadoop　　*.env(3个)--jdk_Path　　co...

代码星球·2020-12-07

Hadoop_HDFS HA 及解决方案

1.HDFS系统架构HDFS(HadoopDistributedFileSystem),及Hadoop分布式文件系统作用:为Hadoop分布式计算框架提供高性能,高可靠,高可扩展的存储服务架构：典型的主(NameNode)从(DataNode)架构,两者一对多的关系,一个节点对应一个DataNode,NameNode是...

代码星球·2020-12-07

Spark启动报错|java.io.FileNotFoundException: File does not exist: hdfs://hadoop101:9000/directory

atorg.apache.spark.deploy.history.FsHistoryProvider.<init>(FsHistoryProvider.scala:156)atorg.apache.spark.deploy.history.FsHistoryProvider.<init>(Fs...

代码星球·2020-11-27

HDFS在web端无法访问文件

解决办法1：[root@djt002hadoop]#vi/etc/selinux/config　　改为 SELINUX=disabled解决办法2：　　查看你的$HADOOP_HOME/etc/hadoop下的core-site.xml和hdfs-site.xml是否配置好解决办法3：　　必须在hadoop-...

代码星球·2020-11-27

awk算术运算一例：统计hdfs上某段时间内的文件大小

计算hdfs指定目录中所有文件名中包含2011-04-24的文件大小，并换算成GB： $HADOOP_HOME/bin/hadoop fs -du/user/hdfs/s3/ifocus/*2011-04-24* |awk '{sum +=&nbs...

代码星球·2020-10-21

Docker 安装Hadoop HDFS命令行操作

网上拉取Docker模板，使用singlarities/hadoop镜像[root@localhost/]#dockerpullsingularities/hadoop查看：[root@localhost/]#dockerimagelsREPOSITORYTAGIMAGEIDCREATEDSIZEdocker.io/s...

代码星球·2020-10-21

hdfs关键流程分析

数据块大小理论上，磁盘传输速率越快，则块应该越大。因为磁盘传输速率变快，则传输时间变短，而传输时间和块的寻址时间要满足一个固定的比率，则应维持原来的传输时间，只有把块加大。数据块过小：则寻址时间超出了传输的时间，不够经济；数据块过大：则传输时间太长，程序的io时间耗费过多。问题：128M是指所有的数据块长度...

代码星球·2020-10-20

HDFS Sink使用技巧

1、文件滚动策略在HDFSSink的文件滚动就是文件生成，即关闭当前文件，创建新文件。它的滚动策略由以下几个属性控制：hdfs.rollInterval基于时间间隔来进行文件滚动，默认是30，即每隔30秒滚动一个文件。0就是不使用这个策略。hdfs.rollSize基于文件大小进行文件滚动，默认是1024，即当文件大于...

代码星球·2020-09-20

hadoop入门到实战（18）优化技巧汇总_通用优化+Linux 优化+HDFS 优化+MapReduce 优化+HBase 优化+内存优化+JVM 优化+Zookeeper 优化

1.1、NameNode的元数据备份使用SSD1.2、定时备份NameNode上的元数据建议每小时或者每天备份，如果数据极其重要，可以5~10分钟备份一次。备份可以通过定时任务复制元数据目录即可。1.3、为NameNode指定多个元数据目录使用dfs.name.dir或者...

代码星球·2020-09-05