hadoop主题的文章列表，还有hadoop的技术要点_第1页

hadoop中combiner是什么

Combiner（合并器）在Hadoop中，Combiner（合并器）是一个可选的阶段，用于优化MapReduce任务的性能。它是在Map阶段输出之后、规约（reduction）之前执行的。Combiner的作用是在Map任务的本地节点上对Map阶段的输出进行局部聚合。它接收Map任务输出的键值对，并将具有相同键的键值...

开发笔记·2024-01-23

hadoop启动报错处理

util.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable主要是依赖包版本过低的问题。首先要定位问题，出现该问题的原因主要是hadoop native下面...

代码星球·2023-05-06

hadoop 函数包放在哪个文件里

src/examples/org/apache/hadoop/examples/WordCount.javahadoop-xxxx-examples.jar中也有。具体顺序可能稍有不一致，但反正有examples的文件夹你都可以去看看。搜索WordCount.java也应该能出来...

开发笔记·2022-12-20

在Windows上安装Hadoop 2.7.1

操作的根目录为D:hadoop 解压Hadoop2.7.1和hadooponwindows-master，然后复制hadoopwindows-master下的文件到Hadoop-2.7.1下，如有冲突选择覆盖。修改conf/hadoop/core-sit.xml文件<configuratio...

开发笔记·2022-10-18

hadoop fs,hadoop dfs及hdfs dfs区别

命令使用范围hadoopfs使用范围最广，可以操作任何文件系统。如：local,HDFS、LocalFS,HFTPFS,S3FS等hadoopdfs只HDFS文件系统相关hdfsdfs只HDFS文件系统相关（包括与LocalFS间的操作），已经Deprecated。hdfsfs只HDFS文件系统相关，最为常用。...

开发笔记·2022-01-12

阿里巴巴飞天大数据架构体系与Hadoop生态系统

很多人问阿里的飞天大数据平台、云梯2、MaxCompute、实时计算到底是什么，和自建Hadoop平台有什么区别。先说HadoopHadoop是一个开源、高可靠、可扩展的分布式大数据计算框架系统，主要用来解决海量数据的存储、分析、分布式资源调度等。Hadoop最大的优点就是能够提供并行计算，充分利用集群的威力进行高速运...

代码星球·2021-02-24

【Hadoop基础】hadoop fs 命令

1，hadoopfs–fs[local|<filesystemURI>]：声明hadoop使用的文件系统，如果不声明的话，使用当前配置文件配置的，按如下顺序查找：hadoopjar里的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-default.xml-&g...

代码星球·2021-02-23

hadoop fs –stat 命令

当向HDFS上写文件时，可以通过设置dfs.blocksize配置项来设置文件的blocksize，这导致HDFS上不同文件的blocksize是不同的。有时候我们需要知道HDFS上某个文件的blocksize，比如想知道该该文件作为job的输入会创建几个map等。HadoopFSShell提供了一个-stat选项可以...

代码星球·2021-02-22

hadoop中的JournalNode

1.在HADOOP扮演的角色JournalNode是在MR2也就是Yarn中新加的,journalNode的作用是存放EditLog的,在MR1中editlog是和fsimage存放在一起的然后SecondNamenode做定期合并,Yarn在这上面就不用SecondNamanode了. &nbs...

代码星球·2021-02-22

HADOOP HA 报错

报错：经过查看集群的jps如下：====================hadoop01jps===================2561FsShell1971ResourceManager2452NameNode2606Jps====================hadoop0...

代码星球·2021-02-22

hadoop的增删改查

1...

代码星球·2021-02-22

Hadoop的MR

1...

代码星球·2021-02-22

hadoop序列化

1.序列化所谓的序列化，就是将结构化对象转化为字节流，以便在网络上传输或是写道磁盘进行永久存储。反序列化，就是将字节流转化为结构化对象。序列化在分布式数据处理的两大领域经常出现：进程间通信和永久存储。...

代码星球·2021-02-22

spark为什么比hadoop的mr要快？

1.前言Spark是基于内存的计算，而Hadoop是基于磁盘的计算；Spark是一种内存计算技术。但是事实上，不光Spark是内存计算，Hadoop其实也是内存计算。Spark和Hadoop的根本差异是多个任务之间的数据通信问题：Spark多个任务之间数据通信是基于内存，而Hadoop是基于磁盘。SparkSQL比Ha...

代码星球·2021-02-20

hadoop namenode切换

hdfs haadmin -transitionToActive --forcemanual nn1将nn1强制转换为Activehdfshaadmin-transitionToStandby--forcemanualnn2将nn2强制转换为standby...

代码星球·2021-02-20