标签:Hadoop

云计算

Hadoop中文件操作

hadoop文件的序列化Hadoop中序列化机制在每个类对象第一次出现时候保持了每个类的信息,如类名,第二次出现时候会有一个类的reference,导致空间浪费。 Java序列化不能复用对象,Java反序列化时候每次需要构造出新对象。在Hadoop序列化机制中,反序列化的对象...

waitig 2年前 (2017-11-22) 647℃ 0评论 0

云计算

Hadoop的磁盘写入策略引发的问题

DataNode挂载的磁盘或者DataNode节点挂载多个磁盘,如果存在一些磁盘大小不一样,数据在落盘时就可能会出现磁盘使用率不均匀的情况,容量较小的盘容易被写满,而容量大的盘还剩很多空间。磁盘写满后,影响Hadoop集群的正常工作。国庆第一天,线上集群就报出了JournalNo...

waitig 2年前 (2017-10-14) 1030℃ 0评论 0