hadoop面试题

    xiaoxiao2021-03-25  75

    1.简要描述如何安装配置一个apache开源版hadoop,描述即可,列出步骤更好 2.请列出正常工作的hadoop集群中hadoop都需要启动哪些进程,他们的作用分别是什么? 3.启动hadoop报如下错误,该如何解决? error  org.apache.hadoop.hdfs.server.namenode.NameNode org.apache.hadoop.hdfs.server.common.inconsistentFSStateExceptio n Directory /tmp/hadoop-root/dfs/name is in an inconsistent state storage direction does not exist or is not accessible? 4.请写出以下执行命令 1)杀死一个job? 2)删除hdfs上的/tmp/aaa目录 3加入一个新的存储节点和删除一个计算节点需要刷新集群状态命令? 5.请列出你所知道的hadoop调度器,并简要说明其工作方法? 6.请列出在你以前工作中所使用过的开发mapreduce的语言? 7.当前日志采样格式为 a,b,c,d b,b,f,e a,a,c,f 复制代码 请用你最熟悉的语言编写一个mapreduce,并计算第四列每个元素出现的个数 8.你认为用Java,Streaming,pipe方式开发mapreduce,各有哪些优缺点? 9.hive有哪些方式保存元数据,各有哪些特点? 10.请简述hadoop怎么样实现二级排序? 11.简述hadoop实现join的几种方法? 12.请用Java实现非递归二分查找? 13.请简述mapreduce中,combiner,partition作用? 14.某个目录下有两个文件a.txt和b.txt,文件格式为(ip,username), 列如: a.txt 127.0.0.1 zhangsan 127.0.0.1 wangxiaoer 127.0.0.2 lisi 127.0.0.3 wangwu b.txt 127.0.0.4 lixiaolu 127.0.0.1 lisi 每个文件至少100万行,请使用Linux命令完成如下工作: 1)每个文件各自的ip数 2)出现在b.txt而没有出现在a.txt的ip 3)每个user出现的次数以及每个user对应的ip数
    转载请注明原文地址: https://ju.6miu.com/read-18380.html

    最新回复(0)