Ganglia监控HDFS和HBase指标说明

    xiaoxiao2025-11-28  7

    HDFS相关

    datanode相关

    参数解释dfs.datanode.blockChecksumOp_avg_time块校验平均时间dfs.datanode.blockChecksumOp_num_ops块检验次数dfs.datanode.blockReports_avg_time块报告平均时间dfs.datanode.blockReports_num_ops块报告次数dfs.datanode.block_verification_failures块验证失败次数dfs.datanode.blocks_read从硬盘读块总次数dfs.datanode.blocks_removed删除块数目dfs.datanode.blocks_replicated块复制总次数dfs.datanode.blocks_verified块验证总次数dfs.datanode.blocks_written向硬盘写块总次数dfs.datanode.bytes_read读出总字节包含crc验证文件字节数dfs.datanode.bytes_written写入总字节数(在写入每个packet时计数)dfs.datanode.copyBlockOp_avg_time复制块平均时间dfs.datanode.copyBlockOp_num_ops复制块次数dfs.datanode.heartBeats_avg_time向namenode汇报平均时间dfs.datanode.heartBeats_num_ops向namenode汇报总次数dfs.datanode.readBlockOp_avg_time读块平均时间(单位ms)dfs.datanode.readBlockOp_num_ops读块总次数dfs.datanode.reads_from_local_client从本地读入块次数dfs.datanode.reads_from_remote_client从远程读入块次数dfs.datanode.replaceBlockOp_avg_time替换块平均时间(负载均衡策略)dfs.datanode.replaceBlockOp_num_ops替换块次数(负载均衡策略)dfs.datanode.volumeFailuresnotfounddfs.datanode.writeBlockOp_avg_time写块平均时间dfs.datanode.writeBlockOp_num_ops写块总次数一般和dfs.datanode.blocks_writtendfs.datanode.writes_from_local_client写本地次数dfs.datanode.writes_from_remote_client写远程次数

    JVM相关

    参数解释jvm.metrics.gcCountgc总次数jvm.metrics.gcTimeMillisgc总耗时(ms)jvm.metrics.logErrojvm Error次数jvm.metrics.logFataljvm出现fatal次数jvm.metrics.logInfojvm 出现Info的次数jvm.metrics.logWarnjvm出现warn的次数jvm.metrics.maxMemoryMjvm试图使用最大内存(M),如果没有限制返回Long.MAX_VALUEjvm.metrics.memHeapCommittedMjvm提交堆内存大小jvm.metrics.memHeapUsedMjvm使用堆内存大小jvm.metrics.memNonHeapCommittedMjvm非堆内存已提交大小jvm.metrics.memNonHeapUsedMjvm非堆内存已使用大小jvm.metrics.threadsBlocked正在阻塞等待监视器锁的线程数目jvm.metrics.threadsNew尚未启动的线程数目jvm.metrics.threadsRunnable正在执行状态的线程数目jvm.metrics.threadsTerminated已退出线程数目jvm.metrics.threadsTimedWaiting等待另一个线程执行取决于指定等待时间的操作的线程数目jvm.metrics.threadsWaiting无限期地等待另一个线程来执行某一特定操作的线程数目

    RPC相关

    参数解释rpc.metrics.NumOpenConnectionsnumber of open connections rpc连接打开的数目rpc.metrics.ReceivedBytesnumber of bytes received rpc收到的字节数rpc.metrics.RpcProcessingTime_avg_timeAverage time for RPC Operations in last interval rpc在最近的交互中平均操作时间rpc.metrics.RpcProcessingTime_num_opsrpc在最近的交互中连接数目rpc.metrics.RpcQueueTime_avg_timerpc在交互中平均等待时间rpc.metrics.RpcQueueTime_num_opsrpc queue中完成的rpc操作数目rpc.metrics.SentBytesnumber of bytes sent rpc发送的数据字节rpc.metrics.callQueueLenlength of the rpc queue rpc 队列长度rpc.metrics.rpcAuthenticationFailuresnumber of failed authentications rpc 验证失败次数rpc.metrics.rpcAuthenticationSuccessesnumber of successful authentications 验证成功数rpc.metrics.rpcAuthorizationFailuresnumber of failed authorizations 授权失败次数rpc.metrics.rpcAuthorizationSuccessesnumber of successful authorizations 成功次数

    MapReduce相关

    参数解释mapred.shuffleInput.shuffle_failed_fetches从map输出中取数据过程中获取失败次数mapred.shuffleInput.shuffle_fetchers_busy_percent在获取map输出过程中并行获取线程忙碌占总并行获取线程百分比mapred.shuffleInput.shuffle_input_bytesshuffle过程中读入数据字节mapred.shuffleInput.shuffle_success_fetches从map输出中取数据过程中获取成功次数mapred.shuffleOutput.shuffle_failed_outputs向reduce发送map输出失败次数mapred.shuffleOutput.shuffle_handler_busy_percent向reduce发送map输出中server线程忙碌占总工作线程(在tasktracker.http.threads中配置)百分比。mapred.shuffleOutput.shuffle_output_bytesshuffle过程中输出数据字节mapred.shuffleOutput.shuffle_success_outputs向reduce成功mapred.tasktracker.mapTaskSlots设置map槽数mapred.tasktracker.maps_running正在运行的map数mapred.tasktracker.reduceTaskSlots设置reduce槽数mapred.tasktracker.reduces_running正在运行的reduce数mapred.tasktracker.tasks_completed完成任务数mapred.tasktracker.tasks_failed_ping因tasktracker与task交互失败导致的失败的task数目mapred.tasktracker.tasks_failed_timeout因task未在mapred.task.timeout配置的(默认10分钟)时间内汇报进度而超时kill的task数目

    rpc detailed 相关

    参数解释rpc.detailed-metrics.canCommit_avg_timerpc询问是否提交任务平均时间rpc.detailed-metrics.canCommit_num_opsrpc询问是否提交任务次数rpc.detailed-metrics.commitPending_avg_timerpc报告任务提交完成,但是该提交仍然处于pending状态的平均时间rpc.detailed-metrics.commitPending_num_opsrpc报告任务提交完成,但是该提交仍然处于pending状态的次数rpc.detailed-metrics.done_avg_timerpc报告任务成功完成的平均时间rpc.detailed-metrics.done_num_opsrpc报告任务成功完成的次数rpc.detailed-metrics.fatalError_avg_timerpc报告任务出现fatalerror的平均时间rpc.detailed-metrics.fatalError_num_opsrpc报告任务出现fatalerror的次数rpc.detailed-metrics.getBlockInfo_avg_time从指定datanode获取block的平均时间rpc.detailed-metrics.getBlockInfo_num_ops从指定datanode获取block的次数rpc.detailed-metrics.getMapCompletionEvents_avg_timereduce获取已经完成的map输出地址事件的平均时间rpc.detailed-metrics.getMapCompletionEvents_num_opsreduce获取已经完成的map输出地址事件的次数rpc.detailed-metrics.getProtocolVersion_avg_time获取rpc协议版本信息的平均时间rpc.detailed-metrics.getProtocolVersion_num_ops获取rpc协议版本信息的次数rpc.detailed-metrics.getTask_avg_time当子进程启动后,获取jvmtask的平均时间rpc.detailed-metrics.getTask_num_ops当子进程启动后,获取jvmtask的次数rpc.detailed-metrics.ping_avg_time子进程周期性的检测父进程是否还存活的平均时间rpc.detailed-metrics.ping_num_ops子进程周期性的检测父进程是否还存活的次数rpc.detailed-metrics.recoverBlock_avg_time为指定的block开始恢复标记生成的平均时间rpc.detailed-metrics.recoverBlock_num_ops为指定的block开始恢复标记生成的次数rpc.detailed-metrics.reportDiagnosticInfo_avg_time向父进程报告任务错误消息的平均时间,该操作应尽可能少,这些消息会在jobtracker中保存rpc.detailed-metrics.reportDiagnosticInfo_num_ops向父进程报告任务错误消息的次数rpc.detailed-metrics.startBlockRecovery_avg_time开始恢复block的平均时间rpc.detailed-metrics.startBlockRecovery_num_ops开始恢复block的次数rpc.detailed-metrics.statusUpdate_avg_time汇报子进程进度给父进程的平均时间rpc.detailed-metrics.statusUpdate_num_ops汇报子进程进度给父进程的次数rpc.detailed-metrics.updateBlock_avg_time更新block到新的标记及长度的平均操作时间rpc.detailed-metrics.updateBlock_num_ops更新block到新的标记及长度的次数

    HBase相关

    参数解释hbase.regionserver.blockCacheCount内存中缓存块(block cache)数。缓存中StoreFiles(HFiles)的块(block)数量。hbase.regionserver.blockCacheEvictedCount因超出堆大小限制,从缓存中释放的块数量。hbase.regionserver.blockCacheFree可用的缓存块容量。hbase.regionserver.blockCacheHitCachingRatio缓存块的缓存命中率(0-100)。读取的缓存命中率被配置为查看缓存(如cacheblocks=true)。hbase.regionserver.blockCacheHitCountStoreFiles(HFiles)从缓存中读取的块数量。hbase.regionserver.blockCacheHitRatio缓存块的命中率(0-100).包括所有读请求,尽管cacheBlocks=false的读出会被计为cache丢失。hbase.regionserver.blockCacheMissCount被StoreFiles (HFiles)请求但是未从缓存中读出的块数量。hbase.regionserver.blockCacheSize内存中块缓存的容量,特指被blockcache占用的内存容量。hbase.regionserver.compactionQueueSizeCompaction队列大小,用于compaction的RegionServer中的Store个数。hbase.regionserver.flushQueueSizeMemStore中等待flush操作的排队region数量。hbase.regionserver.fsReadLatency_avg_time文件系统延迟(ms)。从HDFS读操作的平均时间。hbase.regionserver.memstoreSizeMB当前RegionServer中所有Memstore的总容量(MB)。hbase.regionserver.requests总 的读和写请求次数。请求相当于RegionServer的RPC调用,因此一个Get相当于一次请求,但是哪怕Scan的caching值设置为 1000,对SCAN每个“下一次”调用仅相当于一次请求,(例如,非每行)。对于大数据块的请求,每个 HFile对应一次请求。hbase.regionserver.storefileIndexSizeMBRegionServer中 StoreFile文件索引大小的总和(MB)。
    转载请注明原文地址: https://ju.6miu.com/read-1304502.html
    最新回复(0)