<samp id="tgzrj"><video id="tgzrj"><nav id="tgzrj"></nav></video></samp>

<samp id="tgzrj"></samp>

<legend id="tgzrj"><font id="tgzrj"><tr id="tgzrj"></tr></font></legend>

您現在的位置：首頁 >
資訊 >
正文

天天關注：解密HDFS如何判斷磁盤存儲大小，存儲動態負載均衡的？

來源：滌生大數據時間：2023-04-26 14:29:51

1. HDFS對底層的磁盤存儲如何選擇的？

一個HDFS集群，會有很多個datanode節點，每個datanode節點會掛載很多塊磁盤。HDFS在存儲數據時如何動態負載均衡最優化地往每個datanode,每個磁盤上存儲數據呢？

其實沒啥，DataNode在運行過程中，為了計算DN的capacity使用量，實現數據存儲的動態均衡，DN會對已配置的數據存儲路徑（dfs.datanode.data.dir）進行du -sk操作，以此獲得capacity使用量匯報給NN中，然后NN就知道哪些DN有空間能被寫數據進去，哪些是空間不足的。

為了保證數據使用量的近實時性，目前DN是以默認10分鐘的間隔時間執行一次。假設按照一個DN節點12個數據目錄對應12塊盤的情況，就會有12個du操作在每個10分鐘內都會執行一次。在datanode存儲的數據使用率比較高的時候，會十分消耗性能。直接引發阻塞io，系統load直線增高。

(資料圖片)

這種問題在大規模的集群中是很常見的，下面是針對線上（hadoop2.6版本的）簡易零時的優化手段。說明：此問題僅存在于低于hadoop2.8版本，高于此版本已經修復。

https://issues.apache.org/jira/browse/HADOOP-9884

如果碰到這種情況，升級不了集群版本，那么我們還有其他奇技淫巧嗎？

2.通過修改HDFS代碼實現優化先回顧一下du,df的使用

du原理簡述：

du命令全程disk usage，它的統計原理在于將目標路徑下的當前沒有被刪除的文件進行大小累加，然后得出總使用量。這種計算方式在文件數量少時往往不會表現出什么問題。但是當目標路徑目錄多，文件多的時候，du會表現出明顯的時間執行耗時。

df 原理簡述：

df命令統計值通過文件系統獲取的。df命令的弊端是它不能按照具體目錄進行使用量的統計。df是按照所在磁盤級別進行統計的。換句話說，用df命令在屬于同一塊物理盤的子路徑下執行df命令，獲取的值會是完全一致的。比較遺憾，這種情況將無法支持DataNode多block pool共用一塊盤的情況。

處理方式：使用 df 命令替換 du

捕獲到datanode執行過程中調用的 du -sk 命令，替換為df -k 。

實現腳本如下：

##將原始的 du指令更換名稱

mv /usr/bin/du /usr/bin/du_bak

vim /usr/bin/du

#!/bin/shif [[ $2 == */current/BP-* ]] && [ $1 == -sk ]then    used=`df -k $2 | grep -vE "Used" | awk "{print $3}"`    echo -e "$used\t$2"else    echo -e "$(du_bak $@)"fi

chmod +x /usr/bin/du

3.批量部署的執行環境

跳板機（10.90.72.195）已經部署好ansible環境，配置主機名，執行ansible-playbook腳本即可。

執行路徑：/home/tool/updata_datanodes_du需要修改的配置文件：/home/tool/updata_datanodes_du/datanodes執行腳本：./run.sh

updata_du.yml

---- hosts: all_datanodesremote_user: rootgather_facts: F # 跳過gather_facts環節serial: 70 #開啟的并發數tasks:- name: "檢查主機du是否已經被部署過"stat:path: "/usr/bin/du_bak"register: file_stat- name: "同步du腳本文件到目標主機"copy: # 使用復制模塊，進行文件分發，從本地主機分發到遠程主機src: "{{ item.src }}" # 源文件，變量定義多個源文件dest: "/tmp/" # 文件復制到目標主機的目錄owner: rootgroup: rootmode: 0777with_items: # 本地源文件列表- { src: "/home/tool/updata_datanodes_du/scp_files/du" }when: not file_stat.stat.exists- name: "檢查du文件是否同步成功"stat:path: "/tmp/du"register: tmp_du_stat- name: "備份du文件"command: mv /usr/bin/du /usr/bin/du_bakwhen: tmp_du_stat.stat.exists- name: "更新為新的du腳本文件"command: mv /tmp/du /usr/bin/duwhen: tmp_du_stat.stat.exists

標簽：

責任編輯：FD31

上一篇：一年之計在于春一日之計在于晨寸金難買寸光陰的意思_一年之計在于春后幾句的意思

下一篇：每日消息!計算機中所有的信息都是以二進制形式存放的為什么_計算機中的所有信息都是以二進制方式表示的主要理由是

精彩圖集(熱圖)

熱點圖集

最近更新

天天看點：浙江中醫藥大學2023年研究生調劑復試邀請已發送（4月7日）

點擊詳細
浙江中醫藥大學2023年碩士生導師名單-熱資訊

點擊詳細
2021高考分數線體育類 2021年體育大學錄取分數線

點擊詳細
格力電器遇「開門黑」：3年來首次逼近跌停，白電三巨頭差距在哪？

點擊詳細
賽力斯4月售出新能源汽車6917輛同比下滑近兩成

點擊詳細
劉詩詩將出席戛納紅毯并參與Women in Motion晚宴

點擊詳細
蘇有朋透露新電影動向：下半年開機希望演反派

點擊詳細
當前資訊!個別游客仍有不文明行為

點擊詳細
我市召開招商引資專題會_每日簡訊

點擊詳細
有房產證沒有土地證的房子可以買嗎？

點擊詳細
焦點速看：國機汽車5月5日快速上漲

點擊詳細
環球實時：5月5日國資云概念板塊跌幅達2%

點擊詳細
董明珠 1150 萬股股份遭凍結，市值約 4 億元|世界速看

點擊詳細
iKON 加入新公司后時隔一年發專輯開啟第二篇章

點擊詳細
十幾萬，就能買到“卡宴同款”的進口德系 SUV？

點擊詳細
長城 Hi4 智能電混四驅系統有多省油？我們在上班高峰期的上海外環跑了一圈全球信息

點擊詳細
河北新增一所航空類高職院校今年秋季開始招生

點擊詳細
世界信息:青少年成HPV感染高峰人群，宮頸癌該如何預防？

點擊詳細
新力東園_關于新力東園簡介-熱門

點擊詳細
受領延遲的法律后果_世界時快訊

點擊詳細
欠錢不還可以拿東西抵押嗎-環球熱文

點擊詳細
2023年中考數學復習：坐標方法的簡單應用

點擊詳細
今年“五一”假期山西高速公路累計通行量693.44萬輛次_天天微頭條

點擊詳細
環球今亮點！特斯拉首次搭載比亞迪電池

點擊詳細
【環球快播報】國足昔日的5位頭球能力一流的高中鋒

點擊詳細
CBA季后賽半決賽進入G5的決斗更加激烈|環球熱點評

點擊詳細
西南財經大學考研分數線_西南財大錄取分數線

點擊詳細
成都限號2021最新限號時間到晚上幾點_成都限號2021最新限號時間|世界快報

點擊詳細
滾動：明治維新時間順序_明治維新時間

點擊詳細
2013河南高考語文卷子_2013河南高考語文

點擊詳細

熱詞榜

編輯推薦

精彩圖集

專題策劃

美團“取關”支付寶外賣付款方式要變了？

信用中國

信用信息
行政許可和行政處罰
網站文章

瀏覽排行

久爱免费观看在线精品_亚洲综合一区二区三区_最新国产国模无码视频在线_中文字幕无码精品亚洲资源网久久

<samp id="tgzrj"><video id="tgzrj"><nav id="tgzrj"></nav></video></samp>

<samp id="tgzrj"></samp>

<legend id="tgzrj"><font id="tgzrj"><tr id="tgzrj"></tr></font></legend>