通過該指令可以來限定某個hdfs目錄的大小:
hadoop dfsadmin -setSpaceQuota 3000 /group/d_sdo_data/user/liuxiaowen
但設定之後,put一個2000多位元組的檔案時候報錯:
Java代碼
![](https://img.laitimes.com/img/_0nNw4CM6IyYiwiM6ICdiwiIn5GcuIXY0N3Xu92Yp9CXzV2Zh1WavwVbvNmLllXZ0lmL0MjMxcHesJXZwV3cvw1LcpDc0RHaiojIsJye.png)
- 12/05/14 15:41:24 WARN hdfs.DFSClient: DataStreamer Exception: org.apache.hadoop.hdfs.protocol.DSQuotaExceededException: org.apache.hadoop.hdfs.protocol.DSQuotaExceededException: The DiskSpace quota of /group/d_sdo_data/user/liuxiaowen is exceeded: quota=3000 diskspace consumed=384.0m
- at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
- at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:39)
- at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:27)
- at java.lang.reflect.Constructor.newInstance(Constructor.java:513)
- at org.apache.hadoop.ipc.RemoteException.instantiateException(RemoteException.java:95)
- at org.apache.hadoop.ipc.RemoteException.unwrapRemoteException(RemoteException.java:57)
- at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.locateFollowingBlock(DFSClient.java:3190)
- at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.nextBlockOutputStream(DFSClient.java:3055)
- at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.access$1900(DFSClient.java:2305)
- at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream$DataStreamer.run(DFSClient.java:2500)
- Caused by: org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.protocol.DSQuotaExceededException: The DiskSpace quota of /group/d_sdo_data/user/liuxiaowen is exceeded: quota=3000 diskspace consumed=384.0m
- at org.apache.hadoop.hdfs.server.namenode.INodeDirectoryWithQuota.verifyQuota(INodeDirectoryWithQuota.java:149)
- at org.apache.hadoop.hdfs.server.namenode.FSDirectory.verifyQuota(FSDirectory.java:1041)
- at org.apache.hadoop.hdfs.server.namenode.FSDirectory.updateCount(FSDirectory.java:859)
- at org.apache.hadoop.hdfs.server.namenode.FSDirectory.addBlock(FSDirectory.java:277)
- at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.allocateBlock(FSNamesystem.java:1698)
- at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getAdditionalBlock(FSNamesystem.java:1543)
- at org.apache.hadoop.hdfs.server.namenode.NameNode.addBlock(NameNode.java:665)
- at sun.reflect.GeneratedMethodAccessor20.invoke(Unknown Source)
- at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
- at java.lang.reflect.Method.invoke(Method.java:597)
- at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:557)
- at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1434)
- at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1430)
- at java.security.AccessController.doPrivileged(Native Method)
- at javax.security.auth.Subject.doAs(Subject.java:396)
- at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1157)
- at org.apache.hadoop.ipc.Server$Handler.run(Server.java:1428)
- at org.apache.hadoop.ipc.Client.call(Client.java:1104)
- at org.apache.hadoop.ipc.RPC$Invoker.invoke(RPC.java:226)
- at $Proxy5.addBlock(Unknown Source)
- at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
- at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)
- at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
- at java.lang.reflect.Method.invoke(Method.java:597)
- at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:82)
- at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:59)
- at $Proxy5.addBlock(Unknown Source)
- at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.locateFollowingBlock(DFSClient.java:3185)
- ... 3 more
後來發現原因:
這裡統計空間的時候會将備份數也考慮在裡面,因為叢集設定了備份數為3,是以hadoop dfsadmin -setSpaceQuota也要講備份數考慮進去,即 hadoop dfsadmin -setSpaceQuota 9000 /group/d_sdo_data/user/liuxiaowen
另外,這個動作會覆寫上一次的設定;
清除指令: hadoop dfsadmin -clrSpaceQuota /group/d_sdo_data/user/liuxiaowen
檢視目錄限額: hadoop fs -count -q /group/d_sdo_data/user/liuxiaowen
none inf 9000 8088 6 1 304 hdfs://nn.dc.sh-wgq.sdo.com/group/d_sdo_data/user/liuxiaowen
依次表示為:檔案數限額 可用檔案數 空間限額 可用空間 目錄數 檔案數 總大小 檔案/目錄名
=========================================================================================================
在多人共用HDFS的環境下,配置設定非常重要。特别是在Hadoop處理大量資料的環境,如果沒有配額管理,很容易把所有的空間用完造成别人無法存取。Hdfs的配額設定是針對目标而不是針對賬号,所有在管理上最好讓每個賬号僅操作某一個目錄,然後對目錄設定配置。
設定方法有兩種:
-
- Name Quotas:設定某一個目錄下檔案總數
- Space Quotas:設定某一個目錄下可使用空間大小
預設情況下Hdfs沒有任何配置限制,可以使用 hadoop fs -count 來檢視配置情況
hadoop fs -count -q /user/seamon
以下是結果,none和inf表示沒有設定配額
QUOTA REMAINING_QUOTA SPACE_QUOTA REMAINING_SPACE_QUOTA DIR_COUNT FILE_COUNT CONTENT_SIZE FILE_NAME
none inf none inf 6 15
1. Name Quotas
計算公式:QUOTA – (DIR_COUNT + FILE_COUNT) = REMAINING_QUOTA
這裡的 10000 是指 DIR_COUNT + FILE_COUNT = 10000,最大值為 Long.Max_Value
啟用設定:hadoop dfsadmin -setQuota 10000 /user/seamon
清除設定: hadoop dfsadmin -clrQuota /user/seamon
2. Space Quotas
計算公式:SPACE_QUOTA – CONTENT_SIZE = REMAINING_SPACE_QUOTA
可以使用 m, g, t 代表 MB, GB, TB
啟用設定: hadoop dfsadmin -setSpaceQuota 1g /user/seamon/
清除設定: hadoop dfsadmin -clrSpaceQuota /user/seamon
這裡需要特别注意的是“Space Quota”的設定所看的不是Hdfs的檔案大小,而是寫入Hdfs所有block塊的大小,假設一個檔案被切分為2個blocks,在core-site.xml裡面設定 dfs.block.size=64MB,dfs.replication=3,那麼該檔案所需要的存儲空間為:2 * 64M * 3 = 384MB
如果一個小檔案(例如,1k大小的檔案)被上傳到hdfs,該檔案并不能占滿一整個blok,但是按照hdfs配置規則也需要按照一個blok計算,即存儲空間為:1 x 64MB x 3 = 192MB
3. 其它事項
hdfs的配額管理是跟着目錄走,如果目錄被重命名,配額依然有效。
麻煩的是,在設定完配額以後,如果超過限制,雖然檔案不會寫入到hdfs,但是檔案名依然會存在,隻是檔案size為0。當加大配額設定後,還需要将之前的空檔案删除才能進一步寫入。
如果新設定的quota值,小于該目錄現有的Name Quotas 及 Space Quotas,系統并不會給出錯誤提示,但是該目錄的配置會變成最新設定的quota