天天看點

hadoop dfsadmin -setSpaceQuota 設定目錄配額的問題

通過該指令可以來限定某個hdfs目錄的大小:

hadoop dfsadmin -setSpaceQuota 3000 /group/d_sdo_data/user/liuxiaowen

但設定之後,put一個2000多位元組的檔案時候報錯:

Java代碼  

hadoop dfsadmin -setSpaceQuota 設定目錄配額的問題
  1. 12/05/14 15:41:24 WARN hdfs.DFSClient: DataStreamer Exception: org.apache.hadoop.hdfs.protocol.DSQuotaExceededException: org.apache.hadoop.hdfs.protocol.DSQuotaExceededException: The DiskSpace quota of /group/d_sdo_data/user/liuxiaowen is exceeded: quota=3000 diskspace consumed=384.0m  
  2.         at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)  
  3.         at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:39)  
  4.         at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:27)  
  5.         at java.lang.reflect.Constructor.newInstance(Constructor.java:513)  
  6.         at org.apache.hadoop.ipc.RemoteException.instantiateException(RemoteException.java:95)  
  7.         at org.apache.hadoop.ipc.RemoteException.unwrapRemoteException(RemoteException.java:57)  
  8.         at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.locateFollowingBlock(DFSClient.java:3190)  
  9.         at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.nextBlockOutputStream(DFSClient.java:3055)  
  10.         at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.access$1900(DFSClient.java:2305)  
  11.         at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream$DataStreamer.run(DFSClient.java:2500)  
  12. Caused by: org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.protocol.DSQuotaExceededException: The DiskSpace quota of /group/d_sdo_data/user/liuxiaowen is exceeded: quota=3000 diskspace consumed=384.0m  
  13.         at org.apache.hadoop.hdfs.server.namenode.INodeDirectoryWithQuota.verifyQuota(INodeDirectoryWithQuota.java:149)  
  14.         at org.apache.hadoop.hdfs.server.namenode.FSDirectory.verifyQuota(FSDirectory.java:1041)  
  15.         at org.apache.hadoop.hdfs.server.namenode.FSDirectory.updateCount(FSDirectory.java:859)  
  16.         at org.apache.hadoop.hdfs.server.namenode.FSDirectory.addBlock(FSDirectory.java:277)  
  17.         at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.allocateBlock(FSNamesystem.java:1698)  
  18.         at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getAdditionalBlock(FSNamesystem.java:1543)  
  19.         at org.apache.hadoop.hdfs.server.namenode.NameNode.addBlock(NameNode.java:665)  
  20.         at sun.reflect.GeneratedMethodAccessor20.invoke(Unknown Source)  
  21.         at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)  
  22.         at java.lang.reflect.Method.invoke(Method.java:597)  
  23.         at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:557)  
  24.         at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1434)  
  25.         at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1430)  
  26.         at java.security.AccessController.doPrivileged(Native Method)  
  27.         at javax.security.auth.Subject.doAs(Subject.java:396)  
  28.         at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1157)  
  29.         at org.apache.hadoop.ipc.Server$Handler.run(Server.java:1428)  
  30.         at org.apache.hadoop.ipc.Client.call(Client.java:1104)  
  31.         at org.apache.hadoop.ipc.RPC$Invoker.invoke(RPC.java:226)  
  32.         at $Proxy5.addBlock(Unknown Source)  
  33.         at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)  
  34.         at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)  
  35.         at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)  
  36.         at java.lang.reflect.Method.invoke(Method.java:597)  
  37.         at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:82)  
  38.         at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:59)  
  39.         at $Proxy5.addBlock(Unknown Source)  
  40.         at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.locateFollowingBlock(DFSClient.java:3185)  
  41.         ... 3 more  

後來發現原因:

 這裡統計空間的時候會将備份數也考慮在裡面,因為叢集設定了備份數為3,是以hadoop dfsadmin -setSpaceQuota也要講備份數考慮進去,即 hadoop dfsadmin -setSpaceQuota 9000 /group/d_sdo_data/user/liuxiaowen

另外,這個動作會覆寫上一次的設定;

清除指令: hadoop dfsadmin -clrSpaceQuota /group/d_sdo_data/user/liuxiaowen

檢視目錄限額: hadoop fs -count -q /group/d_sdo_data/user/liuxiaowen

none             inf            9000            8088            6            1                304 hdfs://nn.dc.sh-wgq.sdo.com/group/d_sdo_data/user/liuxiaowen

依次表示為:檔案數限額  可用檔案數  空間限額 可用空間 目錄數  檔案數  總大小 檔案/目錄名

=========================================================================================================

在多人共用HDFS的環境下,配置設定非常重要。特别是在Hadoop處理大量資料的環境,如果沒有配額管理,很容易把所有的空間用完造成别人無法存取。Hdfs的配額設定是針對目标而不是針對賬号,所有在管理上最好讓每個賬号僅操作某一個目錄,然後對目錄設定配置。

        設定方法有兩種:

    • Name Quotas:設定某一個目錄下檔案總數
    • Space Quotas:設定某一個目錄下可使用空間大小

        預設情況下Hdfs沒有任何配置限制,可以使用  hadoop fs -count 來檢視配置情況

               hadoop fs -count -q /user/seamon

        以下是結果,none和inf表示沒有設定配額

QUOTA   REMAINING_QUOTA   SPACE_QUOTA    REMAINING_SPACE_QUOTA     DIR_COUNT FILE_COUNT   CONTENT_SIZE FILE_NAME

none       inf                                none                     inf                                             6                                        15

1. Name Quotas

       計算公式:QUOTA – (DIR_COUNT + FILE_COUNT) = REMAINING_QUOTA

       這裡的 10000 是指 DIR_COUNT + FILE_COUNT = 10000,最大值為 Long.Max_Value       

       啟用設定:hadoop dfsadmin -setQuota 10000 /user/seamon

       清除設定: hadoop dfsadmin -clrQuota /user/seamon

2. Space Quotas

       計算公式:SPACE_QUOTA – CONTENT_SIZE = REMAINING_SPACE_QUOTA

       可以使用 m, g, t 代表 MB, GB, TB

       啟用設定: hadoop dfsadmin -setSpaceQuota 1g /user/seamon/

       清除設定: hadoop dfsadmin -clrSpaceQuota /user/seamon

       這裡需要特别注意的是“Space Quota”的設定所看的不是Hdfs的檔案大小,而是寫入Hdfs所有block塊的大小,假設一個檔案被切分為2個blocks,在core-site.xml裡面設定 dfs.block.size=64MB,dfs.replication=3,那麼該檔案所需要的存儲空間為:2 * 64M * 3 =  384MB

       如果一個小檔案(例如,1k大小的檔案)被上傳到hdfs,該檔案并不能占滿一整個blok,但是按照hdfs配置規則也需要按照一個blok計算,即存儲空間為:1 x 64MB x 3 = 192MB

3. 其它事項

       hdfs的配額管理是跟着目錄走,如果目錄被重命名,配額依然有效。

       麻煩的是,在設定完配額以後,如果超過限制,雖然檔案不會寫入到hdfs,但是檔案名依然會存在,隻是檔案size為0。當加大配額設定後,還需要将之前的空檔案删除才能進一步寫入。

       如果新設定的quota值,小于該目錄現有的Name Quotas 及 Space Quotas,系統并不會給出錯誤提示,但是該目錄的配置會變成最新設定的quota

繼續閱讀