1、發現報錯
首先通過運維大屏,點運作失敗進去周期執行個體中檢視失敗任務,然後進行篩選條件,隻檢視同步節點。

2、檢視日志
檢視每一個任務的運作日志。
錯誤原因有的是分區不存在,不存在的是因為治理那邊也是有好多任務是失敗的。
其次大部分的都是資料傳輸為0,然後分析的是因為人社的一張4億多條的表占用資源,影響其它的任務了,然後檢視人社AC43這張4億的同步任務,發現在執行15分鐘的時候就已經出錯了,出錯原因也是一直傳輸為0。
報錯資訊:Code:[OdpsWriter-09], Description:[寫入資料到 ODPS 目的表失敗.]. - ODPS 目的表寫 block:0 失敗, uploadId=[20191230013903e208180a0112b57b]. 請聯系 ODPS 管理者處理. - java.io.IOException: RequestId=20191230014736e208180a0112bc10, ErrorCode=InternalServerError, ErrorMessage=Storage quota not enough.
3、重跑任務
A、重跑成功:說明在同一時間點運作壓力太大,分析硬體資源後,分段運作。
B、重跑失敗:進入第四步。
4、開發環境驗證
A、在開發環境手動執行,看是否存在同樣的錯誤,定位是程式問題、空間問題還是産品問題引起的。
5、定位錯誤
錯誤原因是空間不夠,接下來在資料地圖中檢視占用空間情況:
然後看空間申請的存儲空間:
明顯是空間不夠了。
6、解決辦法
A、申請存儲空間資源(空間大小由項目規劃分析)。
B、釋放表空間(清理測試資料、垃圾資料、曆史資料)。