oracle job不運作,定位問題
一. job的運作頻率設定
1.每天固定時間運作,比如早上8:10分鐘:Trunc(Sysdate+1) + (8*60+10)/24*60
2.Toad中提供的:
每天:trunc(sysdate+1)
每周:trunc(sysdate+7)
每月:trunc(sysdate+30)
每個星期日:next_day(trunc(sysdate),'SUNDAY')
每天6點:trunc(sysdate+1)+6/24
半個小時:sysdate+30/1440
3.每個小時的第15分鐘運作,比如:8:15,9:15,10:15...:trunc(sysdate,'hh')+75/1440。原先我設定的是trunc(sysdate,'hh')+15/1440,發現居然不行。
二. JOB為什麼不運作?
1.先來了解一下JOB的參數說明:與job相關的參數一個是job_queue_processes,這個是運作JOB時候所起的程序數,當然系統裡面JOB大于這個數值後,就會有排隊等候的,最小值是0,表示不運作JOB,最大值是36,在OS上對應的程序時SNPn,9i以後OS上管理JOB的程序叫CJQn。可以使用下面這個SQL确定目前有幾個SNP/CJQ在運作。
select * from v$bgprocess,這個paddr不為空的snp/cjq程序就是目前空閑的程序,有的表示正在工作的程序。
另外一個是job_queue_interval,範圍在1--3600之間,機關是秒,這個是喚醒JOB的process,因為每次snp運作完他就休息了,需要定期喚醒他,這個值不能太小,太小會影響資料庫的性能。
2.診斷:先确定上面這兩個參數設定是否正确,特别是第一個參數,設定為0了,所有JOB就不會跑,确認無誤後,我們繼續向下。
3.使用下面的SQL察看JOB的的broken,last_date和next_date,last_date是指最近一次job運作成功的結束時間,next_date是根據設定的頻率計算的下次執行時間,根據這個資訊就可以判斷JOB上次是否正常,還可以判斷下次的時間對不對,SQL如下:
select * from dba_jobs
有時候我們發現他的next_date是4000年1月1日,說明job要不就是在running,要不就是狀态是break(broken=Y),如果發現JOB的broken值為Y,找使用者了解一下,确定該JOB是否可以broken,如果不能broken,那就把broken值修改成N,修改再使用上面的SQL察看就發現他的last_date已經變了,JOB即可正常運作,修改broken狀态的SQL如下:
declare
BEGIN
DBMS_JOB.BROKEN(<JOB_ID>,FALSE);
END;
4.使用下面的SQL查詢是否JOB還在Running
select * from dba_jobs_running
如果發現JOB已經Run了很久了還沒有結束,就要查原因了。一般的JOB running時會鎖定相關的相關的資源,可以檢視一下v$access和v$locked_object這兩個view,如果發現其他程序鎖定了與JOB相關的Object,包括PKG/Function/Procedure/Table等資源,那麼就要把其他程序删除,有必要的話,把JOB的程序也删除,再重新跑看看結果。
5.如果上面都正常,但是JOB還不run,怎麼辦?那我們要考慮把JOB程序重新開機一次,防止是SNP程序死了造成JOB不跑,指令如下:
alter system set job_queue_processes=0 --關閉job程序,等待5--10秒鐘
alter system set job_quene_processes=5 --恢複原來的值
6.Oracle的BUG
Oracle9i裡面有一個BUG,當計數器到497天時,剛好達到它的最大值,再計數就會變成-1,繼續計數就變成0了,然後計數器将不再跑了。如果碰到這種情況就得重新開機資料庫,我們這邊有一個生産型的資料庫版本是9205,就發生過這樣一次問題,後來和使用者約時間重新開機後就沒問題了。但是其他的Oracle7345和Oracle8i的資料庫沒有發現這個問題。
7.資料庫上的檢查基本上就這多,如果JOB運作還有問題,那需要配合使用者察看一下是否是程式本身的問題,比如處理的資料量大,或者網絡速度慢等造成運作時過長,那就需要具體情況具體分析了。我們可以通過下面的SQL手工執行一下JOB看看:
declare
begin
dbms_job.run(<job>_ID)
end;
如果發現JOB執行不正常,就要結合程式具體分析一下。