10.2 CRS:
$ ps -ef|grep crs/bin
root 4373 3605 0 Feb25 ? 00:02:49 /u01/app/crs/bin/crsd.bin reboot
oracle 4380 4379 0 Feb25 ? 00:00:03 /u01/app/crs/bin/evmd.bin
oracle 4925 4888 0 Feb25 ? 00:00:00 /u01/app/crs/bin/oclsomon.bin
root 4928 4483 0 Feb25 ? 00:00:00 /u01/app/crs/bin/oprocd.bin run -t 1000 -m 10000 -
hsi 5:10:50:75:90 -f
oracle 5065 4512 0 Feb25 ? 00:00:54 /u01/app/crs/bin/ocssd.bin
oracle 6825 4380 0 Feb25 ? 00:00:00 /u01/app/crs/bin/evmlogger.bin -o
11.2 GI:
$ ps -ef|grep grid/bin
root 6656 1 0 Feb25 ? 00:09:20 /u01/app/11.2.0/grid/bin/ohasd.bin reboot
grid 7960 1 0 Feb25 ? 00:16:54 /u01/app/11.2.0/grid/bin/oraagent.bin
grid 7972 1 0 Feb25 ? 00:00:05 /u01/app/11.2.0/grid/bin/mdnsd.bin
grid 7982 1 0 Feb25 ? 00:03:45 /u01/app/11.2.0/grid/bin/gpnpd.bin
grid 7993 1 0 Feb25 ? 00:14:19 /u01/app/11.2.0/grid/bin/gipcd.bin
root 7995 1 1 Feb25 ? 00:41:42 /u01/app/11.2.0/grid/bin/orarootagent.bin
root 8010 1 0 Feb25 ? 00:28:03 /u01/app/11.2.0/grid/bin/osysmond.bin
root 8026 1 0 Feb25 ? 00:01:31 /u01/app/11.2.0/grid/bin/cssdmonitor
root 8040 1 0 Feb25 ? 00:02:22 /u01/app/11.2.0/grid/bin/cssdagent
grid 8057 1 1 Feb25 ? 00:48:04 /u01/app/11.2.0/grid/bin/ocssd.bin
root 8136 1 0 Feb25 ? 00:02:49 /u01/app/11.2.0/grid/bin/octssd.bin reboot
grid 8158 1 0 Feb25 ? 00:02:24 /u01/app/11.2.0/grid/bin/evmd.bin
root 8278 1 0 Feb25 ? 00:04:18 /u01/app/11.2.0/grid/bin/crsd.bin reboot
grid 8357 8158 0 Feb25 ? 00:00:00 /u01/app/11.2.0/grid/bin/evmlogger.bin -o
/u01/app/11.2.0/grid/evm/log/evmlogger.info -l /u01/app/11.2.0/grid/evm/log/evmlogger.log
grid 8406 1 0 Feb25 ? 00:11:22 /u01/app/11.2.0/grid/bin/oraagent.bin
root 8414 1 1 Feb25 ? 00:36:22 /u01/app/11.2.0/grid/bin/orarootagent.bin
我們對這些常見的叢集程序做一些解釋:
各個版本共有的:
如果節點發生了主機自動重新開機,需要檢視ocssd的日志,位于: <CRS_HOME>/log/<host>/cssd。
可以參考下面的文檔來了解節點重新開機:
<a href="https://blogs.oracle.com/Database4CN/entry/%E5%A6%82%E4%BD%95%E8%AF%8A%E6%96%AD%E8%8A%82%E7%82%B9%E9%87%8D%E5%90%AF%E9%97%AE%E9%A2%98" target="_blank">如何診斷節點重新開機問題</a>
<a href="https://blogs.oracle.com/Database4CN/entry/11gr2_%E5%A6%82%E4%BD%95%E8%AF%8A%E6%96%AD%E8%8A%82%E7%82%B9%E9%87%8D%E5%90%AF%E9%97%AE%E9%A2%98" target="_blank">11gR2 如何診斷節點重新開機問題</a>
2. crsd.bin: 這個程序主要用于管理叢集中的資源。用來啟動、停止檢查一些資源,比如資料庫執行個體、ASM、監聽、磁盤組、VIP等。在11.2,這些具體的操作由對應的agent執行。另外,OCR的維護也是由CRSD完成的。
當發現某些資源異常終止後,首先需要檢視crsd的日志:<CRS_HOME>/log/<host>/crsd。
3. evmd.bin: 事件監控(event monitor)程序,由它來釋出叢集事件,比如執行個體啟動、停止等事件。
4. ons程序:Oracle Notification Service daemon,它用于接收evmd發來的叢集事件,然後将這些事件發送給應用預訂者或者本地的監聽,這樣就可以實作FAN(Fast Application Notification),應用能夠接收到這些事件并進行處理。
5. gsd: 隻有當CRS或者GI上需要管理9i的資料庫時才需要。在11.2, gsd 預設就是offline的。
可以參考My Oracle Support 文檔: GSD Is Used Only if 9i RAC Database is Present (Doc ID 429966.1)
10g和 11.1特有的:
oprocd的日志會在:/etc/oracle/oprocd/*.log.* 或者 /var/opt/oracle/oprocd/*.log.*。
2. oclsomon.bin: 用來監控ocssd程序是否hang,如果發現hang,會發起reboot.
11.2特有的:
1. cssdagent(11.2): 這個程序由ohasd啟動,然後由它來啟動、停止、檢查ocssd程序,以root身份運作。
它的日志位于:<GRID_HOME>/log/<host>/agent/ohasd/oracssdagent_root
2. cssdmonitor(11.2):監控cssdagent,并且檢查節點hang(類似于oprocd),監控ocssd程序是否hang(類似于oclsomon),監控vendor clusterware(類似于vmon),以root身份運作。
它的日志位于:<GRID_HOME>/log/<host>/agent/ohasd/oracssdmonitor_root
3. ohasd.bin: 在GI啟動時,最先啟動的就是ohasd,然後由它啟動agent(orarootagent,oraagent, cssdagnet 和 cssdmonitor) ,各個agent再啟動對應的程序。
如果GI啟動過程有問題,可以檢視一下ohasd的日志:<GRID_HOME>/log/<host>/agent/ohasd
4. mdnsd.bin:這個程序通過多點傳播(Multicast)發現叢集中的節點和所有的網卡資訊。一定要确定叢集中的網卡支援多點傳播,而且節點間的通信正常。
它的日志位于:<GRID_HOME>/log/<host>/mdnsd
5. gpnpd.bin: 釋出建構叢集所需要的bootstrap 資訊,并且在叢集的所有節點之間同步gpnp profile。
它的日志位于:<GRID_HOME>/log/<host>/gpnpd
6. gipcd.bin: 這個程序負責管理叢集中所有的私網(cluster interconnect)網卡。私網資訊是通過gpnpd獲得的。
它的日志位于:<GRID_HOME>/log/<host>/gipcd
7. gnsd(可選): Grid Naming Service. 相當于子DNS,功能和DNS類似,會取代使用/etc/hosts進行主機的解析。
它的日志位于:<GRID_HOME>/log/<host>/gnsd
8. octssd.bin: The Cluster Time Sync Service(CTSS) 用于各個節點間的時鐘同步,叢集中的一個節點的時鐘會作為參照節點,其它節點和這個節點進行時鐘同步。注意:當第三方時間同步軟體(例如:NTP) 存在時,CTSS會以‘觀察者’的方式運作,并不修改節點時間,但是,如果CTSS沒有發現第三方時間同步軟體,它會開始修改節點時間以便和參考節點同步。
它的日志位于:<GRID_HOME>/log/<host>/ctssd.
9. osysmond.bin :這是Oracle Cluster Health Monitor(CHM)的主要程序,這個程序在所有節點都會運作,sysmond會将每個節點的資源使用情況發送給cluster logger service,後者将會把所有節點的資訊都接收并儲存到CHM的資料庫。
它的日志位于:<GRID_HOME>/log/<host>/crfmond/crfmond.log
10. ologgerd: 這是Oracle Cluster Health Monitor(CHM)的另一個主要程序,在一個叢集中的,ologgerd 會有一個主機點(master),還有一個備節點(standby)。當ologgerd在目前的節點遇到問題無法啟動後,它會在備用節點啟用。
它的日志位于:<GRID_HOME>/log/<host>/crflogd/crflogd.log
關于CHM,請參考:
11gR2 新特性:Oracle Cluster Health Monitor(CHM)簡介
11. <XXX>agent.bin:在11.2,各個資源的啟動、停止和檢查都是由agent來執行的。ohasd 會把這些agent啟動。
Agent包括兩種,一種是ohasd的:
oraagent_grid: 啟動/停止/檢查/清除ora.asm, ora.evmd, ora.gipcd, ora.gpnpd, ora.mdnsd等資源。
orarootagent_root:啟動/停止 /檢查/清除 ora.crsd, ora.ctssd, ora.diskmon, ora.drivers.acfs, ora.crf (11.2.0.2)等資源。
oracssdagent_root: 啟動/停止/檢查 ocssd程序。
oracssdmonitor_root:監控cssdagent程序。
它們的日志位于:<GRID_HOME>/log/<host>/agent/ohasd
另一種是crsd的:
oraagent_grid: 啟動/停止/檢查/清除 asm, ora.eons, ora.LISTENER.lsnr, SCAN listeners, ora.ons, diskgroup 等資源
oraagent_oracle: 啟動/停止/檢查/清除 service, database 等資源
orarootagent_root : 啟動/停止/檢查/清除 GNS, VIP, SCAN VIP and network 等資源.
scriptagent_grid: 應用服務定制的服務。
它們的日志位于:<GRID_HOME>/log/<host>/agent/crsd
原文連結:https://blogs.oracle.com/Database4CN/entry/oracle_crs_gi_%E8%BF%9B%E7%A8%8B%E4%BB%8B%E7%BB%8D
本文轉自xiaocao1314051CTO部落格,原文連結: http://blog.51cto.com/xiaocao13140/1930510,如需轉載請自行聯系原作者