資料庫存放資料的檔案,本文稱其為data file。
資料庫的内容在記憶體裡是有緩存的,這裡命名為db
buffer。某次操作,我們取了資料庫某表格中的資料,這個資料會在記憶體中緩存一些時間。對這個資料的修改在開始時候也隻是修改在記憶體中的内容。當db
buffer已滿或者遇到其他的情況,這些資料會寫入data file。
undo,redo
日志在記憶體裡也是有緩存的,這裡将其叫做log buffer。磁盤上的日志檔案稱為log file。log file一般是追加内容,可以認為是順序寫,順序寫的磁盤IO開銷要小于随機寫。
Undo日志記錄某資料被修改前的值,可以用來在事務失敗時進行rollback;Redo日志記錄某資料塊被修改後的值,可以用來恢複未寫入data file的已成功事務更新的資料。下面的示例來自于楊傳輝《大資料分布式存儲系統 原了解析與架構實踐》,略作改動。
例如某一事務的事務序号為T1,其對資料X進行修改,設X的原值是5,修改後的值為15,那麼Undo日志為,Redo日志為
<T1, X, 5>
。
<T1, X, 15>
也有把undo和redo結合起來的做法,叫做Undo/Redo日志,在這個例子中Undo/Redo日志為
<T1,
X, 5, 15>
當使用者生成一個資料庫事務時,undo log buffer會記錄被修改的資料的原始值,redo會記錄被修改的資料的更新後的值。
redo日志應首先持久化在磁盤上,然後事務的操作結果才寫入db buffer,(此時,記憶體中的資料和data
file對應的資料不同,我們認為記憶體中的資料是髒資料),db buffer再選擇合适的時機将資料持久化到data
file中。這種順序可以保證在需要故障恢複時恢複最後的修改操作。先持久化日志的政策叫做
Write
Ahead Log
,即預寫日志。
在很多系統中,undo日志并非存到日志檔案中,而是存放在資料庫内部的一個特殊段中。本文中就把這些存儲行為都泛化為undo日志存儲到undo log file中。
對于某事務T,在log file的記錄中必須開始于事務開始标記(比如“start T”),結束于事務結束标記(比如“end T”、”commit
T”)。在系統恢複時,如果在log file中某個事務沒有事務結束标記,那麼需要對這個事務進行undo操作,如果有事務結束标記,則redo。
在db buffer中的内容寫入磁盤資料庫檔案之前,應當把log buffer的内容寫入磁盤日志檔案。
有一個問題,redo log buffer和undo log buffer存儲的事務數量是多少,是按照什麼規則将日志寫入log
file?如果存儲的事務數量都是1個,也就意味着是将日志立即刷入磁盤,那麼資料的一緻性很好保證。在執行事T時,突然斷電,如果未對磁盤上的redo
log file發生追加操作,可以把這個事務T看做未成功。如果redo log file被修改,則認為事務是成功了,重新開機資料庫使用redo
log恢複資料到db buffer和 data file即可。
如果存儲多個的話,其實也挺好解釋的。就是db buffer寫入data file之前,先把日志寫入log
file。這種方式可以減少磁盤IO,增加吞吐量。不過,這種方式适用于一緻性要求不高的場合。因為如果出現斷電等系統故障,log buffer、db
buffer中的完成的事務會丢失。以轉賬為例,如果使用者的轉賬事務在這種情況下丢失了,這意味着在系統恢複後使用者需要重新轉賬。
檢查點checkpoint
checkpoint是為了定期将db buffer的内容重新整理到data file。當遇到記憶體不足、db buffer已滿等情況時,需要将db
buffer中的内容/部分内容(特别是髒資料)轉儲到data
file中。在轉儲時,會記錄checkpoint發生的”時刻“。在故障回複時候,隻需要redo/undo最近的一次checkpoint之後的操作。
幂等性問題
在日志檔案中的操作記錄應該具有幂等性。幂等性,就是說同一個操作執行多次和執行一次,結果是一樣的。例如,
5*1
= 5*1*1*1
,是以對5的乘1操作具有幂等性。日志檔案在故障恢複中,可能會回放多次(比如第一次回放到一半時系統斷電了,不得不再重新回放),如果操作記錄不滿足幂等性,會造成資料錯誤。
轉載:http://blog.csdn.net/kobejayandy/article/details/50885693
(此文章僅用于個人記憶知識所用)