了解資料庫中的undo日志、redo日志、檢查點

資料庫存放資料的檔案，本文稱其為data file。

資料庫的内容在記憶體裡是有緩存的，這裡命名為db

buffer。某次操作，我們取了資料庫某表格中的資料，這個資料會在記憶體中緩存一些時間。對這個資料的修改在開始時候也隻是修改在記憶體中的内容。當db

buffer已滿或者遇到其他的情況，這些資料會寫入data file。

日志在記憶體裡也是有緩存的，這裡将其叫做log buffer。磁盤上的日志檔案稱為log file。log file一般是追加内容，可以認為是順序寫，順序寫的磁盤IO開銷要小于随機寫。

Undo日志記錄某資料被修改前的值，可以用來在事務失敗時進行rollback；Redo日志記錄某資料塊被修改後的值，可以用來恢複未寫入data file的已成功事務更新的資料。下面的示例來自于楊傳輝《大資料分布式存儲系統原了解析與架構實踐》，略作改動。

例如某一事務的事務序号為T1，其對資料X進行修改，設X的原值是5，修改後的值為15，那麼Undo日志為 <T1, X, 5> ，Redo日志為 <T1, X, 15> 。

也有把undo和redo結合起來的做法，叫做Undo/Redo日志，在這個例子中Undo/Redo日志為

<T1,
 X, 5, 15>

當使用者生成一個資料庫事務時，undo log buffer會記錄被修改的資料的原始值，redo會記錄被修改的資料的更新後的值。

redo日志應首先持久化在磁盤上，然後事務的操作結果才寫入db buffer，（此時，記憶體中的資料和data

file對應的資料不同，我們認為記憶體中的資料是髒資料），db buffer再選擇合适的時機将資料持久化到data

file中。這種順序可以保證在需要故障恢複時恢複最後的修改操作。先持久化日志的政策叫做

Write
 Ahead Log

，即預寫日志。

在很多系統中，undo日志并非存到日志檔案中，而是存放在資料庫内部的一個特殊段中。本文中就把這些存儲行為都泛化為undo日志存儲到undo log file中。

對于某事務T，在log file的記錄中必須開始于事務開始标記（比如“start T”），結束于事務結束标記（比如“end T”、”commit

T”）。在系統恢複時，如果在log file中某個事務沒有事務結束标記，那麼需要對這個事務進行undo操作，如果有事務結束标記，則redo。

在db buffer中的内容寫入磁盤資料庫檔案之前，應當把log buffer的内容寫入磁盤日志檔案。

有一個問題，redo log buffer和undo log buffer存儲的事務數量是多少，是按照什麼規則将日志寫入log

file？如果存儲的事務數量都是1個，也就意味着是将日志立即刷入磁盤，那麼資料的一緻性很好保證。在執行事T時，突然斷電，如果未對磁盤上的redo

log file發生追加操作，可以把這個事務T看做未成功。如果redo log file被修改，則認為事務是成功了，重新開機資料庫使用redo

log恢複資料到db buffer和 data file即可。

如果存儲多個的話，其實也挺好解釋的。就是db buffer寫入data file之前，先把日志寫入log

file。這種方式可以減少磁盤IO，增加吞吐量。不過，這種方式适用于一緻性要求不高的場合。因為如果出現斷電等系統故障，log buffer、db

buffer中的完成的事務會丢失。以轉賬為例，如果使用者的轉賬事務在這種情況下丢失了，這意味着在系統恢複後使用者需要重新轉賬。

checkpoint是為了定期将db buffer的内容重新整理到data file。當遇到記憶體不足、db buffer已滿等情況時，需要将db

buffer中的内容/部分内容（特别是髒資料）轉儲到data

file中。在轉儲時，會記錄checkpoint發生的”時刻“。在故障回複時候，隻需要redo/undo最近的一次checkpoint之後的操作。

在日志檔案中的操作記錄應該具有幂等性。幂等性，就是說同一個操作執行多次和執行一次，結果是一樣的。例如，

5*1
 = 5*1*1*1

，是以對5的乘1操作具有幂等性。日志檔案在故障恢複中，可能會回放多次（比如第一次回放到一半時系統斷電了，不得不再重新回放），如果操作記錄不滿足幂等性，會造成資料錯誤。

轉載：http://blog.csdn.net/kobejayandy/article/details/50885693

（此文章僅用于個人記憶知識所用）