(手寫識别) Zinnia庫及其實作方法研究

Zinnia庫及其實作方法研究（轉）

zinnia是一個開源的手寫識别庫。采用C++實作。具有手寫識别，學習以及文字模型資料制作轉換等功能。

Zinnia庫特點

以下為通過源代碼研究和debug得出的結論。

可能不是完全準确

接口

定義了Character，Recognizer，Result，Trainer等4個接口類。然後分别使用CharacterImpl, RecognizerImpl, ResultImpl, TrainerImpl實作。

公用方法

定義了一個模闆類 read_static 用來從一個大資料集合中讀取模闆類大小的資料，源資料指針根據讀取長度自加。和read_ptr的差別是這個是使用memcpy，讀取内容到新記憶體裡，記憶體的大小即模闆類的大小。而read_ptr隻是傳回指針，并沒有指針外的記憶體占用。
定義了一個指針讀取類read_ptr用來讀取資料指針，源資料指針根據讀取長度自加。
存儲資料普遍使用vector，在每次使用前首先通過resize方法對vector的大小進行重定義。

讀取文字模型檔案

struct Model{ const char *character; // utf-8 character float bias; // const FeatureNode *x; //features};

讀取使用者輸入的手寫筆迹

可以自由設定手寫框的大小。在内部進行中所有筆迹都被轉化為1*1的手寫框内的坐标來處理。
通過Character類的add方法增加坐标。add的第一個參數為目前筆畫，第二個參數為坐标點。通過重複使用add方法可以加入多筆輸入筆迹。其中每筆包含多個坐标點資料。

(手寫識别) Zinnia庫及其實作方法研究

由于作者沒有提供界面程式。是以我使用MFC做了一個界面。包括

筆迹識别feature提取

首先進行坐标轉換。即将使用者設定的a*b大小的輸入框輸入的坐标點轉化為1*1大小輸入框下的坐标點。即坐标x坐标均縮小至1/a，y坐标均縮小至1/b。存儲至node連結清單中。node包含x和y坐标。結構如下

struct Node { float x; float y;};

(手寫識别) Zinnia庫及其實作方法研究

然後使用顯著點尋找算法。首先從第一筆的筆記資料開始。以起點first和終點last作為pair[0]的初始值。然後在起點到終點之間的其他點裡面尋找一個最顯著的點。（作者設定的顯著點特征值為0.001。即當dist^2>0.001的時候此點是顯著的）。找到最顯著的點best之後，再使用遞歸的方式，在first和best之間（此時best為目前輪回的last）以及best和last之間尋找最顯著點。最終尋找到所有的最顯著點。以“張”字的第一筆為例。起點終點之間的最顯著點就是折點。而起點和折點之間，折點和終點之間沒有其他顯著點。這樣這一筆可以查找出一個顯著點。并且生成3個node_pair即起點-終點起點-折點折點-終點

(手寫識别) Zinnia庫及其實作方法研究

其中這些node_pair可以根據feature結構的index屬性分類。包括2個類别。
- 實體筆迹有7筆（1，345，6，9，111213，15，17）。其中實體筆迹是基于1000*n來定義index的。7筆即在0 – 6*1000 這個範圍。
- 非實體筆迹有6筆（2，6，8，10，14，16）就是這些不是實際筆迹輸入。隻是畫完一筆之後的終點和下一筆的起點之間的連線。這類筆迹使用100000+（n+1）*1000來定義index。6筆即在101000-106000這個範圍。
- 這樣會有17*12 = 204 個feature。然後加上每個字最初的一個和最後的2個feature。一共是207個feature。正是通過這207個feature進行文字的識别，并在文字模型庫裡面進行比對。得到前十個最相似的文字。

文字比對

比對将對漢字庫裡面所有文字進行比對。比對過程是将【串】字204個feature與漢字庫目前漢字的所有feature進行比對。當【串】字某一feature的index與漢字庫目前漢字的某一feature的index相同時。即取兩個feature值的乘積。如果index不一緻則繼續下一個連結清單的結點來比對index。
将取得所有乘積相加。最後再加上漢字庫目前漢字的固有屬性bias。最終形成漢字庫目前漢字的最終值。得到所有漢字的最終值之後按從小到大排出前十位即為識别的最終結果。

學習功能

學習功能依靠SVM機實作。還沒有來得及分析這部分代碼。

打算專門對SVM做一個研究。