本節書摘來自異步社群《adobe acrobat xi經典教程》一書中的第2課制作可編輯和搜尋的掃描文檔,作者【美】adobe公司,更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。
制作可編輯和搜尋的掃描文檔
adobe acrobat xi經典教程
從microsoft word或adobe indesign等應用程式中将檔案轉換成pdf時,文本是完全可以編輯和搜尋的。但是,圖像檔案中的文本,無論是以圖像格式儲存的掃描文檔還是檔案,都無法編輯和搜尋。利用ocr(光學字元識别)技術,acrobat将可以分析圖像,并用不連續的字元代替圖像的某些部分。ocr同時還可以識别分析得可能不正确的字元。
下面,我們把ocr技術用在之前轉換過的tiff檔案上。
1.選擇file>open,導覽到lesson02檔案夾,然後打開之前儲存的gc_vendagree.pdf檔案。
2.選擇常用工具欄中的selection工具(tb0205.tif),移動光标到文檔的文本上。可以選擇文檔中的區域,但是acrobat不會具體選擇區域中的任何文本。
3.打開工具窗格,單擊text recognition,打開面闆。
4.在text recognition面闆中,單擊in this file,如圖2.20所示。acrobat顯示recognize text對話框。

5.確定在對話框的pages區域選中了current page。然後單擊edit,編輯轉換設定,如圖2.21所示。
6.在recognize text - general settings對話框中,從pdf output style下拉清單中選擇clearscan,如圖2.22所示。
利用clearscan轉換檔案成可擴充的文本和圖像,以在acrobat中編輯。
提示:
掃描圖像時,acrobat能自動運作ocr技術。隻需要在掃描前,在掃描器預設(windows)或acrobat scan對話框(mac os)中選擇make searchable。
7.單擊ok,關閉recognize text - general settings對話框,然後再次單擊ok,關閉recognize text對話框,運作clearscan。
acrobat會轉換該文檔。
8.利用selection工具選擇頁面上的單詞,如圖2.23所示。acrobat已經把圖像轉換成可編輯、可搜尋的文本了。
9.單擊text recognition面闆中的find first suspect。acrobat會搜尋文檔,找出任何可能轉換得不正确的單詞。如果發現任何可疑的單詞,可以加以檢查,并根據需要更改。使用者可能還需要使用content editing面闆中的edit text & images工具,處理空格問題。
10.單擊ok,關閉touchup或adobe acrobat對話框,然後單擊close,關閉find element對話框。
11.選擇file>save as。導覽到lesson02檔案夾,儲存檔案為gc_vendagree_ocr.pdf。然後關閉檔案。
注意:
預設情況下,acrobat轉換文檔成可搜尋的圖像。可以利用這一設定轉換文檔,但是clearscan選項往往提供更健壯、更精确的文本轉換。
本文僅用于學習和交流目的,不代表異步社群觀點。非商業轉載請注明作譯者、出處,并保留本文的原始連結。