本节书摘来自异步社区《adobe acrobat xi经典教程》一书中的第2课制作可编辑和搜索的扫描文档,作者【美】adobe公司,更多章节内容可以访问云栖社区“异步社区”公众号查看。
制作可编辑和搜索的扫描文档
adobe acrobat xi经典教程
从microsoft word或adobe indesign等应用程序中将文件转换成pdf时,文本是完全可以编辑和搜索的。但是,图像文件中的文本,无论是以图像格式保存的扫描文档还是文件,都无法编辑和搜索。利用ocr(光学字符识别)技术,acrobat将可以分析图像,并用不连续的字符代替图像的某些部分。ocr同时还可以识别分析得可能不正确的字符。
下面,我们把ocr技术用在之前转换过的tiff文件上。
1.选择file>open,导览到lesson02文件夹,然后打开之前保存的gc_vendagree.pdf文件。
2.选择常用工具栏中的selection工具(tb0205.tif),移动光标到文档的文本上。可以选择文档中的区域,但是acrobat不会具体选择区域中的任何文本。
3.打开工具窗格,单击text recognition,打开面板。
4.在text recognition面板中,单击in this file,如图2.20所示。acrobat显示recognize text对话框。

5.确保在对话框的pages区域选中了current page。然后单击edit,编辑转换设置,如图2.21所示。
6.在recognize text - general settings对话框中,从pdf output style下拉列表中选择clearscan,如图2.22所示。
利用clearscan转换文件成可扩展的文本和图像,以在acrobat中编辑。
提示:
扫描图像时,acrobat能自动运行ocr技术。只需要在扫描前,在扫描仪预设(windows)或acrobat scan对话框(mac os)中选择make searchable。
7.单击ok,关闭recognize text - general settings对话框,然后再次单击ok,关闭recognize text对话框,运行clearscan。
acrobat会转换该文档。
8.利用selection工具选择页面上的单词,如图2.23所示。acrobat已经把图像转换成可编辑、可搜索的文本了。
9.单击text recognition面板中的find first suspect。acrobat会搜索文档,找出任何可能转换得不正确的单词。如果发现任何可疑的单词,可以加以检查,并根据需要更改。用户可能还需要使用content editing面板中的edit text & images工具,处理空格问题。
10.单击ok,关闭touchup或adobe acrobat对话框,然后单击close,关闭find element对话框。
11.选择file>save as。导览到lesson02文件夹,保存文件为gc_vendagree_ocr.pdf。然后关闭文件。
注意:
默认情况下,acrobat转换文档成可搜索的图像。可以利用这一设置转换文档,但是clearscan选项往往提供更健壮、更精确的文本转换。
本文仅用于学习和交流目的,不代表异步社区观点。非商业转载请注明作译者、出处,并保留本文的原始链接。