天天看点

pdf复制乱码_pdf复制文字到word乱码怎么办?

pdf复制乱码_pdf复制文字到word乱码怎么办?

Pdf是常用的一种文件格式,它可以保证同一个文件在不同平台不同终端看到的版面效果是一样的。

就一般使用者的理解,pdf可以分为两种,一种是图片型的pdf,一种是文本型的pdf。图片型的pdf,比较典型的是通过扫描得到的pdf文件,特点是每张pdf就是一张图片,上面的文字信息是不可直接复制的,如下图。

pdf复制乱码_pdf复制文字到word乱码怎么办?

文本型pdf,一般是由word、indesign等图文排版编辑软件生成的,特点是pdf页面非常清晰,文本可以直接复制,并粘贴到其他编辑器中,如word。可以直接复制的表现为可以使用文本工具直接在pdf选取文本。如下图。

pdf复制乱码_pdf复制文字到word乱码怎么办?

我们拿到一份pdf,不仅是看,而且往往是想获得其中的内容的。能够直接复制的文本型pdf当然是最容易获得文本信息的,但有时候仍会碰到这样的情况:在pdf文件中选取文本,粘贴到其他软件,如word中时,却出现了乱码。下面列举我遇到的两次这样的情况,以供参考。

情况一,如下图所示。

文本在pdf中呈现得很清晰,很正常。但当用文本工具选取时,却没有出现正常的浅蓝底色的选中状态,出现的是浅蓝色不整齐的下划线的状态。粘贴到word里,显示都是非常奇怪的毫无关联的字符,且是行数明显多于原文本。

pdf复制乱码_pdf复制文字到word乱码怎么办?

情况二,如下图所示。

这是一段俄文。文本在pdf中呈现得很清晰,很正常。用文本工具选取时,出现正常的浅蓝底色的选中状态。粘贴到word里,显示的却几乎都是方框,有一些英文字母和数字是正确的。你可能会认为是字体的问题,但是更换了几种支持俄文的字体后,情况仍然没有变化。应该不是字体的问题。

pdf复制乱码_pdf复制文字到word乱码怎么办?

pdf文本粘贴出来后文本乱码的问题,其本质应该是文字符号编码的问题。在

Louis Tong

非常专业的回答中有一些详细说明,链接如下

为什么从由方正书版的大样文件打印而成的 pdf 中复制出来的标点符号都是乱码?​www.zhihu.com

pdf复制乱码_pdf复制文字到word乱码怎么办?

了解文字编码的人应该可以很好地理解并解决这个问题,不过肯定是需要掌握一些比较专业的知识。对于普通的图文工作者来说,这是很难办到的。

所以遇到这种情况,最简单粗暴的方法仍然是使用OCR软件进行识别,就像对待图片型pdf一样。因为这种pdf都很清晰,所以OCR识别也可以得到另人满意的结果。

OCR是指光学字符识别技术,比较著名的软件有ABBYY FineReader。