XPDF3.04抽取PDF中的中文文本

2023-08-07 00:36:03

开发环境：Windows8.0 X64位 eclipse3.2

版本号：xpdfbin-win-3.04 xpdf-chinese-simplified.tar.gz

下载路径：ftp://ftp.foolabs.com/pub/xpdf/

操作步骤：

下载xpdf和中文字体，分别解压缩。
建立xpdf根目录 d:\xpdf，

（1）并将xpdfbin-win-3.04\bin64目录下所有文件复制到 d:\xpdf 下。

（2）将xpdf-chinese-simplified 整个文件夹复制到 d:\xpdf 下。
复制 xpdfbin-win-3.04\doc 路径下的 sample-xpdfrc 文件到 d:\xpdf 下，并改名为 xpdfrc。

（1）修改文件 xpdfrc 第73行，将 textEncoding UTF-8 注释打开，指定编码为UTF-8，

（2）并在下面增加 textPageBreaks no 参数，意思是在pdf文档的两页间不加入分行符。

（3）在此文件最后增加以下内容，声明中文字体文件

#----- begin Chinese Simplified support package (2011-sep-02)
cidToUnicode Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/Adobe-GB1.cidToUnicode
unicodeMap ISO-2022-CN D:/xpdf/xpdf-chinese-simplified/ISO-2022-CN.unicodeMap
unicodeMap EUC-CN D:/xpdf/xpdf-chinese-simplified/EUC-CN.unicodeMap
unicodeMap GBK D:/xpdf/xpdf-chinese-simplified/GBK.unicodeMap
cMapDir Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap
toUnicodeDir D:/xpdf/xpdf-chinese-simplified/CMap
#displayCIDFontTT Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap/gkai00mp.ttf 
#fontFileCC Adobe-GB1 /usr/..../gkai00mp.ttf
#----- end Chinese Simplified support package

实验代码

@Test
public void xpdfParser(){

     try {
        cmd = "d:\\xpdf\\pdftotext.exe -enc UTF-8 -q D:\\datadir\\Web数据挖掘综述.pdf d:\\datadir\\pdftxtdir\\Web数据挖掘综述.txt ";
        Runtime.getRuntime().exec(cmd);
    } catch (IOException e) {
        e.printStackTrace();
    }
 }

以上代码不完整，主要是xpdf路径设置可能会有问题，另外就是中文字库文件路径设置必须正确，否则导出的txt文件没有内容。

若有不清楚的地方，或者发现问题，可回复我，多谢！

原文链接：https://blog.csdn.net/weixin_34117211/article/details/91914891

XPDF3.04抽取PDF中的中文文本

继续阅读

HBuilder开发App Step1——环境搭建，HelloMUI 以及真机调试

TestLink导出用例转换工具(XML2Excel)

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入