天天看點

Java 讀取Word标題(目錄)

概述

Word中的标題可通過“樣式”中的選項來快速設定(如圖1),

Java 讀取Word标題(目錄)

圖1

在添加目錄時,可将“有效樣式”設定為“目錄級别”顯示(如圖2),一定程度上來說,标題大綱也可以作為目錄來參考。

Java 讀取Word标題(目錄)

圖2

本文,将通過後端Java程式代碼介紹如何來擷取Word中的标題内容。

注:如果在Word中進行了如圖2中的設定,此方法也可以作為擷取目錄的方法;若沒有對應設定,則想要通過此方法來擷取的目錄内容可能不完整。

本次測試的Word文檔如下圖所示,【标題樣式】和【目錄級别】經過相應設定,在擷取标題大綱時等同于擷取目錄:

Java 讀取Word标題(目錄)

圖3

代碼測試環境

  • Word測試文檔:.docx 2013版
  • 編譯環境:IntelliJ IDEA 2018
  • Jdk版本:1.8.0
  • Word jar包:Free Spire.Doc for Java 3.9.0

Java 程式代碼

import com.spire.doc.*;
import com.spire.doc.documents.Paragraph;

import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;


public class GetTitle {
    public static void main(String[] args)throws IOException {
        //加載Word測試文檔
        Document doc = new Document();
        doc.loadFromFile("sample.docx");

        //儲存标題内容到.txt文檔
        File file = new File("GetTitle.txt");
        if (file.exists())
        {
            file.delete();
        }
        file.createNewFile();
        FileWriter fw = new FileWriter(file, true);
        BufferedWriter bw = new BufferedWriter(fw);

        //周遊section
        for (int i = 0; i < doc.getSections().getCount(); i++)
        {
            Section section = doc.getSections().get(i);
            //周遊Paragraph
            for (int j = 0; j < section.getParagraphs().getCount(); j++)
            {
                Paragraph paragraph = section.getParagraphs().get(j);

                //擷取标題
                if ( paragraph.getStyleName().matches("1"))//段落為“标題1”的内容
                {
                    //擷取段落标題内容
                    String text = paragraph.getText();

                    //寫入文本到txt文檔
                    bw.write("标題1: "+ text + "\r");
               }
                //擷取标題
                if ( paragraph.getStyleName().matches("2"))//段落為“标題2”的内容
                {
                    //擷取段落标題内容
                    String text = paragraph.getText();

                    //寫入文本到txt文檔
                    bw.write("标題2: " + text + "\r");
                }
                //擷取标題
                if ( paragraph.getStyleName().matches("3"))//段落為“标題3”的内容
                {
                    //擷取段落标題内容
                    String text = paragraph.getText();

                    //寫入文本到txt文檔
                    bw.write("标題3: " + text+"\r");
                }
                //擷取标題
                if ( paragraph.getStyleName().matches("4"))//段落為“标題4”的内容
                {
                    //擷取段落标題内容
                    String text = paragraph.getText();

                    //寫入文本到txt文檔
                    bw.write("标題4: " + text+"\r");
                }

                bw.write("\n");
            }

        }
        bw.flush();
        bw.close();
        fw.close();
    }
}      

标題(目錄)擷取結果:

Java 讀取Word标題(目錄)

本文完。

原創内容,如需轉載,請注明出處!