天天看點

C# 提取Word中插入的多媒體檔案(視訊、音頻)

​在Word中可将檔案通過OLE對象嵌入的方式插入到文檔,包括Word、excel、PDF、PPT、圖檔、宏檔案、檔案包等在内的多種檔案類型。對文檔中已插入的文檔對象,也可通過本文中的方法提取出來另存到指定路徑。本文将通過C#程式代碼示例做詳細介紹。

dll檔案安裝(3種方法)

1.通過​​NuGet​​​安裝dll(2種方法)

  1.1 可以在Visual Studio中打開“解決方案資料總管”,滑鼠右鍵點選“引用”,“管理NuGet包”,然後搜尋“Free Spire.Doc”,點選“安裝”。等待程式安裝完成。

  1.2 将以下内容複制到PM控制台安裝。​

        Install-Package FreeSpire.Doc -Version 9.9.7

​2.手動添加dll引用

可通過手動​​下載下傳包​​到本地,然後解壓,找到BIN檔案夾下的Spire.Doc.dll。然後在Visual Studio中打開“解決方案資料總管”,滑鼠右鍵點選“引用”,“添加引用”,将本地路徑BIN檔案夾下的dll檔案添加引用至程式。

提取檔案

提取檔案時,主要通過以下步驟完成:

  • 建立Document類的對象,并通過Document.LoadFromFile()方法加載Word文檔。
  • 周遊Word文檔中的所有Section中的子對象,判斷對象是否為Paragraph類型。
  • 周遊段落中的子對象,判斷對象是否為DocumentObjectType類型的OLE對象。
  • 将符合條件的OLE對象通過as操作符轉換為DocOleObject類型。
  • 通過File.WriteAllBytes()方法提取對象,儲存到本地路徑。

​注:以下代碼中所使用到的Word測試檔案和提取到的多媒體檔案路徑為VS程式的Debug路徑,如:F:\VS2017Project\ ExtractMediaFile\bin\Debug 。

下面是完整代碼示例:

C#

using Spire.Doc;
using Spire.Doc.Documents;
using Spire.Doc.Fields;
using System.IO;

namespace ExtractMediaFile
{
    class Program
    {
        static void Main(string[] args)
        {
            //加載Word文檔
            Document doc = new Document();
            doc.LoadFromFile(@"OLE.docx");

            //周遊所有子對象
            foreach (Section section in doc.Sections)
            {
                foreach (DocumentObject obj in section.Body.ChildObjects)
                {
                    if (obj is Paragraph)
                    {
                        Paragraph paragraph = obj as Paragraph;
                        foreach (DocumentObject obj2 in paragraph.ChildObjects)
                        {
                            if (obj2.DocumentObjectType == DocumentObjectType.OleObject)
                            {
                                DocOleObject ole = obj2 as DocOleObject;

                                //提取檔案
                                File.WriteAllBytes(ole.PackageFileName, ole.NativeData);
                            }
                        }
                    }
                }
            }

        }
    }
}      

VB.NET

Imports Spire.Doc
Imports Spire.Doc.Documents
Imports Spire.Doc.Fields
Imports System.IO

Namespace ExtractMediaFile
  Class Program
    Private Shared Sub Main(args As String())
      '加載Word文檔
      Dim doc As New Document()
      doc.LoadFromFile("test.docx")

      '周遊所有子對象
      For Each section As Section In doc.Sections
        For Each obj As DocumentObject In section.Body.ChildObjects
          If TypeOf obj Is Paragraph Then
            Dim paragraph As Paragraph = TryCast(obj, Paragraph)
            For Each obj2 As DocumentObject In paragraph.ChildObjects
              If obj2.DocumentObjectType = DocumentObjectType.OleObject Then
                Dim ole As DocOleObject = TryCast(obj2, DocOleObject)

                '提取檔案
                File.WriteAllBytes(ole.PackageFileName, ole.NativeData)
              End If
            Next
          End If
        Next
      Next

    End Sub
  End Class
End Namespace      

檔案讀取結果如圖:

繼續閱讀