C# 提取Word中插入的多媒體文件(影片、音頻)

在Word中可將文件通過OLE對象嵌入的方式插入到文檔,包括Word、excel、PDF、PPT、圖片、宏文件、文件包等在內的多種文件類型。對文檔中已插入的文檔對象,也可通過本文中的方法提取出來另存到指定路徑。本文將通過C#程式程式碼示例做詳細介紹。

dll文件安裝(3種方法)

1.通過NuGet安裝dll(2種方法)

  1.1可以在Visual Studio中打開「解決方案資源管理器」,滑鼠右鍵點擊「引用」,「管理NuGet包」,然後搜索「Free Spire.Doc」,點擊「安裝」。等待程式安裝完成。

  1.2將以下內容複製到PM控制台安裝。

Install-Package FreeSpire.Doc -Version 9.9.7

2.手動添加dll引用

可通過手動下載包到本地,然後解壓,找到BIN文件夾下的Spire.Doc.dll。然後在Visual Studio中打開「解決方案資源管理器」,滑鼠右鍵點擊「引用」,「添加引用」,將本地路徑BIN文件夾下的dll文件添加引用至程式。

提取文件

提取文件時,主要通過以下步驟完成:

  • 創建Document類的對象,並通過Document.LoadFromFile()方法載入Word文檔。
  • 遍歷Word文檔中的所有Section中的子對象,判斷對象是否為Paragraph類型。
  • 遍歷段落中的子對象,判斷對象是否為DocumentObjectType類型的OLE對象。
  • 將符合條件的OLE對象通過as操作符轉換為DocOleObject類型。
  • 通過File.WriteAllBytes()方法提取對象,保存到本地路徑。

 

:以下程式碼中所使用到的Word測試文件和提取到的多媒體文件路徑為VS程式的Debug路徑,如:F:\VS2017Project\ ExtractMediaFile\bin\Debug 。

 

下面是完整程式碼示例:

C#

using Spire.Doc;
using Spire.Doc.Documents;
using Spire.Doc.Fields;
using System.IO;

namespace ExtractMediaFile
{
    class Program
    {
        static void Main(string[] args)
        {
            //載入Word文檔
            Document doc = new Document();
            doc.LoadFromFile(@"OLE.docx");

            //遍歷所有子對象
            foreach (Section section in doc.Sections)
            {
                foreach (DocumentObject obj in section.Body.ChildObjects)
                {
                    if (obj is Paragraph)
                    {
                        Paragraph paragraph = obj as Paragraph;
                        foreach (DocumentObject obj2 in paragraph.ChildObjects)
                        {
                            if (obj2.DocumentObjectType == DocumentObjectType.OleObject)
                            {
                                DocOleObject ole = obj2 as DocOleObject;

                                //提取文件
                                File.WriteAllBytes(ole.PackageFileName, ole.NativeData);
                            }
                        }
                    }
                }
            }

        }
    }
}

VB.NET

Imports Spire.Doc
Imports Spire.Doc.Documents
Imports Spire.Doc.Fields
Imports System.IO

Namespace ExtractMediaFile
    Class Program
        Private Shared Sub Main(args As String())
            '載入Word文檔
            Dim doc As New Document()
            doc.LoadFromFile("test.docx")

            '遍歷所有子對象
            For Each section As Section In doc.Sections
                For Each obj As DocumentObject In section.Body.ChildObjects
                    If TypeOf obj Is Paragraph Then
                        Dim paragraph As Paragraph = TryCast(obj, Paragraph)
                        For Each obj2 As DocumentObject In paragraph.ChildObjects
                            If obj2.DocumentObjectType = DocumentObjectType.OleObject Then
                                Dim ole As DocOleObject = TryCast(obj2, DocOleObject)

                                '提取文件
                                File.WriteAllBytes(ole.PackageFileName, ole.NativeData)
                            End If
                        Next
                    End If
                Next
            Next

        End Sub
    End Class
End Namespace

文件讀取結果如圖:

 

推薦閱讀:C# / VB.NET 在Word中嵌入多媒體(影片、音頻)文件

 

—END—