如何將PDF格式轉換為WORD文檔
經常在PDF形式上看到有好的文件時,想把它拿出來,但是卻是不行,所以我第一步就是找一下有沒有可以到PDF格式與WORD文檔的轉換,在網上找了一下,原來還真的有很多,今天我就把這些方法也傳上來,不過我也發現一個問題,就是如果PDF本身是圖片的話,那也沒辦法轉換,不知道還有沒有其它方法可以把PDF圖片格式也轉換過來那就最好了,不過還是希望Adobe Acrobat 公司在開發上能夠和OFFICE 相結合,那對我們來說使用就更方便了.
1、實現工具:Office 2003中自帶的Microsoft Office Document Imaging
應用情景:目前國外很多軟件的支持信息都使用PDF方式進行發布,如果沒有Adobe Reader,無法查看其內容,如果沒有相關的編輯軟件又無法編輯PDF文件。轉換為DOC格式則可以實現編輯功能。盡管有些軟件也可以完成PDF轉換為DOC的工作,但很多都不支持中文,我們利用Office 2003中的Microsoft Office Document Imaging組件來實現這一要求最為方便。
使用方法:
第一步:首先使用Adobe Reader打開待轉換的PDF文件,接下來選擇“文件→打印”菜單,在打開的“打印”設置窗口中將“打印機”欄中的“名稱”設置為“Microsoft Office Document Image Writer”,確認后將該PDF文件輸出為MDI格式的虛擬打印文件。
編輯提示:如果你在“名稱”設置的下拉列表中沒有找到“Microsoft Office Document Image Writer”項,那證明你在安裝Office 2003的時候沒有安裝該組件,請使用Office 2003安裝光盤中的“添加/刪除組件”更新安裝該組件。
第二步:運行Microsoft Office Document Imaging,并利用它來打開剛才保存的MDI文件,選擇“工具→將文本發送到Word”菜單,并在彈出的窗口中勾選“在輸出時保持圖片版式不變”,確認后系統提示“必須在執行此操作前重新運行OCR。這可能需要一些時間”,不管它,確認即可。
編輯提示:目前,包括此工具在內的所有軟件對PDF轉DOC的識別率都不是特別完美,而且轉換后會丟失原來的排版格式,所以大家在轉換后還需要手工對其進行后期排版和校對工作。
2、實現工具:Solid Converter PDF
應用情景:利用Office 2003中的Microsoft Office Document Imaging組件來實現PDF轉Word文檔在一定程度上的確可以實現PDF文檔到Word文檔的轉換,但是對于很多“不規則”的PDF文檔來說,利用上面的方法轉換出來的Word文檔中常常是亂碼一片。為了恢復PDF的原貌,推薦的這種軟件可以很好地實現版式的完全保留,無需調整,而且可以調整成需要的樣板形式。
使用方法:
1、下載安裝文件Solid Converter PDF,點擊安裝。
編輯提示:安裝前有個下載安裝插件的過程,因此需要保證網絡連接通暢。
2、運行軟件,按工具欄要求選擇需要轉換的PDF文檔,點擊右下的“轉換”(Convert)按扭,選擇自己需要的版式,根據提示完成轉換。
一,PDF轉換WORD篇
如何提取PDF中的文字,圖片等特效
我們日常工作學習中有關的學術論文或學術報告或者課程教材等等都以pdf格式保存,如何把它們轉換成可編輯的word文檔或者提取相應的重要信息。網上有不少 pdf 到 word 的轉換軟件或插件,可是大都對英文等識別姣好,一些繁體的軟件又不適合我們,我們可以利用office2003的組件microsoft office Document Imaging可以實現從PDF中任意提取任何頁面的文字和圖像等功能。
先來介紹一下最簡單的提取方法吧,打開PDF的文件資料,利用本身的文本提取工具可以完全提取了,但是有的PDF是增加了128位秘鑰的,想要提取是不會那么簡單的,即使用軟件或者簡單復制的時候,出來的效果卻是亂碼之類的東西。
而且單純的用文本工具只能把PDF中的文字提取出來,其他的特效:圖片等是無法顯示出來的,首先看一例文本提取:
我想提取下圖的文字:具有SAP的企業系統。
直接在ADOBE READER 的“工具”選項那就輕松可以實現:
或者直接利用快捷方式中的圖形直接提取就可以了:
直接提取的效果就是我們通常所說的“復制”到“粘貼”,文字東西少還是可以,如果有300頁的PDF我怕只有“傻瓜”才會那么做吧!呵呵!玩笑!下面的圖片我們怎么辦(舉個例子)如果是報表的數據圖呢?如何人、放到WORD里呢?
所以只有求助office2003的組件microsoft office Document Imaging的功能了,即使它不是最好的,在ADOBE READER 那有一個“打印機”的圖標,進入后來到如下的畫面,在名稱那選擇“microsoft office Document Imaging”,下面還有設置的打印范圍,可以選擇所有的PDF文件或者選擇想要提取的頁面也可以,或者指定多少頁到多少頁都是可以實現的,頁面處理功能就是保持頁面的大小或者根據你要打印的紙張的大小選擇就可以了,頁數就是處理后的頁數。
根據需要我最后進行了選擇,什么都保持原來的大小和清晰度等,然后我們確認就可以了:
之后會出現“保存”的對話框,注意下面的文件名,可以更改或者改變的,但是下面的保存類型千萬不要變,保持MDI格式就可以了:
之后會出現所預覽的頁面,也就是你上面選擇參數后的結果,這時候的圖片和PDF還是一樣的:
之后在[color[red]“工具”這個選項上選擇“將文本發送到WROD”這個選項:
然后出現一個可選擇的對話框,選擇的時候要注意選擇“輸出時候保持文件不變”,然后保存到想要的位置:
如果機器之前設置了OCR擦件選項,需要更新的,不過不要緊的,系統會自動給你安裝的,選擇確定就可以,時間也不會很久的,我的機器3秒OK了:
然后安裝開始:
之后就是安裝的進度條了,很快安裝OVER,功能可以用了:
最后呈現在你面前的就是轉換后的文字了,其實應該是黑色字體,5號字的大小的,我從新給調整了和以前的模式,是不是一樣的呢?
圖片的實現和文字的實現是一樣的,不過WORD一定要支持圖片模版的,2003版本的可以,2000沒嘗試,經過很多的使用,可以說95%的文字都是可以清晰的提取出來的,這點沒問題的!呵呵!
二,WORD轉換PDF篇
利用5D PDF CREATER 轉換PDF
WORD轉換到PDF可以實現的軟件簡直太多了,但是本人在學習應用的時候覺得還是5D-PDF最好不過了,畢竟支持微軟的產品實在是太少了,相對這款軟件才真正實現了WORD PPT EXCEL FRONTPAGE等眾多OFFICE軟件的轉換,而且效果和速度都是一流的。
首先還是用WORD或者PPT等打開我們需要轉換的文件,這里以WORD為例子,就是我編寫的這個帖子吧:
然后在“文件”選項那選擇“打印”的選項:
之后來到打印的屬性窗口中,在這里可以有很多屬性可以供我們選擇,可謂是功能強大啊,在名稱中選擇“5D PDF CREATER”,打印內容中可以選擇本版面的文字和所有版面的文字等,而且還可以設置頁數和大小,想變成什么樣的PDF都可以,而且在打印機屬性中還可以設置變成PDF后的顏色,使它更加個性化:
另外在“打印”屬性中可以有如下選擇,調節A4的紙張大小和形狀,打印成PDF的文字。XML信息等等,而且選擇隱藏和背景色,最后確定:
最后會彈出對話框,我們可以更改文件名,保存的類型也很多,大家可以自己嘗試的,我們在這變換的是PDF形式,下面的就是5D PDF CREATER最強大的地方了,我們選的是“PRESS READY”這里可以自己研究著,里面有好多想不到的東西呢!呵呵!最后確定:
最后我們看看轉換的效果吧,由于我沒有加任何的特效所以很一樣的,大家可以根據自己的愛好著名自己的信息等等,防止別人更改等,很多人性的東西:
3.ScanSoft PDF Converter For Microsoft Word
我們平時下載的資料中,有許多都是以PDF格式發布的,但有時需要將PDF文檔中的信息轉換到Word中進行編輯,使用復制粘貼的方法雖然可以將文字、圖片等信息轉移到Word中,但是原PDF文檔中的格式、字體等信息就會丟失,編輯起來很不方便,我們可以使用ScanSoft公司發布的“PDF Converter”插件來完成從PDF文檔向Word文檔的轉換工作。
下載并安裝“PDF Converter”后,將Word文檔的“打開”對話框的“文件類型”改為“所有文件”,使用Word加載PDF文檔,插件會自動啟動并進行轉換,轉換后的格式、圖片位置等信息基本上可以保持原有PDF文檔的風格。
說明:
文中介紹的插件和模板都是基于Word2003的。大部分第三方插件都是基于Word中的宏來嵌入和運行。Word2003出于對文檔安全性的考慮,將宏的安全性默認為“高”,使得一些第三方插件無法運行。您在使用本文介紹的插件時,可以將Word2003中的“宏安全性”設置為“中”。
具體設置方法為:打開一個Word文檔,將||下的“安全級”設置為“中”。在運行下面介紹的插件時,Word會彈出“安全警告”對話框,如果確認是自己所安裝的插件,就可以單擊“啟用宏”來運行此插件。
4.舉辦國際會議,有時候會遇到外國參加者無法閱讀我們制作的pdf文件
那是因為我們用中文系統,轉化之后,對方無法辨識中文字符集。
這時候可以用嵌入字體和調整顏色設置來解決,當然,相應的,文件也會變得比較大。
具體操作如下:
1,安裝acrobat 完整版(不是Acrobat Reader,是Acrobat)。
2,打開word(ppt)文檔 。
3,單擊菜單中“文件”,選擇“打印” 。
4,在打印機中選擇 Acrobat Distiller,單擊右側的“屬性” 。
5,點到“Adobe PDF 設置”,選擇“編輯轉換設置” 。
6,點到“字體”,把“嵌入所有字體”打上勾(這一步很關鍵啊!)。
7,點到“顏色”,把”設置文件“從“無”改為“歐洲印前默認設置”(關鍵!關鍵!) 。
8,點擊右側的“確定”或者“另存為”,都會跳出對話框,讓你保存當前設置。(選個好記的名字吧,比如gUT)
9,存好后,再次點擊“確定”退回到“Adobe PDF 設置”,這時候的轉換設置已經變成新設置了,如“gUT”。
10,點擊“確定”,再點擊“確定”打印,就產出一個能夠在非中文系統中辨認的pdf文件了。
11,記得下次重新開啟office并進行Distiller打印的時候,要重新選擇一下轉換設置,在設置中選中“gUT”就可以了
5.將帶有鏈接的DOC文件轉成PDF
如果將100多個帶有大量鏈接的DOC文件轉換PDF文件,應該怎么做?
利用Adobe Acrobat6.0的“從網頁創建PDF”(快捷鍵為“Shift+Ctrl+O”)轉換功能就可以輕松實現上述要求。
1.將需要轉換的DOC文件放置于同一個文件夾中,打開Word2003,依次打開“文件→新建→新建文檔→模板→本機上的模板→其他文檔→轉換向導”,啟用“轉換向導”。
2.單擊“下一步”按鈕選擇轉換方式,這里選擇將DOC文件轉換為HTML文件,繼續選擇“源文件夾”和“目標文件夾”,最后確定需要轉換的文件,點擊“完成”。至此,就完成了文件格式的轉換。
接下來你應該知道怎么做了吧。只有打開Acrobat將一個個HTML文件轉換為PDF文件,就可以輕松完成這個看似繁重的任務。
6.免費的PDF打印機,我試過用它把doc文件轉成pdf文件,非常好用!!
介紹:
下載地址:
Free Download (1.6MB) (Vista Ready)
開發者:
需要PS2PDF converter 的支持,可以從 這里下載免費的 GPL Ghostscript 8.15 。
7.如何用acrobat 8.0 8.1將PDF轉換導出為DOC?中文版兼容于vista。以前我們想將PDF轉換為word(*.doc),通常用以下兩種方法:
ScanSoft PDF Converter for Microsoft Word 它是由ScanSoft公司和微軟共同組隊開發的一個Word的插件,它可以讓你在沒有Adobe Acrobat軟件的情況下,將PDF文檔轉化為Word文檔。它首先捕獲PDF文檔中的信息,分離文字、圖片、表格和卷,再將其統一到Word格式,并且基本上完全保留原來的格式和版面設計。所以它的轉化效果是比較理想的了,但是軟件比較大(我當初用的版本有200MB左右,現在似乎小了不少,但是我沒有再用過它),而且轉化速度比較慢。
該軟件安裝完成后,會自動嵌入到word中。如果沒有嵌入,可以在word工具欄的空白處單擊鼠標右鍵,將它打勾選擇。它可以作為單獨的軟件啟動,也可以在word界面中啟動。它的轉化方法如下:
1. 在Word界面,直接通過“文件”?>“打開”來打開需要轉化的PDF文件。
2. 此時插件會自動彈出,在分析完PDF文件后即可自動轉換成DOC格式的文檔。
總結:在以前的使用過程當中,我發現它的轉化效果很理想。比如,把一篇doc文檔轉換為pdf之后,用它轉換為doc;然后又把它轉換為pdf,再轉換為doc;如此反復多次之后,doc文檔的資料丟失率很低,版面保持得不錯,不是很亂。所以,它是比較理想的轉換工具。
PDF 2 Word PDF 2 Word是一個獨立運行的小軟件,而非插件。它的版本很多,有的版本不需要安裝,直接運行exe程序后,在軟件界面中選擇pdf、設置doc輸出路徑即可。
總結:它在載入比較大的pdf文件時會稍慢一些,轉換速度非常快,對于圖片和文檔格式的識別不是很好。轉化后,文字基本保持格式,且都是在文本框當中;圖片則會有些錯位,不好進行設置,且容易和帶文字的文本框重疊。但是,它基本很少丟失東西,對于這樣小巧玲瓏的軟件,這就不錯了。
以前即便用acrobat professional 7.0來轉換pdf,出來的結果也是慘不忍睹, 現在好了,Adobe Acrobat 8.0 8.1 Professional 簡體中文版 進行轉換真是又快又好。方法也很簡單,直接在文件菜單上選擇 另存為 save as,就可以在保存的文件類型中選擇 word格式了。
在測試的PDF中包括 圖片,表格,還有文字但是沒有公式。轉換以后版式保持很完整,沒有變形。今天嘗試轉換了一個544頁帶圖片,文字的PDF文件花費20