標題:
[教學] 電子書文章轉為Word文檔的方法
[打印本頁]
作者:
ssvmw
時間:
2006-11-1 11:58 PM
標題:
[教學] 電子書文章轉為Word文檔的方法
各种识别软件对电子图书馆文章的识别各有缺陷,有的只能识别字,对表格和图形无能为力;有的识别后生成的版面乱七八糟,无法使用。
还在为不同格式的文件怎么变成Word文件发愁吗?现在好了,本文给出了所有情况下全文件表格、图形、文字识别的完美解决方案,帮助大家掌握正确方法,节省时间:
1、PDF文件的识别
1)文件可以直接识别的(以文本形式保存的PDF文件):安装acrobat 7专业版,注意不是acrobat reader,直接另存为rtf文件(识别整个文件),或者选择工具栏上的文字选择按钮,然后选择文字区域,然后复制到Word等中。
2)文件不能直接识别的(以图片形式保存的PDF文件):安装office2003,并装上office工具Microsoft Office Document Imaging(完全安装此工具),然后在打印机里面会增加Microsoft Office Document Image Writer打印机,然后将PDF文件打印到此打印机,选择打印形成的文件的保存位置,然后会自动形成一个MDI文件,并且自动用Microsoft Office Document Image打开此文件,然后选择“工具”菜单下的“使用ocr识别文本”,识别完成后,在选择“工具”下的,“将文本发送到Word”,最后将把整个PDF文件识别输出到Word文件中。
注意:Microsoft Office Document Image可以非常准确的全文件识别转化中文、英文、表格,但是无法将图形输出到Word,而是把文件中的所有图形单独形成一个个独立的图片文件,放在相同位置的一个相同名称的文件夹中,因此可用snagit软件将图形打开,然后复制到Word中。(所有的识别软件都不能很好的处理图形的识别问题,Microsoft Office Document Image的这种处理方法已经是非常好的解决这个问题了。)
3)加密的Pdf文件:先下载解密软件,解密后在参看1),2)
4)繁体pdf文件:用2)的方法识别到Word后,用Word中的“工具”--“语言”---“中文繁简转换”
2、caj文件的识别:
1)局部文字识别:直接使用caj浏览器的ocr
2)全文件识别:打印到Microsoft Office Document Image Writer打印机,后面和上面的2)操作一样
3)博硕论文全文下载:在线阅读博硕论文,待可以看到最后一页后,不要关闭caj浏览器,到caj安装目录下cache中找到一个较大的文件,拷贝到其他位置即可。然后使用2)全部转化为Word。
3、超星文件的识别:
1)局部文字识别:直接使用超星浏览器的ocr
2)全文件识别:打印到Microsoft Office Document Image Writer打印机,后面和上面的2)操作一样,要注意的是,超星打印功能有点区别,因为超星是目录和全文分开的,所以打印时,需要分别把目录和正文识别到Word中,在合并到一起。打印时要填入打印页码从1到最后一页,不要选择打印全部。此外在打印选项中,还要将页面比例设成真实大小,而不是整宽。注意:识别速度比其他格式要慢很多,请保持耐心,但是最后当你看到轻松的生成全本书的Word版本时,你会欣喜若狂的,呵呵。我的试验结果是一本280页的书,识别需要几分钟的时间。
3)超星相对比较麻烦一些,如果还有问题,可以先把超星打印成完整的pdf文件,然后在用1、的方法转成Word
4、其他情况下的识别:
使用snagit软件将任何形式的文字可以变成图片,例如使用snagit将屏幕拷贝成图片,然后右键点击图片文件,用microsoft Office Document Image打开图形,其他和2)一样。
注意:其他的各种识别软件请不要在用,因为要么只能识别中文,要么只能识别英文,要么不能识别整个文件,要么不能识别屏幕拷贝图像,要么识别误差很大,要么不能识别表格,要么需要注册,要么识别速度很慢,要么使用不便(和Word结合不紧),这些软件包括:紫光ocr,万方pdfocr,尚书,汉王,ScanSoft PDF Converter,pdf2Word,以及各种被推荐的软件等等,我都装过,现在都像LJ一样删除了。只要安装了acrobat 专业版,snagit,office2003,现在你可以完美的做任何事,最重要的是这几个软件很好得到。
针对一些问题的补充:
经过一些试验,发现microsoft Office Document Image 存在一些不稳定的问题,例如在用caj打印到Microsoft Office Document Image Writer打印机时,发现用caj5.5版本比较快,(caj5.5不能加升级补丁),而caj5.0有时出现假死机。
另外页面显示大时,转化的识别率较高。
如果页数多的文件,包括超星,如果有问题,可以分多次转化。
再次补充:
1、由于虚拟打印到Microsoft Office Document Image Writer 比较慢,并且形成的虚拟文件很大,1本200多页的书大约是60M,因此会严重影响机器的运行速度和C盘空间以及内存空间,建议配置好的机器一次转化不要超过200页,配置差的不要超过100页,同时打印时在右下角系统栏中会出现打印机图,你可以双击,看到打印任务的进度,以免以为死机了。另外转化完成后请删除c:\windows\temp目录下的虚拟打印文件,否则你的c盘很快会被用光。
2、建议如果发生打印到Microsoft Office Document Image Writer很慢或者假死的情况,可以先打印到snagit虚拟打印机,会自动生成tiff文件,速度比Microsoft Office Document Image Writer快,然后在snagit中,选择打印机为Microsoft Office Document Image Writer打印机,(相当于再打印到Microsoft Office Document Image Writer打印机),然后选择snagit---outputs下的printer,然后选择snagit----file----finish output,即可生成msi文件,其他一样。转化完成后请删除c:\windows\systems32\snagit临时文件
[
Last edited by TCG on 2006-11-15 at 06:34 PM
]
作者:
TCG
時間:
2006-11-15 06:32 PM
[教學] 電子書文章轉為Word文檔的方法
各種識別軟體對電子圖書館文章的識別各有缺陷,有的只能識別字,對表格和圖形無能為力;有的識別後生成的版面亂七八糟,無法使用。
還在為不同格式的文件怎麼變成Word文件發愁嗎?現在好了,本文給出了所有情況下全文件表格、圖形、文字識別的完美解決方案,幫助大家掌握正確方法,節省時間:
1、PDF文件的識別
1)文件可以直接識別的(以文本形式保存的PDF文件):安裝acrobat 7專業版,注意不是acrobat reader,直接另存為rtf文件(識別整個文件),或者選擇工具欄上的文字選擇按鈕,然後選擇文字區域,然後複製到Word等中。
2)文件不能直接識別的(以圖片形式保存的PDF文件):安裝office2003,並裝上office工具Microsoft Office Document Imaging(完全安裝此工具),然後在印表機裡面會增加Microsoft Office Document Image Writer印表機,然後將PDF文件列印到此印表機,選擇列印形成的文件的保存位置,然後會自動形成一個MDI文件,並且自動用Microsoft Office Document Image打開此文件,然後選擇「工具」功能表下的「使用ocr識別文本」,識別完成後,在選擇「工具」下的,「將文本發送到Word」,最後將把整個PDF文件識別輸出到Word文件中。
注意:Microsoft Office Document Image可以非常準確的全文件識別轉化中文、英文、表格,但是無法將圖形輸出到Word,而是把文件中的所有圖形單獨形成一個個獨立的圖片文件,放在相同位置的一個相同名稱的文件夾中,因此可用snagit軟體將圖形打開,然後複製到Word中。(所有的識別軟體都不能很好的處理圖形的識別問題,Microsoft Office Document Image的這種處理方法已經是非常好的解決這個問題了。)
3)加密的Pdf文件:先下載解密軟體,解密後在參看1),2)
4)繁體pdf文件:用2)的方法識別到Word後,用Word中的「工具」--「語言」---「中文繁簡轉換」
2、caj文件的識別:
1)局部文字識別:直接使用caj瀏覽器的ocr
2)全文件識別:列印到Microsoft Office Document Image Writer印表機,後面和上面的2)操作一樣
3)博碩論文全文下載:在線閱讀博碩論文,待可以看到最後一頁後,不要關閉caj瀏覽器,到caj安裝目錄下cache中找到一個較大的文件,拷貝到其他位置即可。然後使用2)全部轉化為Word。
3、超星文件的識別:
1)局部文字識別:直接使用超星瀏覽器的ocr
2)全文件識別:列印到Microsoft Office Document Image Writer印表機,後面和上面的2)操作一樣,要注意的是,超星列印功能有點區別,因為超星是目錄和全文分開的,所以列印時,需要分別把目錄和正文識別到Word中,在合併到一起。列印時要填入列印頁碼從1到最後一頁,不要選擇列印全部。此外在列印選項中,還要將頁面比例設成真實大小,而不是整寬。注意:識別速度比其他格式要慢很多,請保持耐心,但是最後當你看到輕鬆的生成全本書的Word版本時,你會欣喜若狂的,呵呵。我的試驗結果是一本280頁的書,識別需要幾分鐘的時間。
3)超星相對比較麻煩一些,如果還有問題,可以先把超星列印成完整的pdf文件,然後在用1、的方法轉成Word
4、其他情況下的識別:
使用snagit軟體將任何形式的文字可以變成圖片,例如使用snagit將螢幕拷貝成圖片,然後右鍵點擊圖片文件,用microsoft Office Document Image打開圖形,其他和2)一樣。
注意:其他的各種識別軟體請不要在用,因為要麼只能識別中文,要麼只能識別英文,要麼不能識別整個文件,要麼不能識別螢幕拷貝圖像,要麼識別誤差很大,要麼不能識別表格,要麼需要註冊,要麼識別速度很慢,要麼使用不便(和Word結合不緊),這些套裝軟體括:紫光ocr,萬方pdfocr,尚書,漢王,ScanSoft PDF Converter,pdf2Word,以及各種被推薦的軟體等等,我都裝過,現在都像LJ一樣刪除了。只要安裝了acrobat 專業版,snagit,office2003,現在你可以完美的做任何事,最重要的是這幾個軟體很好得到。
針對一些問題的補充:
經過一些試驗,發現microsoft Office Document Image 存在一些不穩定的問題,例如在用caj列印到Microsoft Office Document Image Writer印表機時,發現用caj5.5版本比較快,(caj5.5不能加升級補丁),而caj5.0有時出現假死機。
另外頁面顯示大時,轉化的識別率較高。
如果頁數多的文件,包括超星,如果有問題,可以分多次轉化。
再次補充:
1、由於虛擬列印到Microsoft Office Document Image Writer 比較慢,並且形成的虛擬文件很大,1本200多頁的書大約是60M,因此會嚴重影響機器的運行速度和C盤空間以及記憶體空間,建議配置好的機器一次轉化不要超過200頁,配置差的不要超過100頁,同時列印時在右下角系統欄中會出現印表機圖,你可以雙擊,看到列印任務的進度,以免以為死機了。另外轉化完成後請刪除c:\windows\temp目錄下的虛擬列印文件,否則你的c盤很快會被用光。
2、建議如果發生列印到Microsoft Office Document Image Writer很慢或者假死的情況,可以先列印到snagit虛擬印表機,會自動生成tiff文件,速度比Microsoft Office Document Image Writer快,然後在snagit中,選擇印表機為Microsoft Office Document Image Writer印表機,(相當於再列印到Microsoft Office Document Image Writer印表機),然後選擇snagit---outputs下的printer,然後選擇snagit----file----finish output,即可生成msi文件,其他一樣。轉化完成後請刪除c:\windows\systems32\snagit臨時文件
註:TCG特將本文簡換繁以饗讀者
[
Last edited by TCG on 2006-11-15 at 06:34 PM
]
作者:
sandra0807
時間:
2007-1-23 01:59 PM
感謝你的分享,你將造福所有人。
作者:
aki
時間:
2007-2-5 11:52 AM
版主,感謝你將這篇由簡體轉成繁體,省了一些頭痛時間。
作者:
xp20060726
時間:
2007-3-18 01:15 AM
標題:
謝謝您們的分享!
起碼看WORD檔的資料方便多了!
謝謝分享!!!
作者:
ironchan
時間:
2007-3-18 01:29 PM
感謝版主把文章轉成繁體
不用費神慢慢推敲內容
省下不少時間
作者:
小些
時間:
2007-3-19 09:36 PM
感謝原著也感謝tcg版大..
文章繁體化對我們來說是比較方便的..
省得自己來囉~~
謝謝啦..
作者:
waitai
時間:
2007-4-11 02:16 AM
感謝熱心提供分享, 下來試試,謝謝分享,試試學習!!
作者:
tsjking
時間:
2007-4-14 10:46 AM
謝謝ssvmw 大提供資訊,也感謝TCG版主將簡轉繁,看的比較清楚
易懂,這方法沒試過,很有有興趣,就來試用看看,熱心推薦
作者:
ntconjohn
時間:
2007-4-28 08:22 PM
謝謝版主繁體化,這篇文章很專業,值得研究!!
歡迎光臨 網際論壇 (http://centurys.net/)
Powered by Discuz! 2.5