網際論壇 - 軟體綜合研討 - [教學] 電子書文章轉為Word文檔的方法
» 遊客:  註冊 | 登錄 | 會員 | 幫助
 

免費線上小說
動漫分類 : 最新上架熱門連載全本小說最新上架玄幻奇幻都市言情武俠仙俠軍事歷史網游競技科幻靈異 ... 更多小說

作者:
標題: [教學] 電子書文章轉為Word文檔的方法 上一主題 | 下一主題
  ssvmw
  中級會員 
 



  積分 1117
  發文 107
  註冊 2006-7-10
  狀態 離線
#1  [教學] 電子書文章轉為Word文檔的方法

各种识别软件对电子图书馆文章的识别各有缺陷,有的只能识别字,对表格和图形无能为力;有的识别后生成的版面乱七八糟,无法使用。
还在为不同格式的文件怎么变成Word文件发愁吗?现在好了,本文给出了所有情况下全文件表格、图形、文字识别的完美解决方案,帮助大家掌握正确方法,节省时间:
  1、PDF文件的识别
  1)文件可以直接识别的(以文本形式保存的PDF文件):安装acrobat 7专业版,注意不是acrobat reader,直接另存为rtf文件(识别整个文件),或者选择工具栏上的文字选择按钮,然后选择文字区域,然后复制到Word等中。
  2)文件不能直接识别的(以图片形式保存的PDF文件):安装office2003,并装上office工具Microsoft Office Document Imaging(完全安装此工具),然后在打印机里面会增加Microsoft Office Document Image Writer打印机,然后将PDF文件打印到此打印机,选择打印形成的文件的保存位置,然后会自动形成一个MDI文件,并且自动用Microsoft Office Document Image打开此文件,然后选择“工具”菜单下的“使用ocr识别文本”,识别完成后,在选择“工具”下的,“将文本发送到Word”,最后将把整个PDF文件识别输出到Word文件中。
  注意:Microsoft Office Document Image可以非常准确的全文件识别转化中文、英文、表格,但是无法将图形输出到Word,而是把文件中的所有图形单独形成一个个独立的图片文件,放在相同位置的一个相同名称的文件夹中,因此可用snagit软件将图形打开,然后复制到Word中。(所有的识别软件都不能很好的处理图形的识别问题,Microsoft Office Document Image的这种处理方法已经是非常好的解决这个问题了。)
  3)加密的Pdf文件:先下载解密软件,解密后在参看1),2)
  4)繁体pdf文件:用2)的方法识别到Word后,用Word中的“工具”--“语言”---“中文繁简转换”
  2、caj文件的识别:
  1)局部文字识别:直接使用caj浏览器的ocr
  2)全文件识别:打印到Microsoft Office Document Image Writer打印机,后面和上面的2)操作一样
  3)博硕论文全文下载:在线阅读博硕论文,待可以看到最后一页后,不要关闭caj浏览器,到caj安装目录下cache中找到一个较大的文件,拷贝到其他位置即可。然后使用2)全部转化为Word。
  3、超星文件的识别:
  1)局部文字识别:直接使用超星浏览器的ocr
  2)全文件识别:打印到Microsoft Office Document Image Writer打印机,后面和上面的2)操作一样,要注意的是,超星打印功能有点区别,因为超星是目录和全文分开的,所以打印时,需要分别把目录和正文识别到Word中,在合并到一起。打印时要填入打印页码从1到最后一页,不要选择打印全部。此外在打印选项中,还要将页面比例设成真实大小,而不是整宽。注意:识别速度比其他格式要慢很多,请保持耐心,但是最后当你看到轻松的生成全本书的Word版本时,你会欣喜若狂的,呵呵。我的试验结果是一本280页的书,识别需要几分钟的时间。
  3)超星相对比较麻烦一些,如果还有问题,可以先把超星打印成完整的pdf文件,然后在用1、的方法转成Word
  4、其他情况下的识别:
  使用snagit软件将任何形式的文字可以变成图片,例如使用snagit将屏幕拷贝成图片,然后右键点击图片文件,用microsoft Office Document Image打开图形,其他和2)一样。
  注意:其他的各种识别软件请不要在用,因为要么只能识别中文,要么只能识别英文,要么不能识别整个文件,要么不能识别屏幕拷贝图像,要么识别误差很大,要么不能识别表格,要么需要注册,要么识别速度很慢,要么使用不便(和Word结合不紧),这些软件包括:紫光ocr,万方pdfocr,尚书,汉王,ScanSoft PDF Converter,pdf2Word,以及各种被推荐的软件等等,我都装过,现在都像LJ一样删除了。只要安装了acrobat 专业版,snagit,office2003,现在你可以完美的做任何事,最重要的是这几个软件很好得到。
  针对一些问题的补充:
  经过一些试验,发现microsoft Office Document Image 存在一些不稳定的问题,例如在用caj打印到Microsoft Office Document Image Writer打印机时,发现用caj5.5版本比较快,(caj5.5不能加升级补丁),而caj5.0有时出现假死机。
  另外页面显示大时,转化的识别率较高。
  如果页数多的文件,包括超星,如果有问题,可以分多次转化。
  再次补充:
  1、由于虚拟打印到Microsoft Office Document Image Writer 比较慢,并且形成的虚拟文件很大,1本200多页的书大约是60M,因此会严重影响机器的运行速度和C盘空间以及内存空间,建议配置好的机器一次转化不要超过200页,配置差的不要超过100页,同时打印时在右下角系统栏中会出现打印机图,你可以双击,看到打印任务的进度,以免以为死机了。另外转化完成后请删除c:\windows\temp目录下的虚拟打印文件,否则你的c盘很快会被用光。
  2、建议如果发生打印到Microsoft Office Document Image Writer很慢或者假死的情况,可以先打印到snagit虚拟打印机,会自动生成tiff文件,速度比Microsoft Office Document Image Writer快,然后在snagit中,选择打印机为Microsoft Office Document Image Writer打印机,(相当于再打印到Microsoft Office Document Image Writer打印机),然后选择snagit---outputs下的printer,然后选择snagit----file----finish output,即可生成msi文件,其他一样。转化完成后请删除c:\windows\systems32\snagit临时文件

[ Last edited by TCG on 2006-11-15 at 06:34 PM ]


2006-11-1 11:58 PM
查看資料  發短消息   編輯文章  引用回覆
  TCG
  區版主 
  論壇我最老,人老心未老。


 
  積分 14326
  發文 895
  註冊 2005-8-31
  狀態 離線
#2  

[教學] 電子書文章轉為Word文檔的方法

各種識別軟體對電子圖書館文章的識別各有缺陷,有的只能識別字,對表格和圖形無能為力;有的識別後生成的版面亂七八糟,無法使用。
還在為不同格式的文件怎麼變成Word文件發愁嗎?現在好了,本文給出了所有情況下全文件表格、圖形、文字識別的完美解決方案,幫助大家掌握正確方法,節省時間:
  1、PDF文件的識別
  1)文件可以直接識別的(以文本形式保存的PDF文件):安裝acrobat 7專業版,注意不是acrobat reader,直接另存為rtf文件(識別整個文件),或者選擇工具欄上的文字選擇按鈕,然後選擇文字區域,然後複製到Word等中。
  2)文件不能直接識別的(以圖片形式保存的PDF文件):安裝office2003,並裝上office工具Microsoft Office Document Imaging(完全安裝此工具),然後在印表機裡面會增加Microsoft Office Document Image Writer印表機,然後將PDF文件列印到此印表機,選擇列印形成的文件的保存位置,然後會自動形成一個MDI文件,並且自動用Microsoft Office Document Image打開此文件,然後選擇「工具」功能表下的「使用ocr識別文本」,識別完成後,在選擇「工具」下的,「將文本發送到Word」,最後將把整個PDF文件識別輸出到Word文件中。
  注意:Microsoft Office Document Image可以非常準確的全文件識別轉化中文、英文、表格,但是無法將圖形輸出到Word,而是把文件中的所有圖形單獨形成一個個獨立的圖片文件,放在相同位置的一個相同名稱的文件夾中,因此可用snagit軟體將圖形打開,然後複製到Word中。(所有的識別軟體都不能很好的處理圖形的識別問題,Microsoft Office Document Image的這種處理方法已經是非常好的解決這個問題了。)
  3)加密的Pdf文件:先下載解密軟體,解密後在參看1),2)
  4)繁體pdf文件:用2)的方法識別到Word後,用Word中的「工具」--「語言」---「中文繁簡轉換」
  2、caj文件的識別:
  1)局部文字識別:直接使用caj瀏覽器的ocr
  2)全文件識別:列印到Microsoft Office Document Image Writer印表機,後面和上面的2)操作一樣
  3)博碩論文全文下載:在線閱讀博碩論文,待可以看到最後一頁後,不要關閉caj瀏覽器,到caj安裝目錄下cache中找到一個較大的文件,拷貝到其他位置即可。然後使用2)全部轉化為Word。
  3、超星文件的識別:
  1)局部文字識別:直接使用超星瀏覽器的ocr
  2)全文件識別:列印到Microsoft Office Document Image Writer印表機,後面和上面的2)操作一樣,要注意的是,超星列印功能有點區別,因為超星是目錄和全文分開的,所以列印時,需要分別把目錄和正文識別到Word中,在合併到一起。列印時要填入列印頁碼從1到最後一頁,不要選擇列印全部。此外在列印選項中,還要將頁面比例設成真實大小,而不是整寬。注意:識別速度比其他格式要慢很多,請保持耐心,但是最後當你看到輕鬆的生成全本書的Word版本時,你會欣喜若狂的,呵呵。我的試驗結果是一本280頁的書,識別需要幾分鐘的時間。
  3)超星相對比較麻煩一些,如果還有問題,可以先把超星列印成完整的pdf文件,然後在用1、的方法轉成Word
  4、其他情況下的識別:
  使用snagit軟體將任何形式的文字可以變成圖片,例如使用snagit將螢幕拷貝成圖片,然後右鍵點擊圖片文件,用microsoft Office Document Image打開圖形,其他和2)一樣。
  注意:其他的各種識別軟體請不要在用,因為要麼只能識別中文,要麼只能識別英文,要麼不能識別整個文件,要麼不能識別螢幕拷貝圖像,要麼識別誤差很大,要麼不能識別表格,要麼需要註冊,要麼識別速度很慢,要麼使用不便(和Word結合不緊),這些套裝軟體括:紫光ocr,萬方pdfocr,尚書,漢王,ScanSoft PDF Converter,pdf2Word,以及各種被推薦的軟體等等,我都裝過,現在都像LJ一樣刪除了。只要安裝了acrobat 專業版,snagit,office2003,現在你可以完美的做任何事,最重要的是這幾個軟體很好得到。
  針對一些問題的補充:
  經過一些試驗,發現microsoft Office Document Image 存在一些不穩定的問題,例如在用caj列印到Microsoft Office Document Image Writer印表機時,發現用caj5.5版本比較快,(caj5.5不能加升級補丁),而caj5.0有時出現假死機。
  另外頁面顯示大時,轉化的識別率較高。
  如果頁數多的文件,包括超星,如果有問題,可以分多次轉化。
  再次補充:
  1、由於虛擬列印到Microsoft Office Document Image Writer 比較慢,並且形成的虛擬文件很大,1本200多頁的書大約是60M,因此會嚴重影響機器的運行速度和C盤空間以及記憶體空間,建議配置好的機器一次轉化不要超過200頁,配置差的不要超過100頁,同時列印時在右下角系統欄中會出現印表機圖,你可以雙擊,看到列印任務的進度,以免以為死機了。另外轉化完成後請刪除c:\windows\temp目錄下的虛擬列印文件,否則你的c盤很快會被用光。
  2、建議如果發生列印到Microsoft Office Document Image Writer很慢或者假死的情況,可以先列印到snagit虛擬印表機,會自動生成tiff文件,速度比Microsoft Office Document Image Writer快,然後在snagit中,選擇印表機為Microsoft Office Document Image Writer印表機,(相當於再列印到Microsoft Office Document Image Writer印表機),然後選擇snagit---outputs下的printer,然後選擇snagit----file----finish output,即可生成msi文件,其他一樣。轉化完成後請刪除c:\windows\systems32\snagit臨時文件

註:TCG特將本文簡換繁以饗讀者

[ Last edited by TCG on 2006-11-15 at 06:34 PM ]




春有百花秋有月夏有涼風冬有雪若無閒事掛心頭便是人間好時節!部落格http://tw.myblog.yahoo.com/jw!ka8oBNqLHQP2uH53B_9i
非以役人,乃役於人。己所不欲,勿施於人。
2006-11-15 06:32 PM
查看資料  發送郵件  發短消息   編輯文章  引用回覆
  sandra0807
  一般會員 
 


  積分 368
  發文 18
  註冊 2005-9-7
  狀態 離線
#3  

感謝你的分享,你將造福所有人。

2007-1-23 01:59 PM
查看資料  發短消息   編輯文章  引用回覆
  aki
  VIP會員 
 


 
  積分 2125
  發文 65
  註冊 2005-12-24
  狀態 離線
#4  

版主,感謝你將這篇由簡體轉成繁體,省了一些頭痛時間。

2007-2-5 11:52 AM
查看資料  發短消息   編輯文章  引用回覆
  xp20060726
  榮譽會員 
  隨緣放下,輕安自在.



 
  積分 82058
  發文 8761
  註冊 2006-7-26
  來自 無緣大慈,同體大悲.
  狀態 離線
#5  謝謝您們的分享!

起碼看WORD檔的資料方便多了!
謝謝分享!!!


2007-3-18 01:15 AM
查看資料  發短消息   編輯文章  引用回覆
  ironchan
  資深會員 
 



  積分 3249
  發文 374
  註冊 2005-9-5
  來自 hongkong
  狀態 離線
#6  

感謝版主把文章轉成繁體
不用費神慢慢推敲內容
省下不少時間


2007-3-18 01:29 PM
查看資料  發送郵件  發短消息   編輯文章  引用回覆
  小些
  基本會員 
 



  積分 103
  發文 19
  註冊 2006-7-23
  狀態 離線
#7  

感謝原著也感謝tcg版大..
文章繁體化對我們來說是比較方便的..
省得自己來囉~~
謝謝啦..


2007-3-19 09:36 PM
查看資料  發短消息   編輯文章  引用回覆
  waitai
  資深會員 
 



  積分 4088
  發文 597
  註冊 2005-9-14
  來自 Hong Kong
  狀態 離線
#8  

感謝熱心提供分享, 下來試試,謝謝分享,試試學習!!

2007-4-11 02:16 AM
查看資料  發送郵件  發短消息   編輯文章  引用回覆
  tsjking
  高級會員 
 


  積分 6906
  發文 982
  註冊 2007-1-20
  來自 台灣台東
  狀態 離線
#9  

謝謝ssvmw 大提供資訊,也感謝TCG版主將簡轉繁,看的比較清楚
易懂,這方法沒試過,很有有興趣,就來試用看看,熱心推薦




有下有回真君子!有下無回真小人
2007-4-14 10:46 AM
查看資料  發短消息   編輯文章  引用回覆
  ntconjohn
  VIP會員 
 



  積分 2644
  發文 274
  註冊 2005-10-15
  狀態 離線
#10  

謝謝版主繁體化,這篇文章很專業,值得研究!!

2007-4-28 08:22 PM
查看資料  發短消息   編輯文章  引用回覆

可打印版本 | 推薦給朋友 | 訂閱主題 | 收藏主題

論壇跳轉選單: