當前位置:企業新聞
圖書數字化的加工
圖書文獻數字化主要流程
1、圖書拆分:掃描前拆除裝訂過的圖書
2、圖書掃描:根據項目掃描要求選擇掃描儀
3、圖書處理:對掃描的圖片進行深加工處理
4、識別校對:對圖像進行全文識別校對
5、索引制作:利用軟件進行標注或人工標引
6、裝訂還原:膠狀或線裝的方式裝訂還原
圖書數字化的種類
第一類:全文圖像化,有簡單的目錄索引
這種類型的圖書數字化,僅僅是將紙質的資料利用掃描儀掃描成圖像文件,并進行簡單的編目,提供目錄索引,而不做正文文字的識別。
第二類:全文文本化,可全文檢索
這種類型的圖書數字化,全部利用人工錄入,建立全文文本化的電子資料,可以提供全文檢索。
第三類:全文圖像文本化,可全文檢索
這種類型的圖書數字化,在提供紙質資料的掃描圖像文件后,還進行了人工錄入或者OCR識別,為圖書建立了全文文本,因此可以提供全文檢索。
第四類:基于原版原樣的,可全文檢索
這種類型的圖書數字化,利用掃描儀將紙質資料掃描加工成圖像文件,再通過OCR工廠,識別成能夠保留原始版面樣式的文本化的文件(如:rtf、pdf格式),它既保留了版面的信息,又是全文文本化的,可以提供全文的檢索。
四種加工類型的比較