很多人認為數位典藏就是拍照或掃描儲存。但真正的數位典藏,除了系統之外,至少包括數位化與後設資料(metadata )兩個層次。
數位化的部份,最主要的問題是兩個:用什麼樣的規格(拍照或掃描?檔案格式如何?解析度如何?)與如何保存;而後設資料則涉及到這批材料如何運用的問題,這一部份是圖資、資訊科學、博物館學、檔案管理、歷史學的領域。
後設資料除了標示原始材料與數位資料的基本規格資訊(物理尺寸、重量、格式、材質等等)之外,更重要的是要標示檔案涵蓋了哪些內容,與哪些人事物有關,甚至與其他的檔案關係如何。
我們可以用公版的後設資料,如一般常用的都柏林核心集(Dublin Core),便是一套發展地非常完整,可以視情況調整的後設資料格式。都柏林核心集規範了15種基本元素。假使不遵循普通的國際標準,那麼至少會標示人、事、時、地、物、機構、組織等事項。
而針對特定的檔案,也可以做特殊的設定。例如,若是判決書,那麼可以特別設置判決法官、適用法規、刑期等等的欄位;如果是地契,那麼承買人、出賣人、圖章都是可以特殊注記的欄位。比較細緻的,會有文件摘要,這就得要有人讀完整份文件,然後給一段簡短的描述。
這部份通常要與系統互相搭配:你想讓搜尋可以細到什麼樣的地步,那麼就可以設多細的欄位。
當然,最細緻的,是全文key-in。這部份就得看這些檔案是否字跡整齊,如果整齊的話,那相對容易——清代的奏摺與起居注是最標準的例子,這些文書都有專人抄寫,字跡絕對工整,這類史料的問題是句讀。而如果是鉛字,甚至可以用OCR處理後再核對。
c. 政治案件檔案該如何公開?
因此,除非再生.com沒有短期內交給檔案管理局的意願,那麼由再生.com找人做完整「數位典藏」,可以說是不可能的事情。
不過,PTT上也有網友提出了另一種方式:先數位化之後,再公開由群眾進行後設資料或打字的工作。這樣的方式可行嗎?
這裡涉及的問題是:檔案應該如何公開?
從研究者的角度而言,檔案越公開是越方便,我們也都希望檔案能夠儘快地、儘量完整地公開。但,這並非唯一的準則:檔案是否公開,得視檔案的內容而定。
許多人期待檔案公開,能夠讓大家知道誰是加害者,但就轉型正義而言,最優先的議題,是恢復、保護受害者的權利。從這一點思考切入,有真,也有假,更可能涉及受害者的隱私(例如家庭狀況調查、跟監資料等等,不過我們並不確定這批檔案中是否包含這些文件)的白色恐怖檔案是否適合直接公開?