古籍數位化方案(數位化助古籍走出)
2023-04-12 02:11:22 2
安徽博物院文物科技保護中心紙質文物修復室的工作人員對古籍文物進行修復。新華社記者 周 牧攝
為查閱古籍文獻,要出差到各地,探訪各家圖書館——這是許多古籍研究者的共同記憶。在數字時代,這種情況正發生改變。國家圖書館(國家古籍保護中心)等6家單位近日在線新增發布古籍數字資源6786部(件)。至此,全國已累計在線發布古籍數字資源13萬部(件)。依託數位化手段,卷帙浩繁的古籍走出「深閨高閣」,讓文明觸手可及。
兼顧「藏」與「用」
古籍,作為文物必須保護,作為文獻必須為讀者所用。兼顧「藏」與「用」,一直是古籍保護工作的重點,而數位化是最好的方法。中國古籍數位化起步於20世紀90年代。隨著數位技術不斷成熟,科技賦能古籍工作取得可喜進展。
「2016年國家圖書館搭建起『中華古籍資源庫』平臺,發布了普通古籍、甲骨、敦煌文獻等數字資源,並全部實現免登錄在線閱覽。」國家圖書館副研究員南江濤介紹,國家圖書館還聯合海內外收藏機構發布「法藏敦煌遺書」「天津圖書館古籍」「雲南省圖書館古籍」等,基本搭建「國家古籍數字平臺」架構。
隨著「中華古籍保護計劃」深入開展,各地圖書館陸續投入人力物力,大力推進古籍數位化。國家圖書館先後聯合39家單位發布數字古籍,1月4日是第7次聯合發布,其中不僅包含明清版刻,還有碑帖拓本等特色資源。相關數據顯示,在現有的13萬部(件)數字古籍中,超過10.2萬部(件)歸屬於「中華古籍資源庫」。
「這13萬部(件)古籍數字資源,對於我們研究者來說格外珍貴。」北京大學中文系教授楊海崢感嘆,在線查閱免去了往返奔波圖書館的時間,平衡了古籍的文物性與文獻性。
AI助力古籍整理
把紙質古籍轉化成數字文本,只是古籍保護的第一步。「現有的數字古籍大多由縮微膠片轉換而成,解析度低,使用也不方便。」楊海崢舉例解釋,這類古籍通常不具備檢索功能,想查閱某個內容,需逐篇逐頁閱讀原文,很難快速找到想要的知識。
人工智慧的快速發展,為數字古籍的整理分類帶來革命性變化。2022年10月,由字節跳動與北京大學數字人文研究中心合作研發的數字古籍平臺「識典古籍」便是一個生動案例。
進入「識典古籍」的網站,記者看到《周易》《左傳》《禮記》等陳列於首頁上。隨機點開一本,左側為章節目錄,右側為正文,排版形式既順應現代人的閱讀習慣,又還原了古籍紙張的閱讀美感。
「與一些數位化平臺不同,『識典古籍』是完全免費的,而且增加了簡繁體轉換、底本影像對照、全文檢索等一系列便捷功能。」抖音集團企業社會責任部產品總經理唐塏鑫介紹,該平臺主要應用了文字識別、自動標點和命名實體識別這3種技術,不僅能將影印本上的文字提取整理,還能通過序列標註識別文本中的人名、地名等信息,準確率達到96%至97%。
「平臺已整理上線了685部經典古籍,共計7900多萬字,主要來自《四部叢刊》。」唐塏鑫說,「識典古籍」已上線手機移動版,未來平臺中的書目將持續更新。
業內人士預測,隨著AI技術的運用,古籍文獻中所蘊藏的古代歷史文化知識將不斷被抽取,構造成各種各樣的知識庫,並將以知識圖譜的形式支持網際網路前端應用。
跨界合作成趨勢
事實上,在「識典古籍」上線之前,文保機構、科研院校與網際網路公司的跨界合作已越來越普遍。比如,騰訊聯合敦煌研究院開發了AI病害識別技術,幫助「問診」敦煌千年壁畫。
由於在產品研發、設計方面存在優勢,網際網路公司等社會力量的加入會進一步保障古籍數位化平臺的服務質量。「我們有優秀的產品經理、設計師、軟體工程師,能夠不斷優化數字古籍平臺的產品功能。」唐塏鑫說。
「識典古籍」的誕生離不開專家學者支持。北京大學數字人文研究中心主任王軍表示,北大在這次合作中負責人工審核與校對,彌補人工智慧有識別錯誤率的短板,並利用自有學術平臺,連接更多專業研究者和學生群體。
專家認為,在古籍整理中,人文社科學者要積極介入,並加強與技術人員的合作,那樣才能更好地利用機器而不是被機器牽著鼻子走,從而保證結果的準確性。
「高校古典文獻學等相關專業如何培養兼具技術與學術能力的複合型人才、如何形成多學科交叉的課程體系等,都是需要綜合考慮的問題。」王軍說(劉樂藝)
來源:人民日報海外版
,