喚醒古籍
中華古籍浩如煙海,凝結(jié)著先人智慧,記錄著綿延不絕的中華文明。
隨著歲月流逝,古籍正在慢慢“老去”,蟲蛀、絮化、粘連、缺損、霉蝕……稍不留神,極易受到損害。對(duì)珍貴古籍進(jìn)行保護(hù)、修復(fù)和活用,關(guān)乎中華文脈的延續(xù)和傳承。我國從2007年起實(shí)施“中華古籍保護(hù)計(jì)劃”,對(duì)全國古籍開展普查、登記入庫,保住了一大批珍貴的古籍。但由于總量多、各地能力參差不齊,古籍保護(hù)依然面臨很大壓力。古籍不能束之高閣,卻又太過嬌貴,很難滿足公眾查閱的需要。隨著科技快速發(fā)展,這些困擾人們已久的難題有了突破性進(jìn)展。
由北京大學(xué)數(shù)字人文研究中心主任、北京大學(xué)人工智能研究院副院長(zhǎng)王軍帶領(lǐng)的古籍?dāng)?shù)字化團(tuán)隊(duì)聯(lián)合企業(yè)開發(fā)的“識(shí)典古籍”平臺(tái),將古籍從紙頁“搬”到了網(wǎng)頁。目前已經(jīng)匯集1萬多部古籍,面向海內(nèi)外讀者免費(fèi)開放。
在科技的加持下,古籍不再遙遠(yuǎn)。先人智慧與現(xiàn)代科技交融碰撞于泛黃的書頁,一冊(cè)冊(cè)古書典籍“活”起來。
北京大學(xué)數(shù)字人文研究中心主任王軍
從紙到指端
登錄“識(shí)典古籍”平臺(tái),在網(wǎng)頁上點(diǎn)擊“進(jìn)入大典”按鈕,《永樂大典》的前世今生、編纂方法、歷史價(jià)值等信息,伴隨著書頁翻開的動(dòng)畫特效,緩緩地呈現(xiàn)在讀者眼前。
《永樂大典》被譽(yù)為世界有史以來最大的百科全書,匯集了先秦至明初各類典籍。但隨著時(shí)間的流逝,典籍幾經(jīng)散佚,副本存世不及原書的4%。對(duì)學(xué)者而言,它是學(xué)術(shù)研究的重要資料;對(duì)普通讀者來說,很難有機(jī)會(huì)閱讀到古籍文本。
如今,《永樂大典》高清影像數(shù)據(jù)庫(第一輯)已經(jīng)在“識(shí)典古籍”平臺(tái)上線,免費(fèi)向公眾開放。借助現(xiàn)代數(shù)字技術(shù),經(jīng)典古籍濃縮在方寸之間,只需動(dòng)動(dòng)手指,塵封已久的歷史畫卷就會(huì)徐徐展開,成為觸手可及的文化資源。
一本古籍,是如何從紙頁“搬”到網(wǎng)頁的?
走進(jìn)北京大學(xué)數(shù)字人文研究中心的古籍?dāng)?shù)字化實(shí)驗(yàn)室,王軍師生團(tuán)隊(duì)正在忙碌著——
平臺(tái)設(shè)計(jì)者、北京大學(xué)人工智能研究院副研究員楊浩正通過“識(shí)典古籍”平臺(tái),在線整理書庫資源。他面前電腦的屏幕左側(cè),顯示的是古籍書頁的高清圖片,右側(cè)為對(duì)照文字,“與平臺(tái)資源呈現(xiàn)形式相同,古籍的數(shù)字化也分圖像化和文本化兩步走?!彼?xì)細(xì)解讀,古籍影像掃描是古籍?dāng)?shù)字化的基礎(chǔ),但影像無法檢索,只有將圖像轉(zhuǎn)化成可以檢索的文字,才便于研究、閱讀和傳播。
首先就要對(duì)古籍進(jìn)行圖像化處理,這一步類似日常工作中的掃描文件,不過為了保護(hù)脆弱的古籍,細(xì)節(jié)需要格外考究。比如,古籍掃描要使用專用的非接觸式掃描儀,通過高像素照相機(jī),在盡量不按壓古籍頁面的前提下拍照;采用的光源也得是防紫外線的LED冷光源,減少對(duì)古籍的損害。
緊接著就是文本化階段——對(duì)古籍文字、排序、結(jié)構(gòu)等內(nèi)容進(jìn)行精細(xì)化處理,這需要十足的專業(yè)功底。
人才領(lǐng)域有個(gè)“1萬小時(shí)定律”,說的是要成為某個(gè)領(lǐng)域的專家,需要累計(jì)達(dá)到1萬小時(shí)的學(xué)習(xí)和實(shí)踐,但是在古文字人才培養(yǎng)領(lǐng)域,這個(gè)定律不太靈?!?萬個(gè)小時(shí)恐怕都培養(yǎng)不出來一個(gè)熟手,兩萬個(gè)小時(shí)也未必能造就一個(gè)大師啊?!蓖踯娭毖?,據(jù)統(tǒng)計(jì),全國各高校以及社會(huì)層面研究古典文獻(xiàn)專業(yè)的學(xué)者,一共也不到1萬人。
王軍給記者算了筆賬:我國現(xiàn)存古籍約有20萬種,從1949年到2019年,共修復(fù)整理出版了近3.8萬種。按照這個(gè)速度修復(fù)整理現(xiàn)存的全部古籍,可能需要300多年,“古籍修復(fù)速度趕不上老化速度?!?/p>
僅靠專業(yè)人才一字一句地翻譯、校對(duì),難以完成如此重任。古籍的數(shù)字化亟須一場(chǎng)生產(chǎn)效率的變革。團(tuán)隊(duì)請(qǐng)來了人工智能助手——
楊浩在平臺(tái)上演示:他上傳了一頁古籍圖像,由于時(shí)間久遠(yuǎn),有些文字已經(jīng)模糊不清。大約10秒后,每個(gè)文字周圍都出現(xiàn)了一個(gè)不同顏色的小方框,并顯示出系統(tǒng)認(rèn)為“可能的文字”?!昂谏硭惴ㄗR(shí)別的可信度比較高的字,一般不需要人工再去核對(duì);藍(lán)色代表疑難字,需要工作人員重點(diǎn)關(guān)注;粉色方框代表已經(jīng)經(jīng)過人工校對(duì),審核者可以核對(duì)是否正確?!睏詈普f。
話音剛落,古籍圖像中的全文清晰呈現(xiàn),句與句之間已經(jīng)加注了標(biāo)點(diǎn),單擊文字即可修改調(diào)整。
“系統(tǒng)內(nèi)剛剛經(jīng)歷了一次飛速的運(yùn)算,主要使用了文字識(shí)別、自動(dòng)標(biāo)點(diǎn)和命名實(shí)體識(shí)別等人工智能技術(shù)。”楊浩依次解釋,文字識(shí)別技術(shù),是對(duì)古籍?dāng)?shù)字圖像中的文字進(jìn)行單個(gè)切分,再進(jìn)行文字識(shí)別和順序讀出;自動(dòng)標(biāo)點(diǎn)技術(shù),是通過序列標(biāo)注的方式對(duì)古籍進(jìn)行自動(dòng)斷句,標(biāo)出標(biāo)點(diǎn);命名實(shí)體識(shí)別技術(shù),則是通過序列標(biāo)注方法識(shí)別出文本中的人名、地名、書名、時(shí)間、官職等信息。
僅僅幾秒過后,一個(gè)個(gè)文字就“飛”出了古籍圖像,變成了可以檢索的文本內(nèi)容。讀者不僅可以了解古籍的前世今生、編纂方法、歷史價(jià)值等信息,還可以實(shí)現(xiàn)繁簡(jiǎn)體文字隨時(shí)切換。此外,閱讀時(shí)如果遇到生僻詞句,讀者也可選中文本,點(diǎn)擊“查看引用”,出處清晰可考。
工作人員只需復(fù)查部分結(jié)果,就能進(jìn)一步提升準(zhǔn)確率。
目前,“識(shí)典古籍”平臺(tái)文字識(shí)別的準(zhǔn)確率達(dá)到96%以上,自動(dòng)句讀的準(zhǔn)確率達(dá)到94%,命名實(shí)體識(shí)別在中古史料上的準(zhǔn)確率接近98%。
“識(shí)典古籍”平臺(tái)已匯集1萬多部古籍
再“聰明”一點(diǎn)
“天將降大任于是人”還是“天將降大任于斯人”?類似的對(duì)古文原文的討論,近年來頻頻受到關(guān)注。有網(wǎng)友說,記憶中,語文教材里是“斯人”,卻發(fā)現(xiàn)現(xiàn)在課本改成了“是人”。
到底是“斯人”還是“是人”?可以在“識(shí)典古籍”平臺(tái)直接搜索查看古籍原文。在平臺(tái)首頁搜索框中輸入該句出處《孟子》和相關(guān)字句,系統(tǒng)立即關(guān)聯(lián)出了孟子卷第十二“告子章句下”冊(cè)的原文和對(duì)應(yīng)書頁圖像,正確答案——“是人”,一目了然。
目前,全國累計(jì)發(fā)布古籍及特藏文獻(xiàn)影像資源已達(dá)13.9萬部(件),其中由國家圖書館建設(shè)的“中華古籍資源庫”是全國古籍資源類型和品種最多、體量最大的綜合性資源共享發(fā)布平臺(tái),發(fā)布的古籍影像資源超過了10.5萬部(件)。
隨著越來越多的古籍收藏單位對(duì)外開放古籍?dāng)?shù)字資源,古籍?dāng)?shù)字化不斷提速。
2020年5月,北京大學(xué)數(shù)字人文研究中心成立,計(jì)算機(jī)技術(shù)、歷史、古典文學(xué)、算法開發(fā)等多領(lǐng)域的人才聚集在一起,目標(biāo)只有一個(gè),為古籍保護(hù)和傳承做點(diǎn)力所能及的事情。
2022年4月,中共中央辦公廳、國務(wù)院辦公廳印發(fā)《關(guān)于推進(jìn)新時(shí)代古籍工作的意見》,明確提出“推進(jìn)古籍?dāng)?shù)字化”,強(qiáng)調(diào)“支持古籍?dāng)?shù)字化重點(diǎn)單位做強(qiáng)做優(yōu),加強(qiáng)古籍?dāng)?shù)字化資源管理和開放共享”。
王軍說,重磅文件推出后,團(tuán)隊(duì)建設(shè)“識(shí)典古籍”平臺(tái)就此提速。
不過,平臺(tái)研發(fā)并非一帆風(fēng)順??焖侔l(fā)展的同時(shí),古籍?dāng)?shù)字化還存在薄弱之處,一些“壁壘”亟待打破。
以“搜索”功能為例,一次簡(jiǎn)單的搜索動(dòng)作,背后就有分詞、召回、排序3大步驟。
“讓AI(人工智能)去閱讀古文,需要有足夠多的語料去訓(xùn)練算法?!蓖踯娬f,就像教小孩說話一樣,算法也需要從易到難的成長(zhǎng)過程。
對(duì)于白話文,團(tuán)隊(duì)可以依據(jù)積累的充足數(shù)據(jù)做分詞模型,然而涉及古文語料的內(nèi)容,所有平臺(tái)的數(shù)據(jù)都十分匱乏。最終,大家通過已經(jīng)公開的、少量的古籍分詞語料,利用半監(jiān)督學(xué)習(xí)和預(yù)訓(xùn)練的技術(shù),形成了現(xiàn)在的古籍分詞模型,以提高搜索精確率。
為了幫助讀者讀懂古籍,平臺(tái)上線了一個(gè)“古籍智能助手”的選項(xiàng)——選中讀不懂的古文原文點(diǎn)擊“問AI”,就可以看到這句話的解釋。讀者還可以和智能助手對(duì)話,讓它總結(jié)文本內(nèi)容,提出可供參考的研究問題。
然而,“古籍智能助手”并非一直聰明,有時(shí)候可能還會(huì)說“胡話”。比如,古籍中常出現(xiàn)的“鹿鳴”一詞,在不同語境中有不同含義,有的就指鹿鳴叫,有的則代表古代宴群臣嘉賓所用的樂歌,還有的借指科舉考試。
“古籍智能助手”偶爾會(huì)生成張冠李戴的錯(cuò)誤結(jié)果。
楊浩解釋,這是人工智能產(chǎn)生的“幻覺”。這個(gè)問題幾乎是大語言模型的“通病”。簡(jiǎn)單來說,“幻覺”是指人工智能會(huì)生成貌似合理連貫,但同輸入問題意圖不一致、同人類知識(shí)不一致、與現(xiàn)實(shí)或已知數(shù)據(jù)不符合或無法驗(yàn)證的內(nèi)容。
“一本正經(jīng)地說胡話?!彼f,在古籍領(lǐng)域,基于文言文本身就可能出現(xiàn)的閱讀障礙,由大模型產(chǎn)生的錯(cuò)誤和“幻覺”會(huì)讓讀者更加難以分辨真假。
為了讓人工智能再“聰明”一點(diǎn),團(tuán)隊(duì)對(duì)“古籍智能助手”開展了一系列升級(jí)工作。例如,開發(fā)檢索增強(qiáng)生成技術(shù),要求大模型根據(jù)從數(shù)據(jù)庫和字典中檢索到的、有一定可靠性的資料作答,在一定程度上限制了“幻覺”的產(chǎn)生。他們還嘗試在生成的答案后附加原文鏈接,讀者可以方便地去查證原文,并做出自己的判斷。
“‘古籍智能助手’的作用是提升查閱古籍的效率。它代替不了專業(yè)的學(xué)術(shù)判斷和閱讀積累,但我們希望它能為使用古籍的人節(jié)約時(shí)間、開拓新的思路?!蓖踯娬f。
在團(tuán)隊(duì)的共同努力下,人工智能正在變得越來越“聰明”,對(duì)眉批、行間批注、表格等不規(guī)則的古籍版面,不僅能準(zhǔn)確識(shí)別文字,還能通過針對(duì)性訓(xùn)練優(yōu)化分區(qū)效果,從而避免出現(xiàn)單字識(shí)別正確但閱讀順序顛倒錯(cuò)亂的情況。
“如果人工智能不介入,完全依靠人力,古籍?dāng)?shù)字化全部完成可能還需要上百年的時(shí)間。有了人工智能,完成全部古籍的數(shù)字化也許只要二三十年?!蓖踯娦判氖?。
“識(shí)典古籍”平臺(tái)的古籍文字校對(duì)頁面
涓流匯江海
集納和展示古籍?dāng)?shù)字版本,并非“識(shí)典古籍”平臺(tái)的全部功能。團(tuán)隊(duì)師生還有個(gè)宏偉的目標(biāo)——在平臺(tái)上匯集識(shí)別、排序、校對(duì)、結(jié)構(gòu)整理、標(biāo)點(diǎn)、實(shí)體識(shí)別等功能,實(shí)現(xiàn)古籍整理全流程的智能化處理。
“平臺(tái)由兩部分組成,前端是閱讀平臺(tái),后端是古籍整理平臺(tái)?!蓖踯姵3_@樣比喻,“就像是餐廳的前廳和后廚。團(tuán)隊(duì)師生作為后廚,整理上線古籍資源,把數(shù)字化資源端上閱讀平臺(tái),與全世界的讀者共享饕餮盛宴?!?/p>
目前,作為“后廚”的古籍整理平臺(tái),已經(jīng)設(shè)定了團(tuán)隊(duì)管理員、書目管理員、審訂員、整理員等各種用戶角色,以推進(jìn)古籍整理項(xiàng)目和數(shù)據(jù)庫建設(shè)。平臺(tái)不僅面向?qū)I(yè)人員開放權(quán)限,來自各行各業(yè)的古籍愛好者、歷史研究者也可以化身編校人員,參與古籍整理。
今年7月,北京大學(xué)數(shù)字人文研究中心以“識(shí)典古籍”平臺(tái)為依托,發(fā)起了“我是校書官”——古籍大眾智能整理計(jì)劃,邀請(qǐng)全國近千所高校的上萬名師生志愿者,在智能手段的輔助下,將傳統(tǒng)古籍加工成易于理解的文本。
這種“眾包模式”,在古籍保護(hù)和整理領(lǐng)域是首次嘗試。王軍說,目的是打造一個(gè)集合“古籍圖像上傳—文本校對(duì)整理—高質(zhì)量標(biāo)記—文本輸出”功能的全流程系統(tǒng),讓古籍與中華優(yōu)秀傳統(tǒng)文化潛移默化地走入更多人心中。
團(tuán)隊(duì)先將經(jīng)過人工智能處理的古籍文本,通過互聯(lián)網(wǎng)分發(fā)給在線編校人員。志愿者在電腦上對(duì)照古籍底本高清圖像逐字逐句審閱,并在古籍整理平臺(tái)上修改。管理員借助平臺(tái)的版本比對(duì)功能審閱修改記錄,判斷是否合格。
一群人,一條心,身體力行讓古典文獻(xiàn)重獲新生。
該中心工作人員傘紅雷一直參與“識(shí)典古籍”平臺(tái)的建設(shè)工作,在“我是校書官”項(xiàng)目中負(fù)責(zé)古籍選目、課程策劃、審核等工作?!拔覀冎靥暨x了一些海外館藏的珍貴善本,所選古籍內(nèi)容都與大眾生活緊密相關(guān),期待大家能挖掘出古籍與現(xiàn)代生活相契合的內(nèi)涵?!彼f,團(tuán)隊(duì)還精心設(shè)計(jì)了古籍通識(shí)課程,邀請(qǐng)領(lǐng)域資深學(xué)者擔(dān)任主講嘉賓,廣泛普及古典文獻(xiàn)的基礎(chǔ)專業(yè)知識(shí)和古籍智能整理實(shí)操方法。
“我是校書官”項(xiàng)目一經(jīng)啟動(dòng),便如同一顆文化磁石,迅速吸引了大批高校師生的踴躍參與。“我們?yōu)橹驹刚叽罱艘粋€(gè)交流互動(dòng)的聊天群,隨著參與的人越來越多,又新建了二群、三群……點(diǎn)開群聊,仿佛置身于一場(chǎng)場(chǎng)學(xué)術(shù)研討會(huì)中,大家不斷圍繞各種異體字以及古籍內(nèi)容等展開熱烈討論,相互協(xié)作攻克‘認(rèn)字’難關(guān)?!?/p>
年輕人與古老的典籍相遇,激發(fā)出了更多的火花。
志愿者袁玲來自四川師范大學(xué),從老師轉(zhuǎn)發(fā)的活動(dòng)推送中看到大眾古籍整理計(jì)劃,抱著豐富實(shí)習(xí)實(shí)踐經(jīng)驗(yàn)的心態(tài),加入了參與古籍整理的隊(duì)伍?!拔乙娮C了志愿者從幾百人壯大到幾千人的過程,發(fā)現(xiàn)自己在古典文獻(xiàn)專業(yè)學(xué)習(xí)上并不孤單。大家互相請(qǐng)教、討論古籍整理中的疑難,素未謀面的人在一次次文字的推敲中相互溫暖。”她說,不同于以往科研中“孤軍奮戰(zhàn)”的體驗(yàn),與這么多對(duì)古籍領(lǐng)域感興趣的愛好者相聚,讓她找到了歸屬感。
來自天津師范大學(xué)的志愿者鄧嘉儀是“古籍整理之星”,曾在一個(gè)月內(nèi)累計(jì)完成了66項(xiàng)整理任務(wù),成為當(dāng)月完成任務(wù)最多的志愿者。在參與項(xiàng)目的那段日子里,她白天在博物館做志愿者,守護(hù)著陳列在展柜里的古籍,晚上坐在電腦前,在一字一句地識(shí)別、校對(duì)中,喚醒沉睡的古籍?!爱?dāng)看到我整理的古籍上架,名字被列在古籍整理人的名單里時(shí),我特別有成就感?!?/p>
文脈綿延,歷史接續(xù)。項(xiàng)目啟動(dòng)5個(gè)月內(nèi),大家就整理了近2億字、超1500種古籍。
“希望通過‘識(shí)典古籍’平臺(tái)和‘我是校書官’等活動(dòng),推動(dòng)中華文明傳承發(fā)展,向世界展示和傳播我們的文化之美?!迸R近年末,王軍許下新年愿望:2025年,希望能收集更多古籍、提升整理質(zhì)量,更好守護(hù)古籍這個(gè)文明之根。
古籍?dāng)?shù)字化只是開始。
王軍暢想,未來可以利用人工智能進(jìn)行古籍的輯佚、匯編、注解、翻譯、檢索、索引甚至考證和摘要工作。更重要的是,利用人工智能開發(fā)古籍,用古籍蘊(yùn)含的浩瀚素材創(chuàng)作生成內(nèi)容,“我們離這個(gè)目標(biāo)越來越近了?!?/p>