隔壁老王国产在线精品,久久国产自偷自偷免

喚醒古籍

來源：北京日?qǐng)?bào)　|　何蕊　　2024年12月26日09:17

中華古籍浩如煙海，凝結(jié)著先人智慧，記錄著綿延不絕的中華文明。

隨著歲月流逝，古籍正在慢慢“老去”，蟲蛀、絮化、粘連、缺損、霉蝕……稍不留神，極易受到損害。對(duì)珍貴古籍進(jìn)行保護(hù)、修復(fù)和活用，關(guān)乎中華文脈的延續(xù)和傳承。我國從2007年起實(shí)施“中華古籍保護(hù)計(jì)劃”，對(duì)全國古籍開展普查、登記入庫，保住了一大批珍貴的古籍。但由于總量多、各地能力參差不齊，古籍保護(hù)依然面臨很大壓力。古籍不能束之高閣，卻又太過嬌貴，很難滿足公眾查閱的需要。隨著科技快速發(fā)展，這些困擾人們已久的難題有了突破性進(jìn)展。

由北京大學(xué)數(shù)字人文研究中心主任、北京大學(xué)人工智能研究院副院長(zhǎng)王軍帶領(lǐng)的古籍?dāng)?shù)字化團(tuán)隊(duì)聯(lián)合企業(yè)開發(fā)的“識(shí)典古籍”平臺(tái)，將古籍從紙頁“搬”到了網(wǎng)頁。目前已經(jīng)匯集1萬多部古籍，面向海內(nèi)外讀者免費(fèi)開放。

在科技的加持下，古籍不再遙遠(yuǎn)。先人智慧與現(xiàn)代科技交融碰撞于泛黃的書頁，一冊(cè)冊(cè)古書典籍“活”起來。

北京大學(xué)數(shù)字人文研究中心主任王軍

從紙到指端

登錄“識(shí)典古籍”平臺(tái)，在網(wǎng)頁上點(diǎn)擊“進(jìn)入大典”按鈕，《永樂大典》的前世今生、編纂方法、歷史價(jià)值等信息，伴隨著書頁翻開的動(dòng)畫特效，緩緩地呈現(xiàn)在讀者眼前。

《永樂大典》被譽(yù)為世界有史以來最大的百科全書，匯集了先秦至明初各類典籍。但隨著時(shí)間的流逝，典籍幾經(jīng)散佚，副本存世不及原書的4%。對(duì)學(xué)者而言，它是學(xué)術(shù)研究的重要資料；對(duì)普通讀者來說，很難有機(jī)會(huì)閱讀到古籍文本。

如今，《永樂大典》高清影像數(shù)據(jù)庫（第一輯）已經(jīng)在“識(shí)典古籍”平臺(tái)上線，免費(fèi)向公眾開放。借助現(xiàn)代數(shù)字技術(shù)，經(jīng)典古籍濃縮在方寸之間，只需動(dòng)動(dòng)手指，塵封已久的歷史畫卷就會(huì)徐徐展開，成為觸手可及的文化資源。

一本古籍，是如何從紙頁“搬”到網(wǎng)頁的？

走進(jìn)北京大學(xué)數(shù)字人文研究中心的古籍?dāng)?shù)字化實(shí)驗(yàn)室，王軍師生團(tuán)隊(duì)正在忙碌著——

平臺(tái)設(shè)計(jì)者、北京大學(xué)人工智能研究院副研究員楊浩正通過“識(shí)典古籍”平臺(tái)，在線整理書庫資源。他面前電腦的屏幕左側(cè)，顯示的是古籍書頁的高清圖片，右側(cè)為對(duì)照文字，“與平臺(tái)資源呈現(xiàn)形式相同，古籍的數(shù)字化也分圖像化和文本化兩步走?！彼?xì)細(xì)解讀，古籍影像掃描是古籍?dāng)?shù)字化的基礎(chǔ)，但影像無法檢索，只有將圖像轉(zhuǎn)化成可以檢索的文字，才便于研究、閱讀和傳播。

首先就要對(duì)古籍進(jìn)行圖像化處理，這一步類似日常工作中的掃描文件，不過為了保護(hù)脆弱的古籍，細(xì)節(jié)需要格外考究。比如，古籍掃描要使用專用的非接觸式掃描儀，通過高像素照相機(jī)，在盡量不按壓古籍頁面的前提下拍照；采用的光源也得是防紫外線的LED冷光源，減少對(duì)古籍的損害。

緊接著就是文本化階段——對(duì)古籍文字、排序、結(jié)構(gòu)等內(nèi)容進(jìn)行精細(xì)化處理，這需要十足的專業(yè)功底。

人才領(lǐng)域有個(gè)“1萬小時(shí)定律”，說的是要成為某個(gè)領(lǐng)域的專家，需要累計(jì)達(dá)到1萬小時(shí)的學(xué)習(xí)和實(shí)踐，但是在古文字人才培養(yǎng)領(lǐng)域，這個(gè)定律不太靈?！?萬個(gè)小時(shí)恐怕都培養(yǎng)不出來一個(gè)熟手，兩萬個(gè)小時(shí)也未必能造就一個(gè)大師啊?！蓖踯娭毖?，據(jù)統(tǒng)計(jì)，全國各高校以及社會(huì)層面研究古典文獻(xiàn)專業(yè)的學(xué)者，一共也不到1萬人。

王軍給記者算了筆賬：我國現(xiàn)存古籍約有20萬種，從1949年到2019年，共修復(fù)整理出版了近3.8萬種。按照這個(gè)速度修復(fù)整理現(xiàn)存的全部古籍，可能需要300多年，“古籍修復(fù)速度趕不上老化速度?！?/p>

僅靠專業(yè)人才一字一句地翻譯、校對(duì)，難以完成如此重任。古籍的數(shù)字化亟須一場(chǎng)生產(chǎn)效率的變革。團(tuán)隊(duì)請(qǐng)來了人工智能助手——

楊浩在平臺(tái)上演示：他上傳了一頁古籍圖像，由于時(shí)間久遠(yuǎn)，有些文字已經(jīng)模糊不清。大約10秒后，每個(gè)文字周圍都出現(xiàn)了一個(gè)不同顏色的小方框，并顯示出系統(tǒng)認(rèn)為“可能的文字”?！昂谏硭惴ㄗR(shí)別的可信度比較高的字，一般不需要人工再去核對(duì)；藍(lán)色代表疑難字，需要工作人員重點(diǎn)關(guān)注；粉色方框代表已經(jīng)經(jīng)過人工校對(duì)，審核者可以核對(duì)是否正確?！睏詈普f。

話音剛落，古籍圖像中的全文清晰呈現(xiàn)，句與句之間已經(jīng)加注了標(biāo)點(diǎn)，單擊文字即可修改調(diào)整。

“系統(tǒng)內(nèi)剛剛經(jīng)歷了一次飛速的運(yùn)算，主要使用了文字識(shí)別、自動(dòng)標(biāo)點(diǎn)和命名實(shí)體識(shí)別等人工智能技術(shù)。”楊浩依次解釋，文字識(shí)別技術(shù)，是對(duì)古籍?dāng)?shù)字圖像中的文字進(jìn)行單個(gè)切分，再進(jìn)行文字識(shí)別和順序讀出；自動(dòng)標(biāo)點(diǎn)技術(shù)，是通過序列標(biāo)注的方式對(duì)古籍進(jìn)行自動(dòng)斷句，標(biāo)出標(biāo)點(diǎn)；命名實(shí)體識(shí)別技術(shù)，則是通過序列標(biāo)注方法識(shí)別出文本中的人名、地名、書名、時(shí)間、官職等信息。

僅僅幾秒過后，一個(gè)個(gè)文字就“飛”出了古籍圖像，變成了可以檢索的文本內(nèi)容。讀者不僅可以了解古籍的前世今生、編纂方法、歷史價(jià)值等信息，還可以實(shí)現(xiàn)繁簡(jiǎn)體文字隨時(shí)切換。此外，閱讀時(shí)如果遇到生僻詞句，讀者也可選中文本，點(diǎn)擊“查看引用”，出處清晰可考。

工作人員只需復(fù)查部分結(jié)果，就能進(jìn)一步提升準(zhǔn)確率。

目前，“識(shí)典古籍”平臺(tái)文字識(shí)別的準(zhǔn)確率達(dá)到96%以上，自動(dòng)句讀的準(zhǔn)確率達(dá)到94%，命名實(shí)體識(shí)別在中古史料上的準(zhǔn)確率接近98%。

“識(shí)典古籍”平臺(tái)已匯集1萬多部古籍

再“聰明”一點(diǎn)

“天將降大任于是人”還是“天將降大任于斯人”？類似的對(duì)古文原文的討論，近年來頻頻受到關(guān)注。有網(wǎng)友說，記憶中，語文教材里是“斯人”，卻發(fā)現(xiàn)現(xiàn)在課本改成了“是人”。

到底是“斯人”還是“是人”？可以在“識(shí)典古籍”平臺(tái)直接搜索查看古籍原文。在平臺(tái)首頁搜索框中輸入該句出處《孟子》和相關(guān)字句，系統(tǒng)立即關(guān)聯(lián)出了孟子卷第十二“告子章句下”冊(cè)的原文和對(duì)應(yīng)書頁圖像，正確答案——“是人”，一目了然。

目前，全國累計(jì)發(fā)布古籍及特藏文獻(xiàn)影像資源已達(dá)13.9萬部（件），其中由國家圖書館建設(shè)的“中華古籍資源庫”是全國古籍資源類型和品種最多、體量最大的綜合性資源共享發(fā)布平臺(tái)，發(fā)布的古籍影像資源超過了10.5萬部（件）。

隨著越來越多的古籍收藏單位對(duì)外開放古籍?dāng)?shù)字資源，古籍?dāng)?shù)字化不斷提速。

2020年5月，北京大學(xué)數(shù)字人文研究中心成立，計(jì)算機(jī)技術(shù)、歷史、古典文學(xué)、算法開發(fā)等多領(lǐng)域的人才聚集在一起，目標(biāo)只有一個(gè)，為古籍保護(hù)和傳承做點(diǎn)力所能及的事情。

2022年4月，中共中央辦公廳、國務(wù)院辦公廳印發(fā)《關(guān)于推進(jìn)新時(shí)代古籍工作的意見》，明確提出“推進(jìn)古籍?dāng)?shù)字化”，強(qiáng)調(diào)“支持古籍?dāng)?shù)字化重點(diǎn)單位做強(qiáng)做優(yōu)，加強(qiáng)古籍?dāng)?shù)字化資源管理和開放共享”。

王軍說，重磅文件推出后，團(tuán)隊(duì)建設(shè)“識(shí)典古籍”平臺(tái)就此提速。

不過，平臺(tái)研發(fā)并非一帆風(fēng)順?？焖侔l(fā)展的同時(shí)，古籍?dāng)?shù)字化還存在薄弱之處，一些“壁壘”亟待打破。

以“搜索”功能為例，一次簡(jiǎn)單的搜索動(dòng)作，背后就有分詞、召回、排序3大步驟。

“讓AI（人工智能）去閱讀古文，需要有足夠多的語料去訓(xùn)練算法?！蓖踯娬f，就像教小孩說話一樣，算法也需要從易到難的成長(zhǎng)過程。

對(duì)于白話文，團(tuán)隊(duì)可以依據(jù)積累的充足數(shù)據(jù)做分詞模型，然而涉及古文語料的內(nèi)容，所有平臺(tái)的數(shù)據(jù)都十分匱乏。最終，大家通過已經(jīng)公開的、少量的古籍分詞語料，利用半監(jiān)督學(xué)習(xí)和預(yù)訓(xùn)練的技術(shù)，形成了現(xiàn)在的古籍分詞模型，以提高搜索精確率。

為了幫助讀者讀懂古籍，平臺(tái)上線了一個(gè)“古籍智能助手”的選項(xiàng)——選中讀不懂的古文原文點(diǎn)擊“問AI”，就可以看到這句話的解釋。讀者還可以和智能助手對(duì)話，讓它總結(jié)文本內(nèi)容，提出可供參考的研究問題。

然而，“古籍智能助手”并非一直聰明，有時(shí)候可能還會(huì)說“胡話”。比如，古籍中常出現(xiàn)的“鹿鳴”一詞，在不同語境中有不同含義，有的就指鹿鳴叫，有的則代表古代宴群臣嘉賓所用的樂歌，還有的借指科舉考試。

“古籍智能助手”偶爾會(huì)生成張冠李戴的錯(cuò)誤結(jié)果。

楊浩解釋，這是人工智能產(chǎn)生的“幻覺”。這個(gè)問題幾乎是大語言模型的“通病”。簡(jiǎn)單來說，“幻覺”是指人工智能會(huì)生成貌似合理連貫，但同輸入問題意圖不一致、同人類知識(shí)不一致、與現(xiàn)實(shí)或已知數(shù)據(jù)不符合或無法驗(yàn)證的內(nèi)容。

“一本正經(jīng)地說胡話?！彼f，在古籍領(lǐng)域，基于文言文本身就可能出現(xiàn)的閱讀障礙，由大模型產(chǎn)生的錯(cuò)誤和“幻覺”會(huì)讓讀者更加難以分辨真假。

為了讓人工智能再“聰明”一點(diǎn)，團(tuán)隊(duì)對(duì)“古籍智能助手”開展了一系列升級(jí)工作。例如，開發(fā)檢索增強(qiáng)生成技術(shù)，要求大模型根據(jù)從數(shù)據(jù)庫和字典中檢索到的、有一定可靠性的資料作答，在一定程度上限制了“幻覺”的產(chǎn)生。他們還嘗試在生成的答案后附加原文鏈接，讀者可以方便地去查證原文，并做出自己的判斷。

“‘古籍智能助手’的作用是提升查閱古籍的效率。它代替不了專業(yè)的學(xué)術(shù)判斷和閱讀積累，但我們希望它能為使用古籍的人節(jié)約時(shí)間、開拓新的思路?！蓖踯娬f。

在團(tuán)隊(duì)的共同努力下，人工智能正在變得越來越“聰明”，對(duì)眉批、行間批注、表格等不規(guī)則的古籍版面，不僅能準(zhǔn)確識(shí)別文字，還能通過針對(duì)性訓(xùn)練優(yōu)化分區(qū)效果，從而避免出現(xiàn)單字識(shí)別正確但閱讀順序顛倒錯(cuò)亂的情況。

“如果人工智能不介入，完全依靠人力，古籍?dāng)?shù)字化全部完成可能還需要上百年的時(shí)間。有了人工智能，完成全部古籍的數(shù)字化也許只要二三十年?！蓖踯娦判氖?。

“識(shí)典古籍”平臺(tái)的古籍文字校對(duì)頁面

涓流匯江海

集納和展示古籍?dāng)?shù)字版本，并非“識(shí)典古籍”平臺(tái)的全部功能。團(tuán)隊(duì)師生還有個(gè)宏偉的目標(biāo)——在平臺(tái)上匯集識(shí)別、排序、校對(duì)、結(jié)構(gòu)整理、標(biāo)點(diǎn)、實(shí)體識(shí)別等功能，實(shí)現(xiàn)古籍整理全流程的智能化處理。

“平臺(tái)由兩部分組成，前端是閱讀平臺(tái)，后端是古籍整理平臺(tái)?！蓖踯姵３＿@樣比喻，“就像是餐廳的前廳和后廚。團(tuán)隊(duì)師生作為后廚，整理上線古籍資源，把數(shù)字化資源端上閱讀平臺(tái)，與全世界的讀者共享饕餮盛宴?！?/p>

目前，作為“后廚”的古籍整理平臺(tái)，已經(jīng)設(shè)定了團(tuán)隊(duì)管理員、書目管理員、審訂員、整理員等各種用戶角色，以推進(jìn)古籍整理項(xiàng)目和數(shù)據(jù)庫建設(shè)。平臺(tái)不僅面向?qū)I(yè)人員開放權(quán)限，來自各行各業(yè)的古籍愛好者、歷史研究者也可以化身編校人員，參與古籍整理。

今年7月，北京大學(xué)數(shù)字人文研究中心以“識(shí)典古籍”平臺(tái)為依托，發(fā)起了“我是校書官”——古籍大眾智能整理計(jì)劃，邀請(qǐng)全國近千所高校的上萬名師生志愿者，在智能手段的輔助下，將傳統(tǒng)古籍加工成易于理解的文本。

這種“眾包模式”，在古籍保護(hù)和整理領(lǐng)域是首次嘗試。王軍說，目的是打造一個(gè)集合“古籍圖像上傳—文本校對(duì)整理—高質(zhì)量標(biāo)記—文本輸出”功能的全流程系統(tǒng)，讓古籍與中華優(yōu)秀傳統(tǒng)文化潛移默化地走入更多人心中。

團(tuán)隊(duì)先將經(jīng)過人工智能處理的古籍文本，通過互聯(lián)網(wǎng)分發(fā)給在線編校人員。志愿者在電腦上對(duì)照古籍底本高清圖像逐字逐句審閱，并在古籍整理平臺(tái)上修改。管理員借助平臺(tái)的版本比對(duì)功能審閱修改記錄，判斷是否合格。

一群人，一條心，身體力行讓古典文獻(xiàn)重獲新生。

該中心工作人員傘紅雷一直參與“識(shí)典古籍”平臺(tái)的建設(shè)工作，在“我是校書官”項(xiàng)目中負(fù)責(zé)古籍選目、課程策劃、審核等工作?！拔覀冎靥暨x了一些海外館藏的珍貴善本，所選古籍內(nèi)容都與大眾生活緊密相關(guān)，期待大家能挖掘出古籍與現(xiàn)代生活相契合的內(nèi)涵?！彼f，團(tuán)隊(duì)還精心設(shè)計(jì)了古籍通識(shí)課程，邀請(qǐng)領(lǐng)域資深學(xué)者擔(dān)任主講嘉賓，廣泛普及古典文獻(xiàn)的基礎(chǔ)專業(yè)知識(shí)和古籍智能整理實(shí)操方法。

“我是校書官”項(xiàng)目一經(jīng)啟動(dòng)，便如同一顆文化磁石，迅速吸引了大批高校師生的踴躍參與。“我們?yōu)橹驹刚叽罱艘粋€(gè)交流互動(dòng)的聊天群，隨著參與的人越來越多，又新建了二群、三群……點(diǎn)開群聊，仿佛置身于一場(chǎng)場(chǎng)學(xué)術(shù)研討會(huì)中，大家不斷圍繞各種異體字以及古籍內(nèi)容等展開熱烈討論，相互協(xié)作攻克‘認(rèn)字’難關(guān)?！?/p>

年輕人與古老的典籍相遇，激發(fā)出了更多的火花。

志愿者袁玲來自四川師范大學(xué)，從老師轉(zhuǎn)發(fā)的活動(dòng)推送中看到大眾古籍整理計(jì)劃，抱著豐富實(shí)習(xí)實(shí)踐經(jīng)驗(yàn)的心態(tài)，加入了參與古籍整理的隊(duì)伍?！拔乙娮C了志愿者從幾百人壯大到幾千人的過程，發(fā)現(xiàn)自己在古典文獻(xiàn)專業(yè)學(xué)習(xí)上并不孤單。大家互相請(qǐng)教、討論古籍整理中的疑難，素未謀面的人在一次次文字的推敲中相互溫暖。”她說，不同于以往科研中“孤軍奮戰(zhàn)”的體驗(yàn)，與這么多對(duì)古籍領(lǐng)域感興趣的愛好者相聚，讓她找到了歸屬感。

來自天津師范大學(xué)的志愿者鄧嘉儀是“古籍整理之星”，曾在一個(gè)月內(nèi)累計(jì)完成了66項(xiàng)整理任務(wù)，成為當(dāng)月完成任務(wù)最多的志愿者。在參與項(xiàng)目的那段日子里，她白天在博物館做志愿者，守護(hù)著陳列在展柜里的古籍，晚上坐在電腦前，在一字一句地識(shí)別、校對(duì)中，喚醒沉睡的古籍?！爱?dāng)看到我整理的古籍上架，名字被列在古籍整理人的名單里時(shí)，我特別有成就感?！?/p>

文脈綿延，歷史接續(xù)。項(xiàng)目啟動(dòng)5個(gè)月內(nèi)，大家就整理了近2億字、超1500種古籍。

“希望通過‘識(shí)典古籍’平臺(tái)和‘我是校書官’等活動(dòng)，推動(dòng)中華文明傳承發(fā)展，向世界展示和傳播我們的文化之美?！迸R近年末，王軍許下新年愿望：2025年，希望能收集更多古籍、提升整理質(zhì)量，更好守護(hù)古籍這個(gè)文明之根。

古籍?dāng)?shù)字化只是開始。

王軍暢想，未來可以利用人工智能進(jìn)行古籍的輯佚、匯編、注解、翻譯、檢索、索引甚至考證和摘要工作。更重要的是，利用人工智能開發(fā)古籍，用古籍蘊(yùn)含的浩瀚素材創(chuàng)作生成內(nèi)容，“我們離這個(gè)目標(biāo)越來越近了?！?/p>