用戶(hù)登錄投稿

中國(guó)作家協(xié)會(huì)主管

學(xué)界公認(rèn)甲骨文有4500多個(gè)單字,迄今已破譯近1500字,剩下3000多字都較難釋讀 破譯甲骨文,AI準(zhǔn)備好了嗎
來(lái)源:文匯報(bào) | 沈竹士  2024年07月25日08:22

7月5日,上海,2024世界人工智能大會(huì)。安陽(yáng)師范學(xué)院團(tuán)隊(duì)宣布全球首個(gè)甲骨文多模態(tài)數(shù)據(jù)集正式開(kāi)源。所謂多模態(tài),是指包含一萬(wàn)片甲骨拓片、摹本,以及甲骨文單字對(duì)應(yīng)位置、對(duì)應(yīng)字頭、對(duì)應(yīng)隸定字以及辭例分組、釋讀順序等數(shù)據(jù)。研究人員可基于該數(shù)據(jù)集開(kāi)發(fā)甲骨文檢測(cè)、識(shí)別、摹本生成、字形匹配以及釋讀等方向的智能算法。

近年來(lái),安陽(yáng)師范學(xué)院甲骨文信息處理教育部重點(diǎn)實(shí)驗(yàn)室利用計(jì)算機(jī)綴合甲骨碎片圖像70余組,位列全國(guó)第一。其中一組綴合后形成了新的連貫文辭,如果釋讀無(wú)誤的話,這句話可能記錄了公元前1900多年的一次日偏食天象。這引起人們的極大關(guān)注。

最近二十年,甲骨文破譯逐漸進(jìn)入瓶頸期。為此,在政府相關(guān)部門(mén)推動(dòng)下,多所高校研究團(tuán)隊(duì)致力于探索人工智能(AI)輔助研究甲骨文的技術(shù)。國(guó)內(nèi)互聯(lián)網(wǎng)巨頭和科技公司紛紛入局,與學(xué)術(shù)界開(kāi)展跨學(xué)科合作。人工智能的應(yīng)用為甲骨文研究提供了新的思路。玄幻的殷商甲骨文與科幻的人工智能碰撞,這是屬于中華文化獨(dú)有的浪漫。

AI需要一個(gè)怎樣的甲骨文數(shù)據(jù)庫(kù)

投喂給人工智能的標(biāo)準(zhǔn)化、多模態(tài)數(shù)據(jù)集,起點(diǎn)是二十年前一位數(shù)學(xué)老師開(kāi)發(fā)的輸入法。

1991年,安陽(yáng)殷墟花園莊東地H3坑內(nèi)出土甲骨1583片,這是殷墟甲骨發(fā)掘史上第三次重大發(fā)現(xiàn)。彼時(shí),從河南師范大學(xué)數(shù)學(xué)系畢業(yè)的劉永革分配到安陽(yáng)師范專(zhuān)科學(xué)校(安陽(yáng)師范學(xué)院前身)任教才第三年。在職業(yè)生涯的前十年里,他與甲骨文研究并無(wú)交集。

上世紀(jì)90年代末,安陽(yáng)師專(zhuān)安排青年教師進(jìn)修考研。劉永革等十人來(lái)到西安,目標(biāo)是考上西北工業(yè)大學(xué)計(jì)算機(jī)工程學(xué)院。當(dāng)時(shí)個(gè)人微型計(jì)算機(jī)剛剛興起,進(jìn)機(jī)房之前需要穿鞋套以防靜電。劉永革是數(shù)學(xué)專(zhuān)業(yè)出身,考試有四門(mén)課,其中三門(mén)以前沒(méi)學(xué)過(guò),他便去書(shū)店買(mǎi)來(lái)專(zhuān)業(yè)書(shū)籍現(xiàn)學(xué)。有同學(xué)新買(mǎi)了一臺(tái)照相機(jī),招呼大家去秦始皇陵兵馬俑坑參觀游覽,開(kāi)玩笑說(shuō):“劉永革,別復(fù)習(xí)了,你陪我去,你肯定考不上嘛?!眲⒂栏飸?yīng)該沒(méi)去看兵馬俑——他在2000年獲得計(jì)算機(jī)軟件與理論碩士學(xué)位,方向是數(shù)據(jù)庫(kù)應(yīng)用。

21世紀(jì)初,安陽(yáng)師院有一批從事甲骨文研究的中青年學(xué)者,包括李雪山、韓江蘇等,他們都曾在上世紀(jì)80年代“殷商文化研究班”受業(yè)于甲骨文專(zhuān)家胡厚宣。寫(xiě)論文要引用甲骨文,甲骨文怎么輸入電腦?雖然有一種甲骨文編碼輸入法,但是學(xué)習(xí)成本很高,就像五筆字型輸入法一樣,需要背誦一整套編碼。老師們找到已在計(jì)算機(jī)科學(xué)系任教的劉永革,希望他開(kāi)發(fā)一種完全不同以往的新的輸入法。首先,用軟件描摹甲骨文字,將描出的圖形矢量化,制成字體庫(kù)。再根據(jù)日本學(xué)者島邦男的甲骨文部首自然分類(lèi)法設(shè)計(jì)檢索體系。用Visual C++編寫(xiě)動(dòng)態(tài)數(shù)據(jù)交換程序。使用時(shí),呈現(xiàn)甲骨文常用部首的圖形界面,只需鼠標(biāo)點(diǎn)選檢索,再點(diǎn)選需要的文字即可,不用背碼。對(duì)于文字?jǐn)?shù)量不多的甲骨文來(lái)說(shuō),這種輸入法是非常合適的。

涉及甲骨文研究,不僅要輸入單字,還要能輸入整句、要找出前人的釋讀成果進(jìn)行對(duì)照,最好配上甲骨拓片或摹本的原圖。圈內(nèi)學(xué)者常開(kāi)玩笑說(shuō),其他學(xué)科閱讀資料可以用文本文檔或者word文檔,甲骨文研究只能看PDF文件——用它才能瀏覽清晰的拓片圖像。歷史與文博學(xué)院的韓江蘇教授意識(shí)到,甲骨文研究需要一個(gè)字、圖、文資料一體化、便于檢索的數(shù)據(jù)庫(kù)。“甲骨文圖文資料庫(kù)”2004年成功申請(qǐng)國(guó)家社科基金,甲骨文輸入法的成功經(jīng)驗(yàn)在焉,劉永革很自然地加入了課題組。好好一個(gè)計(jì)算機(jī)專(zhuān)業(yè)老師,毅然跨界投身甲骨文的世界。他帶領(lǐng)計(jì)算機(jī)系的年輕人從頭學(xué)習(xí)甲骨文,為課題組增添新鮮血液。至結(jié)項(xiàng)驗(yàn)收時(shí),收錄數(shù)十種權(quán)威研究文獻(xiàn)的精華和7萬(wàn)多張甲骨拓片。

郭青萍是安陽(yáng)師院中文系教授,退休后自學(xué)甲骨文并從事甲骨文篆刻。一次,他請(qǐng)劉永革幫忙檢索幾個(gè)現(xiàn)代漢字對(duì)應(yīng)的甲骨文字形。劉永革很快把結(jié)果給到了老先生。“我翻書(shū)查找可能要花一個(gè)月,你這么快就找到了?!這個(gè)電腦很好。我也要學(xué)電腦!”那年郭青萍89歲,家里人不支持他。他拿出7000元偷偷交給劉永革,要他幫忙選購(gòu)一臺(tái)電腦。劉永革說(shuō):“老先生好學(xué)呀。我給他買(mǎi)了一臺(tái)顯示器很大的那種,方便他看字。后來(lái)他用電腦又寫(xiě)了三本甲骨文方面的書(shū)稿交付出版?!?008年,劉永革等申報(bào)的《基于甲骨文語(yǔ)料庫(kù)的計(jì)算機(jī)輔助考釋技術(shù)研究》獲批國(guó)家自然科學(xué)基金項(xiàng)目。甲骨文資料的數(shù)字化極大地便利了研究者,也為即將到來(lái)的人工智能時(shí)代做好了鋪墊。

2016年3月,谷歌旗下DeepMind團(tuán)隊(duì)開(kāi)發(fā)的AlphaGo(初級(jí)圍棋)程序擊敗韓國(guó)九段棋手李世石,震驚世界。這也被認(rèn)為是一個(gè)人工智能發(fā)展大周期的元年。一個(gè)月后,國(guó)家相關(guān)部委領(lǐng)導(dǎo)在河南安陽(yáng)調(diào)研時(shí)說(shuō),要利用大數(shù)據(jù)、云計(jì)算等現(xiàn)代技術(shù)手段做好甲骨文的破譯工作。兩年后,安陽(yáng)師院甲骨文信息處理教育部重點(diǎn)實(shí)驗(yàn)室獲批,劉永革出任實(shí)驗(yàn)室主任。按照規(guī)定,教育部重點(diǎn)實(shí)驗(yàn)室學(xué)術(shù)委員會(huì)主任應(yīng)由院士擔(dān)任?!拔覀儼碴?yáng)是小地方,哪認(rèn)識(shí)什么院士喲。”

好在,他們“蹲”到了2015年新當(dāng)選中國(guó)工程院院士的戴瓊海。劉永革就聘請(qǐng)他做學(xué)術(shù)委員會(huì)主任。戴瓊海是清華大學(xué)自動(dòng)化系教授,長(zhǎng)期致力于立體視覺(jué)和計(jì)算攝像理論、關(guān)鍵技術(shù)研究,現(xiàn)任中國(guó)人工智能學(xué)會(huì)理事長(zhǎng)。

2019年是甲骨文發(fā)現(xiàn)120周年。安陽(yáng)師院在甲骨文研究專(zhuān)家宋鎮(zhèn)豪指導(dǎo)下,發(fā)布“殷契文淵”甲骨文數(shù)據(jù)平臺(tái)。這是當(dāng)今世界資料最齊全、最規(guī)范、最權(quán)威的甲骨文數(shù)據(jù)平臺(tái),對(duì)國(guó)內(nèi)外研究者免費(fèi)開(kāi)放,至今已更新4期,包括甲骨著錄154種、甲骨論著34417種,收錄23余萬(wàn)種圖像。利用上億像素的照相機(jī),通過(guò)高清拍攝、微距拍攝、三維建模、紅外線拍攝、多光譜拍攝,對(duì)每一片甲骨拍攝150余張照片。借助微痕增強(qiáng)技術(shù),使研究者能清晰地看到甲骨上較淺的刻痕,更準(zhǔn)確地分析筆畫(huà)和輪廓。部分有特殊含義的甲骨文是用丹砂“涂朱”的,對(duì)這部分文字的研究也是甲骨文研究中的一個(gè)分支。有些甲骨因年代久遠(yuǎn),紅色丹砂脫落殆盡,但通過(guò)光譜分析,仍然可以確定甲骨文中的涂朱部分。此外,根據(jù)機(jī)器學(xué)習(xí)的要求,添加圖像數(shù)據(jù)標(biāo)注。

回首過(guò)去,當(dāng)初為甲骨文輸入法制作的矢量字庫(kù),已經(jīng)“魔改”得面目全非。技術(shù)發(fā)展超越人的想象。

用計(jì)算機(jī)把破碎的甲骨拼起來(lái)

張展,2019年獲中國(guó)科學(xué)院大學(xué)計(jì)算機(jī)應(yīng)用技術(shù)專(zhuān)業(yè)博士學(xué)位,2021年中國(guó)科學(xué)院沈陽(yáng)自動(dòng)化研究所博士后出站,研究方向?yàn)橛?jì)算機(jī)視覺(jué)、模式識(shí)別和數(shù)字圖像處理。在學(xué)校,張展和河南安陽(yáng)籍郭安是室友。找工作時(shí),郭安回安陽(yáng)師院謀求教職,張展便順道來(lái)安陽(yáng)看看機(jī)會(huì)。這是他第一次見(jiàn)到劉永革。老劉希望張展留下,但后者還沒(méi)有打定主意。一段時(shí)間后,劉永革接到張展的電話。他非常高興:“不用說(shuō)相應(yīng)的待遇。張展來(lái)我這里,他成家前,我發(fā)動(dòng)系里的老師,要求每個(gè)人都給他介紹對(duì)象。我得讓他留在安陽(yáng)?!?/p>

劉永革一眼看中張展,因?yàn)樗难芯糠较蚍浅_m合從事計(jì)算機(jī)輔助甲骨碎片綴合工作。而甲骨碎片綴合是短期內(nèi)能夠?qū)嵸|(zhì)性推動(dòng)甲骨文釋讀破譯的手段。

當(dāng)前的甲骨文釋讀工作確實(shí)處在一個(gè)瓶頸期,在甲骨學(xué)再繼續(xù)發(fā)展的道路上,遇到了文字釋讀滯后的障礙,給甲骨學(xué)商史研究的再深入造成了困難。中國(guó)文字博物館于2016年至2024年間開(kāi)展了兩次甲骨文釋讀優(yōu)秀成果征集評(píng)選。對(duì)破譯未釋讀甲骨文并經(jīng)專(zhuān)家委員會(huì)鑒定通過(guò)的研究成果,單字獎(jiǎng)勵(lì)10萬(wàn)元。第一次,復(fù)旦大學(xué)蔣玉斌摘得一等獎(jiǎng),拿到了10萬(wàn)元獎(jiǎng)勵(lì)。第二次,復(fù)旦大學(xué)陳劍和吉林大學(xué)周忠兵同時(shí)獲得一等獎(jiǎng)。8年,3個(gè)字,這就是今天破譯甲骨文的速度。

為何破譯如此之難?目前學(xué)界公認(rèn)甲骨文有4500多個(gè)單字,其中已經(jīng)破譯近1500字,剩下的3000多字都是較難釋讀的,譬如沒(méi)有對(duì)應(yīng)的現(xiàn)代漢字,或是后世不再使用的地名、人名。甲骨文破譯是從已知推理未知。1991年安陽(yáng)殷墟花園莊東地H3坑的發(fā)掘是距今最后一次甲骨大發(fā)現(xiàn)。近三十年,新發(fā)現(xiàn)的甲骨增量太少,也使釋讀研究工作陷入巧婦難為無(wú)米之炊的境地。

為此,很多學(xué)者將目光投向存量甲骨挖潛,希望從中壓榨出有價(jià)值的新線索?,F(xiàn)存甲骨多以碎片的形態(tài)存世。一是因?yàn)榧坠怯糜谡疾罚?jīng)過(guò)鉆鑿、火燒,滄海桑田,繩編斷絕。二是早期甲骨收藏者在安陽(yáng)小屯村收購(gòu)甲骨,按片計(jì)價(jià)。村民便將挖出來(lái)的甲骨掰碎出售。所以后來(lái)就改為按甲骨上有多少字來(lái)計(jì)價(jià)收購(gòu)。甲骨往往沿龜腹甲的天然紋裂而碎,其小者比人的指甲蓋大不了多少。如果將甲骨碎片綴合起來(lái),就能得到新的連貫的句子,學(xué)者加以句讀,從而獲得全新的解讀。

然而,甲骨整理繁難且極費(fèi)人工。故宮博物院是世界第三大甲骨收藏單位,所藏2萬(wàn)多片殷墟甲骨,此前絕大多數(shù)從未整理出版?!肮蕦m博物院藏古文字?jǐn)?shù)字平臺(tái)”的階段性成果,也僅僅是公布了《故宮博物院藏殷墟甲骨文》“馬衡卷”“謝伯殳卷”中的300余件甲骨藏品高清影像及其拓本。人工綴合甲骨碎片需要記憶大量的甲骨文信息,專(zhuān)業(yè)要求高、工作量大。一所高校能有幾個(gè)研究甲骨文的人才,他們寒窗苦讀,皓首窮經(jīng),才堪堪夠格參與這項(xiàng)工作。古人考釋文字如同射覆,意即如猜謎一般,靠直覺(jué),沒(méi)有數(shù)學(xué)公式推導(dǎo)那樣的規(guī)律可循。有學(xué)者感慨,甲骨斷痕的邊緣并無(wú)一定的規(guī)律,而人對(duì)信息的敏感是有偏好的,此處敏感別處未必敏感,因而遺漏甚多。

計(jì)算機(jī)沒(méi)有直覺(jué),只有數(shù)字和概率。與人不同,它可以找到?jīng)]有規(guī)律的邊緣信息進(jìn)行匹配。

張展向我們展示如何用計(jì)算機(jī)輔助綴合甲骨碎片。首先準(zhǔn)備一片待綴合的甲骨碎片拓片圖像,分辨率精度400dpi(經(jīng)插值運(yùn)算獲得600dpi),修理甲骨輪廓周?chē)拿?,提取段痕邊緣的一條曲線。將邊緣曲線旋轉(zhuǎn)正負(fù)20°,得到同一條曲線不同傾斜角度的集合。用邊緣曲線集合與選定的一批甲骨拓片的輪廓線相擬合。在邊緣曲線上分多個(gè)小段進(jìn)行采樣,計(jì)算源甲骨碎片圖像與目標(biāo)甲骨碎片圖像邊緣采樣點(diǎn)之間的距離和,作為不相似度處理。當(dāng)不相似度值小于某一設(shè)定值的時(shí)候,意味著可能產(chǎn)生一組成功的綴合。

解釋起來(lái)有些費(fèi)勁,但計(jì)算機(jī)只在瞬息間就能輸出綴合結(jié)果。

最初,張展跑完程序,得到一組綴合結(jié)果,發(fā)朋友圈,大家喜出望外。隨即,他們得知這組甲骨碎片已被前人綴合過(guò),不過(guò)至少證明這個(gè)方法行得通。不久后,實(shí)驗(yàn)室終于得到新的“獨(dú)家”綴合結(jié)果。不僅文辭能夠連上,貫穿兩片甲骨的刻痕也明顯能夠貫通。隨著項(xiàng)目深入,得到一組又一組綴合結(jié)果。一篇篇對(duì)綴合后連接起來(lái)的甲骨文句的考釋文章接踵發(fā)表。

這種綴合方法取得了小小的成功。但要再進(jìn)一步,還有難關(guān)。目前的技術(shù)能夠讓選定的一片甲骨匹配另一片或者一批甲骨。如果要讓計(jì)算機(jī)在大批量甲骨圖像中一次找出可綴合的一對(duì)或多對(duì)甲骨,需要新的算法和更強(qiáng)大的算力。除了技術(shù)因素,還有一個(gè)問(wèn)題困擾著研究者。全世界現(xiàn)存約16萬(wàn)片甲骨,分散在15個(gè)國(guó)家、181家館藏機(jī)構(gòu)。相比之下,經(jīng)過(guò)整理可供研究且公開(kāi)發(fā)布的甲骨拓片資料就很少了。而機(jī)構(gòu)與機(jī)構(gòu)之間、國(guó)家與國(guó)家之間的交流合作、資源共享并非易事。

為此,安陽(yáng)師院團(tuán)隊(duì)今年正式啟動(dòng)“全球甲骨數(shù)字回歸計(jì)劃”,爭(zhēng)取國(guó)家、省、市三級(jí)政府部門(mén)和社會(huì)各界的支持,希望到國(guó)內(nèi)外保存甲骨的館藏機(jī)構(gòu)進(jìn)行數(shù)據(jù)采集,讓散落各地的甲骨“回家”。這是一個(gè)宏偉而又浪漫的計(jì)劃。凡是用浪漫來(lái)形容的事,往往都是很難的,可能需要很多年才能完成。劉永革對(duì)張展說(shuō):“你看,我搞了一輩子數(shù)據(jù)庫(kù)。你一輩子做好甲骨碎片綴合這件事,也就成了?!迸c數(shù)千年的甲骨文相比,人生仿若滄海之一粟。很多事情的成功有漫長(zhǎng)的路要走,其待后人乎!