用戶登錄投稿

中國作家協(xié)會主管

早期全球“數(shù)字魯迅”生產(chǎn)中的文本、媒介與技術 
來源:《中國當代文學研究》2023年第6期 | 王賀  2023年12月04日15:16

內(nèi)容提要:在“數(shù)字魯迅”的生產(chǎn)、制作實踐中,其早期階段的歷史頗為重要,但目前這方面的研究才剛剛開始,有欠深入。本文即以1990年后期海外出現(xiàn)的“新語絲”電子期刊、衍生產(chǎn)品“新語絲電子文庫”及其形成的“魯迅作品”這一“文件樹”為討論對象,試圖探究其所代表的早期全球“數(shù)字魯迅”生產(chǎn)實踐的基本輪廓、特點及其成因、貢獻以及不足,尤其分析在這一過程中早期計算機用戶/讀者,如何處理魯迅文本、數(shù)字媒介與中文信息處理技術、漢字編碼技術之間的互動關系,藉以重建“數(shù)字魯迅”的早期歷史及其多元圖景,以使學界能在傳統(tǒng)的文學研究(批評)和文獻學研究之外,從多角度對早期全球“數(shù)字魯迅”生產(chǎn)歷史及發(fā)生在早期互聯(lián)網(wǎng)上的數(shù)字文化生產(chǎn)、再生產(chǎn)實踐形成新的理解,同時亦能由此個案研究逐步邁向?qū)Α皵?shù)字文獻學”“數(shù)字現(xiàn)代文學”等新領域的探索。

關鍵詞:“數(shù)字魯迅” 新語絲 文件樹 中文信息處理 漢字編碼

在《追尋“數(shù)字魯迅”:文本、機器與機器人——再思現(xiàn)代文學“數(shù)字化”及其相關問題》1一文中,筆者曾討論自互聯(lián)網(wǎng)瀏覽器誕生以來至2021年的“數(shù)字魯迅”生產(chǎn)、制作實踐及其相關問題,并區(qū)分了“數(shù)字化”“電子化”“文本化”“數(shù)據(jù)化”“電子版”“電子書”等一系列核心概念、術語。不過,對其早期歷史、尤其2000年之前歷史(以2000年1月出現(xiàn)《魯迅全集》電子版為分界線,將其分作前后期)的討論仍嫌簡略,有欠深入,并認為,諸如 “新語絲”(1994 年 2 月創(chuàng)立,后發(fā)展為網(wǎng)站)、“橄欖樹”(1995 年 3 月創(chuàng)立)等數(shù)百種電子期刊所制作的“電子化”“數(shù)字化”的魯迅文本,“很難被看作(諸如《魯迅全集》電子版、電子書、APP、數(shù)據(jù)庫等的)‘史前史’或‘早期歷史’的范疇”。本文將致力于修正、補充這一判斷,并將其確立為新的、重要的研究對象(即不同于最早的《魯迅全集》電子版的、新的“數(shù)字魯迅”生產(chǎn)實踐)重新予以討論,特別是結合中文信息處理技術、尤其漢字編碼技術的發(fā)展歷史,來切入這一討論。在具體的論述過程中,將以“新語絲”電子期刊、衍生產(chǎn)品“新語絲電子文庫”(XYS Electronic Library)及其形成的“魯迅作品”這一“文件樹”為討論對象,并將有關的現(xiàn)象、事件和歷史進程放置于全球語境之中進行考察,2分析這些研究對象所代表的早期全球“數(shù)字魯迅”生產(chǎn)實踐的基本輪廓、特點及其成因、貢獻以及不足,以及在這一過程中魯迅文本、數(shù)字媒介、漢字編碼技術與早期計算機用戶/讀者之間的互動關系等問題,重建早期“數(shù)字魯迅”的生產(chǎn)、制作歷史及其多元圖景。對上述問題的深入探究,不僅有助于我們在傳統(tǒng)的文學研究(批評)和文獻學研究之外,從媒介、技術、網(wǎng)絡基礎設施、數(shù)字讀寫能力等多重角度理解全球范圍內(nèi)早期“數(shù)字魯迅”生產(chǎn)、制作的歷史,乃至發(fā)生在早期互聯(lián)網(wǎng)上的數(shù)字文化生產(chǎn)、再生產(chǎn)實踐,還將幫助我們由此個案研究尋找進入“數(shù)字文獻學”“數(shù)字現(xiàn)代文學”等正在發(fā)展中的新領域的路徑,進而豐富我們對這些新領域的認識。

一、“新語絲”與“數(shù)字魯迅”早期生產(chǎn)的開端

作為電子期刊的“新語絲”(http://www.xys.org),自1994年2月在美國創(chuàng)立以來,不僅擁有正式的國際期刊刊號(ISSN 1081-9207)和固定的出版日期(每月15日),而且從一開始就表明了其為“文化性綜合刊物,登載文學、藝術、史地、哲學等方面的稿件”3的立場,長期開設“牛肆”(隨筆、評論)、“絲露集”(詩歌、散文、小說)、“網(wǎng)里乾坤”(文史哲小品)和“網(wǎng)萃”(中文網(wǎng)佳作選)等欄目。其《發(fā)刊詞》更透露出有意繼承1924年在北京創(chuàng)刊,周作人、魯迅等人編輯的《語絲》周刊的辦刊宗旨,但又與之有所不同,這一不同主要由新的媒介——互聯(lián)網(wǎng)——帶來:

幾萬分布世界各地的漢字使用者,黑白紅黃藍各色人等,通過一張無形的網(wǎng),緊緊地聯(lián)系在一起。網(wǎng)里的世界,跟人世間的一切也沒有什么太大的不同。喜怒哀樂,人生的百態(tài)在網(wǎng)里一一呈現(xiàn);酸甜苦辣,人生的百味在網(wǎng)上同樣嘗個夠。雖然林子大了什么鳥都有,網(wǎng)大了免不了會有臭魚爛蝦,一個大家庭免不了會有吵吵鬧鬧;但更多的人,在這里找到了從未見面也許永遠無緣見面的朋友,無數(shù)淪落天涯的心靈,因此有了些許的慰藉。更有一些默默耕耘的網(wǎng)友,碼字輸書,傳經(jīng)送寶,讓大家大開眼界,大長見識,把這些文字匯集起來,乃是一部無與倫比的百科全書。

因此多少人在此流連忘返,欲罷不能,正所謂“算只有殷勤,畫檐蛛網(wǎng),盡日惹飛絮?!?

也因此,雖然編者(創(chuàng)刊號編輯方舟子,審稿竹人、蠢俠、呆子、古平、臺北阿生、小寶、灰人。校對散宜生,其后人員屢有變動,恕不縷述)、作者“之中的大多數(shù)人,流落在異國他鄉(xiāng);更有一些人,曾經(jīng)滄海,心中傷痕累累。絲者,思也,‘春蠶到死絲方盡’,永遠不變是對祖國故鄉(xiāng),對親朋愛人的思念之情,綿綿無盡期。值此春節(jié)、情人節(jié)之際,思念之情更濃更盛。遙望神州,感慨不已”。但卻堅信,“這張網(wǎng)伸到漢字的發(fā)源地,讓親人們聽到我們的心聲的日子不會太遠”?!拔覀兘裉焖幙椀摹?,“是未來一張恢恢天網(wǎng)的小小起點”5。換言之,“新語絲”電子期刊不只是一份在網(wǎng)上發(fā)行的刊物,或是“幾萬分布世界各地的漢字使用者”的言論空間,更是聯(lián)系編者、作者與祖國的紐帶,是流動的、跨越國境的文化生產(chǎn)實踐,是新的“事物、人群、思想和制度之間的流通和交換”6,其意義因此也就無法被單獨放置于當代中國、美國及任何一個國家和地區(qū)的界限、語境之內(nèi)做出內(nèi)源性的解釋,而必須在全球語境中展開分析。不過,饒有意味的是,從1994年2月創(chuàng)刊至1995年末,“新語絲”電子期刊均未發(fā)表(轉(zhuǎn)載)任何魯迅的文本,以及關于魯迅文學、思想的討論,直至1996年1月“新語絲”出版增刊“周氏兄弟專輯”,“魯迅”才正式進入該刊編者、讀者的視野當中,這也是該刊“數(shù)字魯迅”早期生產(chǎn)的開端。但是,我們注意到,直至2000年年末,魯迅文本在該刊(無論正刊、增刊)出現(xiàn)的次數(shù)都極其有限(只有1篇,即發(fā)表于“周氏兄弟專輯”的魯迅舊體詩《別諸弟三首(庚子二月)》),討論魯迅文學、思想的文章也并不為多(共12篇),最后,即便是將兩者合起來看,其體量仍然只占該刊刊發(fā)文章當?shù)臉O少一部分,幾乎可以忽略不計。換句話說,從組織出版“周氏兄弟專輯”這一做法來看,編者對閱讀、討論魯迅應較一般現(xiàn)代、當代作家格外有興趣,但其后該刊并未出現(xiàn)大量的魯迅文本和有關的討論,而且在其內(nèi)部呈現(xiàn)出一種顯著的不平衡性:在這七年間,有關的文本、討論只出現(xiàn)在1996—1998這三年,而1994、1995、1999、2000年均與“魯迅”無涉。何以如此呢?原因固然可能很多,但據(jù)筆者推測,一個最直接的理由可能是因文獻資料的匱乏所導致的閱讀、利用的不便:一方面當時海外各大學收藏的魯迅著作并不算多,另一方面,更重要的是,在互聯(lián)網(wǎng)上,電子化、數(shù)字化的魯迅文本實在太少。

此外,與“橄欖樹”等其他電子期刊不同的是,“新語絲”同人在創(chuàng)辦電子期刊一年四個月之后,很快又創(chuàng)建了“新語絲電子文庫”(以下簡作“文庫”)。據(jù)該“文庫”主頁介紹,其“為收藏中文文史資料電子版(國標版)的FTP存檔處,以收藏《新語絲》雜志和中國文學經(jīng)典作品為主,兼收其他資料,是目前收藏中國文學經(jīng)典作品最為齊全的公共存檔點”7。實際上,這一在線產(chǎn)品,除了首先是提供大量數(shù)字化的、公眾可訪問的、免費的中國文學作品的站點,亦是“一個交互式網(wǎng)站、一個超文本存儲庫,”比“新語絲”電子期刊(以下簡作“期刊”“電子期刊”)這部編者眼中的“無與倫比的百科全書”更像“百科全書”,而其優(yōu)點亦頗近似于目前全球最大的在線百科全書——維基百科(https://www.wikipedia.org),“用戶可以用非線性的方式瀏覽章節(jié),內(nèi)容可以包含無限數(shù)量的插圖,可以生成動態(tài)可視化的材料,并且可以無限制地更新文本,甚至可以開放編輯”8,更不用說幫助讀者超越紙質(zhì)媒介環(huán)境帶來的、可能的限制,使之更加順利地在數(shù)字環(huán)境中與電子化、數(shù)字化的文本進行交互,推進文學與文化生產(chǎn)的進程。當然,官方介紹也透露了“文庫”的具體收藏范圍:

1.《新語絲》雜志:收藏自《新語絲》創(chuàng)刊(1994年2月)至今的各種版本(GB、HZ、Big5、PS)正刊和增刊。

2.“新語絲之友”張貼:收藏“新語絲之友”通訊網(wǎng)設立以來(1996年2月)的所有張貼。每月張貼存檔在一個月后公開。

3.中國經(jīng)典:該部現(xiàn)有七個分支,分別收藏諸子百家、古典詩歌、古典小說、古文、古典文學評論、古典色情文學和魯迅著作。

4.電子書籍:該部現(xiàn)有現(xiàn)代文學和文史資料兩部分?,F(xiàn)代文學收藏現(xiàn)代、當代著名作家、詩人的作品。文史資料收藏哲學、歷史、宗教等方面的資料。

5.中文網(wǎng)人作品:收藏活躍在計算機網(wǎng)絡上的中文寫作者的作品,主要為作者本人的結集和互聯(lián)網(wǎng)中文新聞組(ACT、ACTB)、中文通訊網(wǎng)(“新語絲之友”“中文詩歌網(wǎng)”)的張貼。收藏的標準是:具有一定的思想性、文學性、知識性或趣味性,并且能夠獨立成篇。對于創(chuàng)作量較多的作者設立個人專欄,其他張貼則分為閑談、故事、小說、文史、科普等幾類收藏。

6.中文網(wǎng)人照片:收藏活躍在計算機網(wǎng)絡上的中文網(wǎng)人的數(shù)字化圖像(gif或jpg格式),個人照每人限定兩幅。9

其下還注明了投稿辦法和取閱辦法。稱“投稿以作者本人自薦為主,別人推薦為輔。投稿方法有二:1.upload到:xys.org/pub/incoming并通知管理員(xys@xys.org)。2.把文件寄到xys@xys.org”。 “取閱辦法亦有兩種:1. use anonymous FTP: xys.org/pub/xys.注意大多數(shù)文件是國標碼,必須用binary transfer. 2.use WWW viewer (lynx, netscape, mosaic):http://www.xys.org;http://xys.asianews.com.”10而從這些沿用至今的官方介紹中,我們不僅可以看出“文庫”的定位、范圍及其特色,更可看出因“文庫”的生產(chǎn)、制作(在此體現(xiàn)為“投稿”“取閱”)深受早期互聯(lián)網(wǎng)文件傳輸、存儲技術的影響與限制,而以提供FTP服務為主、互聯(lián)網(wǎng)瀏覽服務為輔(即上述介紹中的“use WWW viewer”),且嚴格限定了FTP環(huán)境下的文件編碼格式,乃為“國標碼,必須用binary transfer”(對此下文將有深入討論)。但即便如此,經(jīng)主辦者數(shù)十年苦心經(jīng)營、辛勤耕耘,該“文庫”現(xiàn)已匯集大量中國古代典籍及近現(xiàn)代、當代文學的電子化、數(shù)字化文本,成為海內(nèi)外研究中國文學、文化的重要數(shù)字資源,例如,美國杜克大學圖書館就將其列為“中國研究”之“語言與文學”類八種重要的數(shù)字資源之一。11不過,值得注意的是,“文庫”雖系在期刊基礎之上建立,但與期刊頗多不同,例如,與期刊擁有眾多編校人員不同,“文庫”的編輯工作似乎主要由方舟子一人承擔。

隨后,當我們逐一檢查“文庫”自創(chuàng)辦至2000年末全部發(fā)表的文章及其記錄(即“新語絲新到資料年月索引”),一個又一個有趣的事實便相繼浮出歷史地表。首先,“文庫”出現(xiàn)與魯迅有關的文本的時間雖較期刊稍晚一些,但與期刊只發(fā)表了1篇魯迅文本和12篇魯迅評論不同,“文庫”在這一時間段收錄了至少162篇與魯迅有關的文本??梢哉f,“魯迅”成為“文庫”這一時期最為經(jīng)常出現(xiàn)的關鍵詞之一;其次,在這162篇與魯迅有關的文本中,魯迅本人的文本(數(shù)字化文本)有73篇之多,占全部與魯迅有關的文本的45%,極大地改善了前此電子期刊所凸顯的、在網(wǎng)上不便或很少能直接閱讀魯迅文本的現(xiàn)象,而這很可能是因為期刊編者注意到了資料匱乏這一問題,然后開始發(fā)力,想要在“文庫”中彌補這一缺憾(期刊以體例限制,畢竟發(fā)表古代、近現(xiàn)代作家學者作品較少)的緣故;再次,更重要的是,“文庫“從一開始采用的做法是 “數(shù)字化”(文本化)而非“電子化”。當時,有些網(wǎng)站在“數(shù)字化”名家名作之后,為避免其他網(wǎng)站和用戶任意轉(zhuǎn)載,又將其轉(zhuǎn)為圖像發(fā)布,亦即使“數(shù)字化”的文本退回到“電子化”的圖像階段,12相形之下,“新語絲”同人,甚至當時不少網(wǎng)民,都直接采用了“數(shù)字化”這一做法,以便讀者直接查找、復制、粘貼、再創(chuàng)作;最后,這一記錄同時也向我們表明,關于魯迅文本和有關研究、評論的數(shù)字化工作,在一開始(1996年9月27日)就被創(chuàng)建為一個獨立的網(wǎng)頁“魯迅家頁”(Lu Xun Home Page,早期被稱作“魯迅作品”),其后隨著架構的不斷完善(如創(chuàng)建子網(wǎng)頁“魯迅全集索引”、子目錄“有關魯迅的新聞報道”等)、數(shù)字化魯迅文本的不斷增益、漢字編碼技術(及其標準)在保持相對穩(wěn)定的過程中逐漸變化等因素的影響,“文庫”不僅迅速發(fā)展壯大,其中與魯迅有關的文本,也成為全球中文互聯(lián)網(wǎng)上一道獨特、重要的風景,遠遠超出其他的同類型網(wǎng)站、電子期刊。

然而,這仍然并非是“文庫”有關魯迅文本的全部,亦非其所代表的早期全球“數(shù)字魯迅”生產(chǎn)實踐的全部。其實未進入“新語絲新到資料年月索引”這一“文庫”逐日更新目錄(類似于網(wǎng)站“日志”,但在此時仍系人工添加、統(tǒng)計)中的魯迅文本及其電子化、數(shù)字化記錄(亦即實際上被收入“文庫”及其“魯迅家頁”者),還有不少。今天,雖然因受限于這些資料大多并未公開發(fā)布等因素的影響,我們無法全部統(tǒng)計這些逐日更新目錄之外的魯迅文本,但通過部分已經(jīng)發(fā)布且目前尚能公開訪問的資料,仍可對此一時期“數(shù)字魯迅”生產(chǎn)的另一面向,做出一定的觀察。進而言之,也只有將此一面向,與“文庫”逐日更新目錄中呈現(xiàn)的魯迅文本,乃至關于魯迅的評論、報道等文獻資料合而觀之,我們才有可能把握“新語絲”同人、尤其“文庫”所代表的早期全球“數(shù)字魯迅”生產(chǎn)實踐。

二、從文件樹看“數(shù)字魯迅”早期歷史的一個側面

這些已經(jīng)發(fā)布且目前尚能公開訪問的、有限的文獻資料之中的一篇重要資料,乃為用戶名為“江南小樓”在谷歌網(wǎng)上論壇(https://groups.google.com)的發(fā)帖。該貼名為《〈新語絲〉文庫目錄》,其正文標題為《“新語絲電子文庫”目錄(1998.8.1)》,其中的一部分內(nèi)容即為截至1998年8月1日,由該“文庫”已收集的大量的數(shù)字化的魯迅文本而構造的一個“文件樹”。 不過,在此首先需要說明兩個問題。

第一,這里所謂的“文件樹”,并非修辭、譬喻,而是一種計算機科學術語,意為由不同層級的文件所形成的一個樹狀結構,其在不同的操作系統(tǒng)和編程環(huán)境下呈現(xiàn)出不同的面貌?!拔募洹迸c目錄學、文獻學學術傳統(tǒng)中一般所謂的目錄、索引,既有聯(lián)系,又有差異,其聯(lián)系為共同屬于知識(信息)的組織和表現(xiàn)、發(fā)現(xiàn)形式,差異在于“文件樹”尤其早期的“文件樹”時常也包含了完整的不同層級的文件的存儲、訪問路徑信息,而目錄、索引卻很難做到這一點。但是,即便如此,我們?nèi)钥梢詫ⅰ拔募洹笨醋饕环N特殊的目錄、索引。而在此一名為“魯迅作品”的“文件樹”中,我們可以看出,其以“魯迅作品”為一級目錄,再以魯迅生前出版的作品集及不同的主題建立子目錄,其下依據(jù)其間收錄的具體文本,創(chuàng)立了第三級目錄,當然,這些目錄本身同時也代表著它們的存儲和訪問路徑。這種特殊的目錄、索引,從理論上來說,可以與常見的網(wǎng)站、電子期刊的逐日更新的目錄保持一致,但事實上,因為依據(jù)不同的標準和原則進行規(guī)整,二者往往有所不同:在“文庫”中,逐日更新的目錄(即“新語絲新到資料年月索引”,類似于人工記錄、添加的“網(wǎng)站管理日志”),和這一“文件樹”所顯示的結果也不盡一致。

第二,這里所謂的“構造”,亦非發(fā)帖者“江南小樓”或其他人主觀臆造,或是某人據(jù)該“文庫”所收集的魯迅文本再度加工、整理而來(如同目錄、索引,被視作“二次文獻”的原因,就在于其系編纂人員按照一定知識分類標準、規(guī)則,對原始文獻進行加工、整理,從而形成了一個新的文獻),而是由計算機自動生成。甚至,從理論上來說,其創(chuàng)建者(在此同時也扮演著技術人員的角色)可以一直在維持它的原貌的同時,不斷地進行更新(加入新的文件和文件層級),“文件樹”也能不斷地生長,而不破壞它的整體結構。當然,在所有這些“構造”的背后,既有技術(代碼、程序),也有知識,體現(xiàn)的是知識的重新組織、表現(xiàn)與發(fā)現(xiàn)形式,而就后者而言,任一“文件樹”顯然并非單純的、不同文件的關系的體現(xiàn),恰是閱讀史、書籍史研究者達恩頓所謂的“知識樹”,是知識變遷、文化脈動、文獻體系構造的一種表現(xiàn)形式。13

但本文下述討論的重點,并非是從“知識樹”及其相關角度(如知識史、文化史)來分析這一“文件樹”所傳遞的新的知識生產(chǎn)意涵,相反,更多的是從技術史的角度進行的。為便討論,以下先照錄“文庫”所載“魯迅作品”(截至1998年8月1日)這一“文件樹”全景圖:

../Lu-Xun/ 魯迅作品

..../Introduction.gb 魯迅傳略(方舟子輸)

..../yecao.gb 散文詩集《野草》(方舟子輸)

..../poetry.gb 魯迅舊體詩集注(座山雕、方舟子輸)

..../nahan/ 小說集《吶喊》(不亮輸)

..../Panghuang/ 小說集《彷徨》

..../Gushi/ 小說集《故事新編》

..../zhaohua-xishi/ 散文集《朝花夕識》(蓮波輸)

..../pictures/ 魯迅照片

....../Lu-Xun1.gif 魯迅照片(青年)

....../Lu-Xun2.gif 魯迅照片(1933)

....../Lu-Xun3.gif 魯迅照片(1930)

....../luxun4.gif 魯迅照片(1930)

....../luxun5.gif 魯迅照片(1933)

....../luxun6.gif 魯迅照片(1936)

....../family.gif 魯迅合家照(1933)

....../handwriting*.gif 魯迅手稿

....../poetry*.gif 魯迅詩稿

..../essays/ 雜文

....../fen/ 雜文集《墳》

......../index.gb 《墳》目錄(哈哈輸)

......../preface.gb 魯迅《〈墳〉題記》

......../jielie.gb 魯迅《我之節(jié)烈觀》

......../nala.gb 魯迅《娜拉走后怎樣》

......../genius.gb 魯迅《未有天才之前》

......../being_father.gb 我們怎樣做父親(哈哈輸)

......../Leifeng_pagoda.gb 論雷峰塔的倒掉(哈哈輸)

......../beard.gb 魯迅《說胡須》

......../photography.gb 魯迅《論照相之類》

......../Leifeng_pagoda2.gb 再論雷峰塔的倒掉(哈哈輸)

......../mirror.gb 看鏡有感(海生輸)

......../late_spring.gb 魯迅《春末閑談》

......../under_lamp.gb 魯迅《燈下漫筆》

......../misc_recall.gb 魯迅《雜億》

......../tamade.gb魯迅《論“他媽的!”》

......../teeth.gb 魯迅《從胡須說到牙齒》

......../jianbi.gb 魯迅《堅壁清野主義》

......../kuofuism.gb 魯迅《寡婦主義》

......../fairplay.gb 魯迅《論“費厄潑賴”應該緩行》

......../open_eyes.gb 論睜了眼看(海生輸)

......../postscript.gb 寫在“墳”后面(哈哈輸)

....../refeng/ 雜文集《熱風》

......../preface.gb 魯迅《〈熱風〉題記》

......../essay25.gb 魯迅《隨感錄二十五》

......../essay33.gb 魯迅《隨感錄三十三》

......../essay35.gb 魯迅《隨感錄三十五》

......../essay36.gb 魯迅《隨感錄三十六》

......../essay37.gb 魯迅《隨感錄三十七》

......../essay38.gb 魯迅《隨感錄三十八》

....../er_xin_ji/ 雜文集《二心集》

......../good_goverment.gb 好政府主義(方舟子輸)

......../hard_translation.gb 硬譯與文學的階級性(方舟子輸)

......../knowing_and_doing.gb 知難行易(方舟子輸)

......../running_dog.gb 喪家的資本家的乏走狗(方舟子輸)

....../wei_ziyou_shu/ 雜文集《偽自由書》

......../king_way.gb 王道詩話(方舟子輸)

......../light_coming.gb 光明所到(方舟子輸)

......../sell_soul.gb 出賣靈魂的秘訣(方舟子輸)

....../huabian_wenxue/ 雜文集《花邊文學》

......./Beijing_and_Shanghai.gb 京派和海派(方舟子輸)

......./friends.gb 朋友(方舟子輸)

......./new_year.gb 新年(方舟子輸)

....../eryi_ji/ 雜文集《而已集》

......../literature_and_sweat.gb 文學與出汗(方舟子輸)

......../Wei-Jin_manner.gb 魏晉風度及文章與藥及酒之關系(方舟子輸)

......../face_of_Chinese.gb 略論中國人的臉(方舟子輸)

....../zhun_fengyue_tan/ 雜文集《準風月談》

......../body_search.gb 《“抄靶子”》(大隸輸)

....../huagai_ji/ 雜文集《華蓋集》

......../beida.gb 魯迅《我觀北大》(一華輸)

..../criticism/ 魯迅評論

....../Mr.Lu-Xun.gb 張定璜《魯迅先生》(方舟子輸)

....../death_of_Lu-Xun.gb 林語堂《魯迅之死》

....../Liang-Shiqiu.gb 梁實秋論魯迅(南山明輸)

....../Li-Zehou.gb 李澤厚論魯迅(方舟子輸)

....../Lu_Mei.gb 袁良駿《兩位藝術大師為何不相能?——略論魯迅與梅蘭芳》

..../reports/ 有關魯迅的新聞報導

..../biography/ 魯迅傳記資料

....../zhu-an.gb 魯迅與朱安

透過這一“文件樹”,我們首先可以看到,此時“文庫”的數(shù)字化對象已涉及至少13種魯迅作品集單行本。其中,散文詩集《野草》、小說集《吶喊》、小說集《彷徨》、小說集《故事新編》、散文集《朝花夕識》、雜文集《墳》等6部作品集中的絕大部分篇目已數(shù)字化。具體情況如下:

(1)《野草》收文(此處及以下篇目之統(tǒng)計,均以各書初版本及1938年版《魯迅全集》為主,另外也參考了1973年版、1981年版、2005年版《魯迅全集》,恕不贅述)23篇(不含“題辭”),“文庫”則收文24篇(含“題辭”)。另收有《〈野草〉英文譯本序》(魯迅)及《〈野草〉簡介》(方舟子)二文?!丁匆安荨岛喗椤芬晃膶懙妙H為用心,除簡介該集所收篇目的發(fā)表、選入教材及作者的自我表述等方面的情況外,還交代了《題辭》被《野草》各版本及魯迅作品集時而收入、時而抽去的原因及具體事實。

(2)《吶喊》收文15篇(含“自序”),“文庫”亦收文15篇(不計《吶喊》之目錄)。這里需要說明的是,目錄頁,在紙書中雖占一定篇幅、位置重要,但一般并不被看作是一獨立文獻,而到了電子化、數(shù)字化的階段,則其必須是一個獨立文件。但即便如此,若是從內(nèi)容角度而言,尤其是在進行數(shù)字化與原有紙質(zhì)文獻的比較研究、統(tǒng)計,作對齊式的分析時,似可略去。事實上,在“文庫”所收《吶喊》集中,除了獨立的《〈吶喊〉目錄》(尚未歸檔時輸入),還有另外一個目錄,亦即包括了《〈吶喊〉目錄》及集中諸文的目錄(全部文件歸檔整理時產(chǎn)生)。筆者以為,為避免混亂,在統(tǒng)計分析時有必要剔除這兩個目錄,當然,這并不是說它們不重要。下同。

(3)《彷徨》收文11篇,“文庫”盡收其文。其中有一處明顯的誤植,即在該書目錄界面,錯將《弟兄》一文的題目錄為《兄弟》,但正文中的標題無誤,仍為《弟兄》。

(4)《故事新編》收文9篇(含“序言”),“文庫”盡收其文。

(5)《朝花夕拾》收文12篇(含“小引”“后記”),“文庫”盡收其文。另有一《〈朝花夕拾〉簡介》(方舟子),其特色如《〈野草〉簡介》。

(6)《墳》收文25篇,“文庫”收文20篇(不計《墳》之目錄),未收入的篇什為:《人之歷史》《科學史教篇》《文化偏至論》《摩羅詩力說》《宋民間之所謂小說及其后來》。這5篇文章中,除了《宋民間之所謂小說及其后來》是學術論文,前4篇文章均為魯迅早期的文言論文,它們的意義在當時或許尚未得到充分的認識,因此,也就被遺漏在外了。另外,因為各文的輸入者、校對者均非一人,而是成自眾人之手(需要指出的是,這里筆者并非暗示相反的情形,即由一人完成全部數(shù)字化工作,就能保證其文本質(zhì)量,詳見下文論述),以致各篇目標題是否加書名號、作者魯迅等,亦未能統(tǒng)一。“文庫 ”編者也并未對其統(tǒng)一、對齊,但這并不是由于其未有如此之意識,更多的或是由于FTP環(huán)境下文件上傳后,根目錄文件不僅是對文件的命名,而且包含著指定的存儲和訪問路徑,一旦頻繁更名(更名須手動、逐一為之),極易造成混亂這一技術條件造成的。

另一方面,雖然其數(shù)字化的魯迅文本涉及不少魯迅作品集單行本,在所有這些單行本著作中,又以雜文集為多(共8種,在全部被數(shù)字化的魯迅作品集中占比約62%,這也與魯迅創(chuàng)作、出版文類數(shù)量本身的多寡大概保持一致),但在對這些雜文集所收文章,是否需要全部數(shù)字化這一問題上,似乎并未在事先形成明確的、穩(wěn)定的認識,毋寧說更多地體現(xiàn)出一種主觀性、任意性。對于這一點,我們既可以從這一“文件樹”所收各種雜文集的順序中看出,也可以從其具體對每種魯迅雜文集的數(shù)字化過程中所作的選擇中發(fā)現(xiàn)。事實上,除了《墳》較多被數(shù)字化以外,其余各種雜文集的數(shù)字化程度并不平衡。當然,即便有這些林林總總的問題,在這一過程中,也體現(xiàn)出“文庫”編者一定程度的文獻編纂意識:

(1)《熱風》收文28篇,而“文庫”收文7篇,均為1918年魯迅所作。但這7篇文章,在不同版本的《魯迅全集》(以下簡作《全集》)中,則被合并為2或4篇,即《隨感錄二十五》與《隨感錄三十三至四十三》(1938年版、1973年版);《隨感錄二十五》與《三十三》《三十五至三十八》《隨感錄三十九至四十三》(1981年版、2005年版)。顯然,“文庫”并未采用上述任何一種《全集》的編纂方針,而是將其拆分成了7篇單獨的文章。此外,這7篇文章亦未循例注明輸入者、校對者,可能是從網(wǎng)上搜集而來,并非“文庫”編者輸入,校對。

(2)《二心集》收文39篇,而“文庫”收文僅4篇,除《知難行易》(應為《知難行難》)系1931年所作外,其余3文均為1930年魯迅所作雜文。另外,這4篇文章在其初版本、各版本的《全集》中的順序,亦非如“文庫”所示。

(3)《偽自由書》收文45篇(不計附文、“備考”),而“文庫”收文僅3篇,均為魯迅1933年所作。此外,這3篇文章的先后順序,與原書一致。

(4)《花邊文學》收文62篇(不計附文、“備考”),而“文庫”收文僅3篇,且其編次與原書不同。

(5)《而已集》收文31篇(不計附文、“備考”),而“文庫”收文僅3篇,其編次亦與原書不同。

(6)《準風月談》收文66篇(不計“備考”),而“文庫”收文僅《“抄靶子”》1篇。

(7)《華蓋集》收文33篇,而“文庫”僅收《我觀北大》1篇。而收入此文的原因,或與當時有關北大的新聞事件有關。

當然,所有這些數(shù)字化的魯迅雜文文本,在魯迅的全部雜文創(chuàng)作中,仍只是少數(shù)一部分。且不論各集所遺漏的大量文章,僅在這8部雜文集之外,諸如《華蓋集續(xù)編》《三閑集》《南腔北調(diào)集》《且介亭雜文》《且介亭雜文二集》《且介亭雜文末編》《集外集》《集外集拾遺》(許廣平編)《集外集拾遺補編》(1981年版《全集》編入)等9部雜文集,皆尚未引起“文庫”編者,乃至其他的計算機用戶/讀者注意,而被見棄于“文庫”,有待以后補充。

但更重要的是,這一“文件樹”也顯示出,還有一些新的魯迅文獻資料已被數(shù)字化,不限于其文學作品,尤其新文學作品,其中包括魯迅照片、手稿、詩稿及魯迅舊體詩集注。但對這些文獻資料的數(shù)字化,似乎與對魯迅文本的數(shù)字化的性質(zhì)、特點是一樣的,因為其經(jīng)歷了一個相當長的過程,而且很可能出自眾人之手,因此,其原則并不一致。僅以其照片部分為例,對這些電子化的照片文件本身(皆為.gif文件)的命名,此時已出現(xiàn)兩種格式:其一為“Lu-Xun+序號”,其二為“l(fā)uxun+序號”;而且,全部7張照片并未按照其形成時間先后編次,顯得有些混亂(這一問題在其后被糾正,并新增了“上海魯迅公園魯迅墓”照片)。不過,對這些照片的出處進行考察,可以幫助我們解決一個重要問題,此即“文庫”編者數(shù)字化的魯迅文本(或者至少大多數(shù)被收入“文庫”的、經(jīng)由“文庫”編者數(shù)字化的文本),其母本/紙本文獻究竟源于何處?實際上,在“魯迅家頁”主頁,在魯迅照片、詩稿和手稿照片、傳記、年譜與全集文本中間,有兩條分割線,在分割線的居中位置,就寫著“以下作品均據(jù)人民文學出版社版校對”一行文字,向讀者表明以下的全集文本“均據(jù)人民文學出版社版校對”,但我們知道,在此之前,人民文學出版社已出版1973年版和1981年版兩個版本的《全集》,那么,究竟人民文學出版社出版的哪一個版本的《全集》,抑或該社出版的某一魯迅作品集單行本(這一可能性不能說沒有,但由于魯迅的不同的作品集單行本在1949-2000年間擁有太多的版本,而在學界未對這一版本問題做出堅實研究和可靠結論之前,想要討論這一可能性幾乎無從著手,因此,筆者在此只能排除這一可能),何者才是“文庫”生產(chǎn)、制作“數(shù)字魯迅”所依據(jù)的底本呢?

仔細對照、考察這些收入“文庫”及“魯迅家頁”的魯迅照片的電子版、數(shù)字版與紙質(zhì)文獻來源,可得如下結果:

(1)“魯迅照片(青年)”:實即1903年魯迅旅日時所攝照片,相繼被收入1973年版《全集》第2卷和1981年版《全集》第1卷。

(2)“魯迅照片(1933)”:攝于1933年5月1日之上海春陽照相館14(如圖1),但“文庫”所收該照片的電子化版本(如圖2),并非原始照片的復制件,而是將原圖進行裁剪、壓縮、重新著色的結果。不過,我們并不清楚這一結果是由“文庫”編者或“新語絲”同人所為,還是由某一網(wǎng)民自其他紙質(zhì)文獻翻拍,而后予以技術處理得來。此一魯迅照片電子化版本流傳甚廣,至今亦可見于網(wǎng)絡和多種書刊資料,但若是將此二照片作一對照,便可確認“文庫”版本的照片(即網(wǎng)上流行的魯迅照片)并非原照、原圖,恰由對原照進行技術處理而來這一事實。另外,如果不是對照原始照片,我們也很容易將這一“文庫”所收魯迅照片與1981年版《全集》第8卷收入的、魯迅于1931年5月26日為斯諾著《活的中國——現(xiàn)代中國短篇小說選》一書所攝照片(如圖3)混同,將其視作后者翻轉(zhuǎn)的結果,其實二者雖攝制于大約同一時期,照片中魯迅的神態(tài)、發(fā)型、衣著等較為近似,但并非同一物。

(3)“魯迅照片(1930)”:該照片現(xiàn)已無法訪問,此處無法討論。但據(jù)筆者推測,此文件[原文件名為“Lu-Xun3.gif”,顯示文件名為“魯迅照片(1930)”]與“文庫”所收第4張照片[即本文接下來要討論的照片,原文件名為“l(fā)uxun4.gif”,顯示文件名同為“魯迅照片(1930)”]或為同一幅照片,后來“文庫”編者發(fā)現(xiàn)了這一點,因此將其予以刪除。

(4)“魯迅照片(1930)”:攝于魯迅五十壽辰之時,相繼被收入1973年版《全集》第1卷和1981年版《全集》第4卷。

(5)“魯迅照片(1933)”:攝于上海大陸新村寓所,相繼被收入1973年版《全集》第19卷和1981年版《全集》第4卷。但1973年版《全集》第19卷所收魯迅譯著《豎琴》《一天的工作》并未進入“文庫”。

(6)“魯迅照片(1936)”:系1936年10月8日魯迅在全國第二回木刻流動展覽會上所攝,收入1981年版《全集》第6卷。但“文庫”所收電子版的色度失調(diào),難以看出魯迅當時所坐藤椅的扶手(原照片左下角位置)和其左方的另一椅背(原照片右上角位置)等細節(jié)。

(7)“魯迅合家照(1933)”:實即1933年魯迅五十三歲壽辰全家合影,被收入1981年版《全集》第5卷。

在此,我們對上述討論結果作一總結,便可得出以下兩點結論:首先,上述6張照片中,共有3張照片被同時收入1973年版和1981年版《全集》,但在1981年版《全集》中,收入了其中5張照片;其次,如上所述,收入了“魯迅照片(1933)”的1973年版《全集》第19卷所收魯迅譯著《豎琴》《一天的工作》并未進入“文庫”,相形之下,收入了多達5張照片的1981年版《全集》的第1、4、5、6、8卷中的魯迅原創(chuàng)作品集,即《墳》《熱風》、《吶喊》(以上收入第1卷)、《三閑集》《二心集》《南腔北調(diào)集》(以上第4卷)、《偽自由書》《準風月談》《花邊文學》(以上第5卷)、《且介亭雜文》《且介亭雜文二集》、《且介亭雜文末編》(以上第6卷)、《集外集拾遺補編》(第8卷)中,一半以上的作品集,均進入了“文庫”。在這兩點結論的基礎之上,我們似乎可以得出這樣的結論:如果“文庫”編者采用人民文學出版社出版的某一版本的《全集》,對魯迅的照片及其文本進行電子化、數(shù)字化的話,只有1981年版《全集》才能滿足其絕大多數(shù)需要,也就是說,1981年版《全集》而非1973年版甚至更早版本的《全集》,才可能是這一數(shù)字化工作的重要紙質(zhì)文本來源。

但在針對其照片的數(shù)字化工作展開分析之外,配合對其創(chuàng)作文本的研究,我們還可以進一步發(fā)現(xiàn),該“文庫”及此前問世的“新語絲”電子期刊上出現(xiàn)的魯迅文本(含創(chuàng)作文本、照片等),可能并非只有一個版本來源(即1981年版《全集》),而是擁有眾多的版本和文本來源。舉一個小小的例子來說,本節(jié)上文曾指出,從這一“文件樹”看,當時被“文庫”數(shù)字化的魯迅作品集中,并不包括《集外集拾遺補編》(編入 1981年版《全集》,但并非魯迅生前自定)這一雜文集,但是,在本文第一節(jié)論述的、首先出現(xiàn)于“新語絲”電子期刊“周氏兄弟專輯”的魯迅舊體詩《別諸弟三首(庚子二月)》曾編入1981年版《全集》之《集外集拾遺補編》,然而,無論是期刊編者,還是“文庫”編者,顯然都并未意識到這一點,因此,并未在當時(甚至以后)建立《集外集拾遺補編》的目錄和全文,何以如此呢?一個可能的解釋是,他們在數(shù)字化這組舊體詩時,很大可能并未參考1981年版《全集》,而采用的是周振甫著《魯迅詩歌注》這一整理本,而在其后,他們也并沒有通檢1981年版《全集》,因此并不知道該組詩系《集外集拾遺補編》所收一文,因此,在“文庫”中僅僅建立了“魯迅舊體詩集注”的目錄和全文,注明了其注釋來源,乃至錄入者、注釋者,且據(jù)《魯迅詩歌注》將該組詩列為全部魯迅舊體詩(共六十一首)之首,供讀者閱讀,但并未為《集外集拾遺補編》創(chuàng)建有關的記錄。當然,這與他們在數(shù)字化其他的魯迅文本時,采用1981年版《全集》或是其他紙質(zhì)書籍(如某一魯迅作品集的單行本,甚至是某一選本),也并不矛盾。

但是,透過這一“文件樹”,我們進一步發(fā)現(xiàn),部分關于魯迅的評論、當代報道、傳記資料,此時也已被數(shù)字化并收入“文庫”。與大量被數(shù)字化的魯迅文本一樣,其中許多作品也標明了輸入者,或是在文末加上了校對者的大名,體現(xiàn)出“文庫”編者一定程度的文獻整理意識(至于哪些未注明輸入者、校對者的作品,如上所述,也可能來自于其他用戶,是編者從網(wǎng)上搜集而來,而非“新語絲”同人或“文庫”編者所為),及愿意將自己視為這些數(shù)字文本的作者的新的作者觀念。不過,這些意識、觀念都不能保證其在文字輸入、整理方面不犯錯誤。在數(shù)字化的魯迅文本(這里不討論有關魯迅的報道、評論等類型的文獻資料)中,這些錯誤大致可以分為三類:

(1)文字輸入時不慎造成的誤植:如《雜億》應為《雜憶》,《知難行易》應為《知難行難》,《京派和海派》應為《“京派”與“海派”》,《新年》應為《過年》,《文學與出汗》應為《文學和出汗》等。

(2)一些可能是由簡括造成的訛誤:如《我們怎樣做父親》應為《我們現(xiàn)在怎樣做父親》,《喪家的資本家的乏走狗》應為《“喪家的”“資本家的乏走狗”》,《硬譯與文學的階級性》應為《“硬譯”與“文學的階級性”》,《光明所到》應為《“光明所到……”》等。

(3)在標題之外,具體的正文之中出現(xiàn)的錯誤:如《野草》中的《求乞者》一文的第三、四段,1981年版《全集》作:

一個孩子向我求乞,也穿著夾衣,也不見得悲戚,而攔著磕頭,追著哀呼。

我厭惡他的聲調(diào),態(tài)度。我憎惡他并不悲哀,近于兒戲;我煩厭他這追著哀呼。15

“文庫”則作“一個孩子向我求乞,也穿著夾衣,也不見得悲戚,近于兒戲;我煩膩他這追著哀呼?!?6其間不僅刊落了“而攔著磕頭,追著哀呼。我厭惡他的聲調(diào),態(tài)度。我憎惡他并不悲哀”等語句,還將末句“我煩厭他這追著哀呼”中的“煩厭”誤植為“煩膩”(這很可能是由于下文魯迅曾兩次使用“煩膩”一詞,因而“文庫”編者、錄入者、校對者便以為此處亦宜統(tǒng)一作“煩膩”造成的,但正如孫用所言,該文最早在《語絲周刊》發(fā)表時,此處的“煩厭”一語,原作“煩膩”。17只是不知何故,1981年版 《全集》將其改作“煩厭”)。

顯然,這些不同程度的錯誤,乃至“文庫”其他方面的表現(xiàn),均向我們表明編者的文獻整理、編纂意識,抑或其所具有的文獻學功力,仍然是相當有限的。還是以上文分析過的、“文庫”中的“魯迅舊體詩集注”為例,實際上,“文庫”所謂的“集注”并非古文獻學領域所謂的集數(shù)家、百家之注而總其成,并附上自家見解的文獻整理類著作,或是指代此類整理、研究工作本身,相反,只是據(jù)周振甫著《魯迅詩歌注》對61首魯迅舊體詩作一 一加注而已。我們很難想象,一個接受過專業(yè)的文獻學訓練的學者,會亂用、誤用“集注”這一再基礎不過的概念,但話又說回來,又有多少專業(yè)學者在此時(甚至此后)“觸電”“觸網(wǎng)”,且孜孜矻矻,不憚煩勞,從事此類電子化、數(shù)字化的工作呢?

三、漢字編碼與“數(shù)字魯迅”的早期歷史

其實,無論我們站在今天的立場上(一種后見之明?)對早期的“數(shù)字魯迅”生產(chǎn)實踐提出多少嚴苛的批評和質(zhì)疑,它的開拓性、先鋒性,都是不容置疑的。尤其從數(shù)字技術的發(fā)展角度來看,上舉這一“文件樹”及其文件命名、格式本身,直接揭示了漢字編碼技術對于早期“數(shù)字魯迅”的重要影響,值得深入探究。

這里我們首先注意到,這些作品(作為電子文件)皆以.gb形式命名,而這里的“gb”正是數(shù)字化過程中采用國標碼漢語編碼而制作電子文件時所必須有的特征。那么,為什么在早期的“數(shù)字魯迅”生產(chǎn)實踐過程中,被數(shù)字化的魯迅文本及其相關資料,沒有采用我們熟悉的.txt、.doc、.pdf、.htm(l)等格式,而是.gb格式?除了“魯迅作品”(截至1998年8月1日)這一“文件樹”,囊括了絕大多數(shù)魯迅文本、研究資料的“魯迅家頁”文件目錄,何以也采用了與前者幾乎相同的形式(只是未曾顯示最底層的根目錄文件),大致上仍可視作FTP環(huán)境下的“文件樹”這一形式呢?這就與計算機操作系統(tǒng)、網(wǎng)絡傳輸技術、中文信息處理技術,尤其漢字編碼技術的發(fā)展密切相關了。

以下我們先來討論后一問題,即“魯迅家頁”的文件目錄,同樣采用FTP環(huán)境下的“文件樹”這一形式的原因。實際上,與我們熟知的、后來成為主流互聯(lián)網(wǎng)瀏覽器的Internet Explorer瀏覽器,從1995年開始被內(nèi)置于各個新版本的 Windows 操作系統(tǒng)(此時尚未成為主流操作系統(tǒng),取代Unix、Linux系統(tǒng)),成為微軟 Windows 操作系統(tǒng)的一個組成部分——不同,在Windows 操作系統(tǒng)(及其內(nèi)置的IE瀏覽器)未取得統(tǒng)治地位之前,其他的互聯(lián)網(wǎng)瀏覽器如Lynx(適用于Unix、Linux系統(tǒng)的純文字網(wǎng)頁瀏覽器)、Netscape(1994年發(fā)布)、Mosaic(1993年發(fā)布)等,早已在市場嶄露頭角,擁有大量用戶。因此,在“文庫”之前創(chuàng)生的“新語絲”電子期刊,便為用戶提供了兩個網(wǎng)址(即http://www.xys.org與http://xys.asianews.com),以便其透過互聯(lián)網(wǎng)瀏覽器的方式進行訪問、獲取。但是,仍有不少剛剛“觸電”“觸網(wǎng)”的用戶,對此種上網(wǎng)方式并不熟悉,而是習慣于使用FTP上傳、下載、共享、訪問文件,也因此,“新語絲”給讀者提供的第一種使用方式,就是一個匿名的FTP地址: xys.org/pub/xys,并提醒讀者“注意大多數(shù)文件是國標碼,必須用binary transfer”。雖然FTP可用多種格式傳輸文件(這通常由操作系統(tǒng)決定),但當時流行的大多數(shù)Unix、Linux系統(tǒng)只有兩種模式:文本模式和二進制模式。其中,“文本傳輸器使用ASCII字符,并由回車鍵和換行符分開,而二進制不用轉(zhuǎn)換或格式化就可傳字符,二進制模式比文本模式更快,并且可以傳輸所有ASCII值,所以系統(tǒng)管理員一般將FTP設置成二進制模式?!倍@正是它們?yōu)楹我笞x者“必須用binary transfer”(意為“二進制傳輸模式”——引者注)的原因所在,也決定了“文庫”及“魯迅作品”“魯迅家頁”繼承這一做法,而非另辟蹊徑。

但“文庫”中這些數(shù)字化的魯迅文本及相關資料,皆采用.gb這一文件格式,從而生成GB版本的文本,與“新語絲”電子期刊采用GB、HZ、Big5、PS多種版本之間,仍形成明顯的差異。令我們不禁感到好奇的是,何以后者只有一種格式(后來全部改成.txt格式),而前者需要采用多種格式呢?這或許是由電子期刊的公共性質(zhì)、同人性質(zhì),與“文庫”屬于編者(同時也可能是最主要的文字錄入者、校對者)方舟子的個人興趣、行為之間的不同性質(zhì)所決定的。簡言之,前者是集體合作的產(chǎn)物,而且定期刊出,希望能夠爭取更多的讀者,因此,為便利讀者計,須盡可能多地采用不同的漢字編碼技術,因此也就形成了不同的格式和版本;而后者寄托了方舟子本人的愛好、理想,無論是出于節(jié)省時間、精力的考慮,還是長期維系這一工作本身的需要,他都有理由采用一種統(tǒng)一的、單一的漢字編碼格式??墒?,接下來我們需要追問的是,在所有的編碼格式中,其何以只選擇了GB碼,而非其他?

眾所周知,20世紀七十年代到九十年代的中文信息處理技術,由于技術限制、數(shù)據(jù)限制和漢語言文字本身的語言特點,相對較為簡單、有限。這些早期的中文信息處理技術,一般包括輸入法、文字編碼、信息檢索等,其中漢字編碼技術尤為關鍵。具體而言,為了在計算機中存儲和處理中文字符,需要制定相應的文字編碼方案。當時被發(fā)明并被普遍使用的編碼標準及字符集,就包括GB碼、Big5等。這些編碼方案,允許計算機以數(shù)字形式來表示中文字符,從而實現(xiàn)中文信息在計算機中的傳輸和處理。其中,在“文庫”編輯過程中,被一直采用的、作為漢字編碼標準的GB碼(全稱為GB2312-80編碼,亦稱GB2312編碼,簡稱GB碼、國標碼),是一個由國家標準總局于1981年5月1日發(fā)布并實施的、針對簡體中文字符集的國家標準。其全稱為《信息交換用漢字編碼字符集——基本集》,共收錄6763個漢字,并對所收漢字作了“分區(qū)”處理(每區(qū)含有94個漢字/符號),這種表示方式也被稱為“區(qū)位碼”。而在此基礎上更新的GBK碼(亦稱HZ編碼),由全國信息技術標準化技術委員會于1995年12月1日制訂,并于當月15日由國家技術監(jiān)督局標準化司、電子工業(yè)部科技與質(zhì)量監(jiān)督司聯(lián)合頒布。這一新的標準基本上采用了原GB2312-80編碼所有的漢字及碼位,涵蓋了原Unicode(在ASCII碼基礎上建立,1991年10月發(fā)布,1992年6月加進漢字即“中日韓統(tǒng)一表意文字集”)19所有的20902個漢字,總共收錄21003個漢字、883個符號,并提供1894個造字碼位,可輸入簡、繁體中文。20兩相比較,后者的優(yōu)勢更為明顯。

但引人矚目的是,“文庫”并未采用GBK碼這一新的、更加優(yōu)良的編碼標準,而是長期維持早已使用中的GB碼這一規(guī)范。換言之,“文庫”從創(chuàng)生到1999年年初的中文文本編輯規(guī)范,一直采用GB碼而非GBK碼,一定并非偶然,實有意致之。極為概括地來說,除了如前述所言,這一生產(chǎn)實踐本身具有的個人性、私人性(在這里,其不僅與個人愛好、非功利性聯(lián)系在一起,而且還意味著一種主觀性、偶然性和一定程度上的不可解釋性)之外,還與“文庫”編者方舟子在網(wǎng)上發(fā)帖、發(fā)送電子郵件、輸入中文文本等的習慣一致,因不僅是他本人,“新語絲”同人大多曾在中國大陸長期接受簡體字的教育,需要與其他的簡體字用戶在網(wǎng)上保持日常、頻繁的交流,而GBK碼的優(yōu)勢只有在使用生僻字、繁體字時才能見出其優(yōu)勢,一般情況下,GB碼已堪其用(當然“文庫”編者,對其限制應有一定認識,這表現(xiàn)在:“文庫”所收魯迅文本中的許多古字、生僻字,亦即不被GB碼字符集收錄的集外字,常不得不被拆分作兩個字或是幾個獨立的偏旁部首的組合,并以此形式表示)??傊?,如此種種考慮,決定了“文庫”如果選擇唯一的漢字編碼格式,就一定是GB碼,而非其他。

與“文庫”不同,“新語絲”電子期刊除了采用GB碼,還采用了HZ、Big5、PS等另外三種不同的編碼標準,向讀者提供多種可供計算機閱讀的文件格式和版本。其中,HZ字符編碼(亦即GBK編碼)是早期為了在只支持7位ASCII(美國信息交換標準代碼,基于拉丁字母而設計,主要用于顯示英語和常用標點,共128個字符,屬于底層的電腦編碼系統(tǒng),其他任何語文的編碼皆須與之匹配)系統(tǒng)中顯示、傳輸中文而設計的編碼方式;Big5編碼(亦稱大五碼、五大碼)兼容ASCII系統(tǒng),是我國臺灣地區(qū)推出的繁體中文字符集標準;PS編碼則是指GB18030編碼標準,來自《信息技術漢字編碼字符集 基本集的擴充》這一國家標準,其最新版本是GB18030-2005,最早版本為GB18030-2000,由信息產(chǎn)業(yè)部、國家質(zhì)量技術監(jiān)督局于2000年3月17日聯(lián)合發(fā)布,并于2001年1月作為一項強制性的國家標準開始實行。21但我們知道,這一編碼格式晚于該刊的創(chuàng)刊時間(1994年2月),因此,可以推定,這是該期刊在2000年以后為了適應新的中文處理技術、漢字編碼技術而做出的改變,并非一開始就有。易言之,這些不同的編碼技術的被采用,雖然是出于期刊需要照顧不同國家和地區(qū)、使用不同的計算機操作系統(tǒng)和互聯(lián)網(wǎng)瀏覽器用戶的考慮,但并沒有一開始就被確立為期刊的在線編輯原則之一,而是隨著技術的發(fā)展不斷地擴充,為了最大程度上滿足此后讀者的需要和期刊內(nèi)容存檔的需要,而并非僅僅是同時代讀者的需要。

但“文庫”難道就不用考慮早期及以后計算機用戶/讀者的需要,而不斷做出改變嗎?實際上,其長期采用GB碼生成的、GB版本的文件的可擴展利用的功能,受到它本身的限制頗多。除了使用互聯(lián)網(wǎng)瀏覽器,或是 Genome Compiler 等專門的軟件,或FTP方式進行訪問、閱讀,讀者若是想對其作進一步的復制、粘貼、編輯等操作,遠不如其他格式、版本的文件來得更加便利。在使用了五年多的GB碼之后,“文庫”全部文件的格式統(tǒng)一改為.txt也正說明了這一不足,及編者因應這一不足的努力。具體來說,隨著1990年代中后期不同計算機操作系統(tǒng)之間的充分競爭,尤其是Windows操作系統(tǒng)的不斷普及,以及其中集成的“記事本”這一軟件的深入人心,越來越多的用戶開始希望使用與“記事本”相匹配的(亦尤其生成的).txt格式文件來閱讀各種文檔、資料,故此,1999年1月31日,“文庫”發(fā)布了一條通知:“1/31, 應IE用戶要求,所有文件名稱從.gb改為.txt?!敝链巳疚募几臑榱?txt格式,可以被便捷地閱讀、復制、粘貼、編輯,而由“文庫”所代表的早期“數(shù)字魯迅”生產(chǎn)實踐,由此也走出了GB碼編碼時代,進入了ANSI(在中文操作系統(tǒng)中指GBK,日文系統(tǒng)中是JIS,英文系統(tǒng)中則是ASCII)和UTF-8、UTF-16編碼時代,這些新的編碼技術(及其形成的文件)既可兼容中文繁簡體,也有更豐富的擴展功能,更方便讀者利用。而在這一文件格式的轉(zhuǎn)換過程中,方舟子應該是利用計算機編程語言,開發(fā)出了專門的、相應的程序(即包括“代碼轉(zhuǎn)換工具”在內(nèi)的諸多程序),從而能夠?qū)B碼文件自動轉(zhuǎn)換為能夠閱讀GB碼的txt、html等純文本文件,從此延續(xù)至今(當然這里頭并不包括他后來完全放棄GB碼,而采用新的漢字編碼標準的文本)。

經(jīng)由對上述問題的討論和分析,我們可以更進一步看到,漢字編碼技術在早期“數(shù)字魯迅”的生產(chǎn),其實扮演了一個非常關鍵、基礎的作用。在公共層面,對于“新語絲”同人(尤其是期刊編者)而言,他們希望嘗試采用不同的編碼標準如GB碼、HZ、Big5、PS等,以此生產(chǎn)不同的魯迅文本及有關文獻資料(數(shù)量極為有限),但在個人層面,“文庫”編者仍更青睞于與自己的教育背景、文化背景、交際需要關系密切的GB碼,并根據(jù)自己的興趣、選擇和當時能夠利用的紙質(zhì)文獻、數(shù)據(jù)資源,不斷對魯迅文本及有關資料進行數(shù)字化,進而創(chuàng)造了一副新的、不同于期刊的“魯迅像”,這其中既有魯迅的肖像、照片、手稿、新舊文學文本,也有大量關于他的報道、評論、傳記資料等,不啻為另一版本——或是早期數(shù)字版本——的“魯迅全集”,甚至我們或許完全可以將其視作一種新的“魯迅全集”版本,因為究其本質(zhì)而言,這一數(shù)字化的“魯迅作品”,并非既有的、任何一種紙質(zhì)“魯迅全集”的電子版、數(shù)字版或鏡像產(chǎn)品,亦非是現(xiàn)成的、某一“魯迅作品”目錄及其全文的復制件,而是一種新的人工創(chuàng)造(artifacts),一種利用新的、自動化的機器和技術對魯迅文本進行編碼(這里我們不是從這一術語的提出者斯圖亞特?霍爾的角度來使用它,恰是在其原初的意義上)、解碼的文化生產(chǎn)實踐,一種“數(shù)字魯迅”生產(chǎn)實踐。

當然,在這一中文信息處理技術之外,網(wǎng)絡基礎設施、數(shù)字讀寫能力等方面的因素,也在不同程度上參與了“數(shù)字魯迅”的早期生產(chǎn),乃至對早期“數(shù)字魯迅”的接受過程當中。在這一生產(chǎn)過程中,“文庫”編者除了無償付出大量時間和精力,還需要不斷解決來自服務器、網(wǎng)絡、硬盤存儲等與數(shù)字文化生產(chǎn)息息相關的、多方面的計算機軟硬件問題。例如,1999年12月24日,方舟子在“新語絲”發(fā)布了一封寫給“兩個多月以來投過稿或來信聯(lián)系的讀者”的“通知”,就透露出其所遭受的、來自硬盤存儲方面的困擾:

我的PC硬盤在一周前損壞,目前仍然未修復。自10月5日到12月18日之間的新文件和信件有可能全部丟失。如果您在此期間曾經(jīng)向我投過稿而未見登出,或者來信約稿、商量廣告適宜(應為“事宜”之誤——引者注)而未見答復,請重寄一遍。多謝!23

而在接受過程中,“新語絲”的用戶,一開始較多地集中于海外的中文讀者群體,但到了1990年代后期(有研究者認為,“到1998年,互聯(lián)網(wǎng)抵達了世界各國”24),尤其是2000年以來,已引起越來越多的中國大陸的計算機用戶/讀者的注意。當然這也與此時中國大陸家庭電腦擁有率、全國上網(wǎng)計算機數(shù)和用戶數(shù)日益增長的趨勢相符。據(jù)調(diào)查,1996-2000年間,中國大陸家庭電腦的擁有率以年均38.2%的速度遞增,而不同層次的城市在家庭電腦市場發(fā)展中也表現(xiàn)出明顯差異,其中,北京、上海和廣州等一線城市的家庭電腦擁有率為全國最高,已達到28.1%,而二三線城市則相對發(fā)展較緩慢,這當然與一線城市居民的人均收入較高,能夠支付當時頗為高昂的電腦安裝費用、上網(wǎng)費用等因素直接相關(全部費用一般大約在4000元至5000元甚至更高)。25不過,若是將這一數(shù)據(jù)放置在全球范圍內(nèi)來看,似仍不夠搶眼,因與此同時,美國家庭電腦普及率高達51%,26日本家庭個人電腦普及率也已達到38.6%。27

另一調(diào)查則顯示,2001年,在北京、上海、廣州、大連、成都、西安六大城市,已有40%的家庭擁有電腦,其中58.7%的家庭,是在去年(即2000年——引者注)新購置的電腦,全國大中城市的電腦普及率(含家庭電腦擁有率——引者注)有望在是年年底達到70%。28其中上海的家庭電腦擁有率,在次年(即2002年——引者注)已高達44%,甚至有記者預測道,以此發(fā)展速度,到2002年底,平均每2戶就將擁有1臺電腦,“與1997年平均每10戶上海人還分不到1臺電腦、普及率只有8%相比,發(fā)生這種‘跨世紀’的變化僅僅用了5年”29。

此外,來自官方的調(diào)查報告,雖選用了不同的調(diào)查指標,但其呈現(xiàn)的互聯(lián)網(wǎng)發(fā)展趨勢,與上述兩種“民調(diào)”結果大致相符。中國互聯(lián)網(wǎng)絡信息中心(CNNIC)自1997年12月1日發(fā)布《第一次中國互聯(lián)網(wǎng)絡發(fā)展狀況調(diào)查統(tǒng)計報告》起,以每年1-2次的頻率發(fā)布的中國互聯(lián)網(wǎng)絡發(fā)展狀況調(diào)查統(tǒng)計報告顯示,大約在同一時期,我國上網(wǎng)計算機數(shù)和上網(wǎng)用戶數(shù)均實現(xiàn)了大幅增長(如下表1、圖4所示,其中所有原始數(shù)據(jù),均抽取自這一官方調(diào)查報告,即第1-7次調(diào)查統(tǒng)計報告),據(jù)此亦可核算出此時我國上網(wǎng)計算機數(shù)的年平均增長率為32.24%,上網(wǎng)用戶數(shù)的年平均增長率為30.2%30:

與這些來自中國大陸各大城市的計算機用戶開始經(jīng)常訪問、使用這一網(wǎng)站,閱讀這些作品同時,中國大陸作家、學者有關魯迅的評論、討論,以及其發(fā)表在國內(nèi)的報章雜志和互聯(lián)網(wǎng)上的有關報道等,也以急劇增長的速度,被源源不斷地加入“文庫”當中。簡言之,大量的用戶,尤其是來自中國大陸、使用簡體中文進行日常交流和學術寫作的用戶,可以利用家庭電腦、個人電腦訪問互聯(lián)網(wǎng)的用戶,為期刊、“文庫”帶來了大量的內(nèi)容,而且是高質(zhì)量的內(nèi)容,而這正是互聯(lián)網(wǎng)這一數(shù)字媒介在當代文化生產(chǎn)中,與它的用戶互相成就、得以發(fā)揮作用的根本原因之所在。具體到早期“數(shù)字魯迅”的生產(chǎn)、接受過程中,伴隨著作為“20世紀90年代全球最重要的事件”的中國經(jīng)濟的飛速增長31、中國大陸網(wǎng)絡基礎設施的不斷改善、計算機用戶和上網(wǎng)用戶的快速增加及其數(shù)字讀寫能力等方面的變革,在互聯(lián)網(wǎng)上不僅出現(xiàn)大量的、與魯迅有關的用戶生成內(nèi)容(User-generated content,簡稱UGC),提升了“新語絲”電子期刊、“文庫”本身的質(zhì)量,使“數(shù)字魯迅”像變得更加豐富、多元,也使得“新語絲”同人生產(chǎn)的“數(shù)字魯迅”本身產(chǎn)生了更多、更大的影響。盡管這方面的直接證據(jù)較少,但一則資料卻可以幫助我們間接地證實這一猜想。2000年5月1日,一篇不題撰人的小說《阿Q》在“新語絲”發(fā)表,小說正文之前由編者加上的下面這段話,就從側面顯示了“新語絲”當時在國內(nèi)引起的強烈反響:

(摘自“新語絲?讀書論壇”http://www.xys.org/cgi-bin/mainpage.pl新語絲海外站點被中國方面屏蔽,國內(nèi)網(wǎng)友可從新語絲國內(nèi)版“新到資料”的鏈接進入)

質(zhì)言之,如果說“新語絲”電子期刊、“文庫”的“數(shù)字魯迅”生產(chǎn)實踐,一開始還只代表了全球范圍內(nèi)少數(shù)精通計算機和網(wǎng)絡語言,又對中國文學懷有濃厚興趣的用戶的文化生產(chǎn)之舉的話,那么,在1990年代后期特別是2000年以來,經(jīng)由中國大陸家庭電腦擁有率、全國上網(wǎng)計算機數(shù)和用戶數(shù)的日益增長,已使其生產(chǎn)實踐發(fā)生了不小的改變。這一改變首先體現(xiàn)在生產(chǎn)者的構成上,即由以在海外的中文讀者,擴充到在國內(nèi)的中文讀者(盡管他們在大多數(shù)時候并非是期刊、“文庫”的編者),但更重要的變化則體現(xiàn)為:在此之前、已經(jīng)出現(xiàn)在網(wǎng)上的、數(shù)字化的魯迅文本,為讀者提供了部分可資討論的、可利用機器讀寫的文本基礎和文獻資料,但在此之后,這一未完成的“數(shù)字魯迅”生產(chǎn)實踐,反過來又進一步激發(fā)了人們對魯迅文本及相關資料進行電子化、數(shù)字化的熱情,正是這兩個方面的互相影響,交相輝映,構筑了早期(1990年代至新世紀初期)“數(shù)字魯迅”生產(chǎn)的歷史圖景與“數(shù)字魯迅”像的基本輪廓。

事實上,在無遠弗界的互聯(lián)網(wǎng)世界,苦心孤詣于制作“數(shù)字魯迅”、傳播其文學與學術思想者,又何止“新語絲”同人?2000年7月24日,“新語絲”曾發(fā)布一則簡短的消息,其標題為:【新網(wǎng)站】《魯迅全集》(1981年版)索引(德語界面)。但這是一條標題新聞,并無其他內(nèi)容,正文即鏈接到其所謂的“新網(wǎng)站”的網(wǎng)址。雖然由于原網(wǎng)址已失效、網(wǎng)站至今已蕩然無存等因素的影響,此一德語版《魯迅全集》(1981年版)索引工作,而今我們已不能識得廬山真面,但這一消息本身,恰恰再清楚不過地表明,此時在英語區(qū)之外,德語區(qū)也有讀者不約而同地展開了“數(shù)字魯迅”生產(chǎn)實踐。而這些來自不同語言文化區(qū)域、不同形式的“數(shù)字魯迅”生產(chǎn)實踐,不僅同樣構成了全球范圍內(nèi)早期“數(shù)字魯迅”生產(chǎn)歷史的一個方面,也再一次預言了魯迅文學與學術思想在數(shù)字時代所具有的不朽魅力。由此,這些豐富的數(shù)字文化生產(chǎn)、再生產(chǎn)實踐,也再一次向我們提前揭示了(但在當時或許并未引起人們察覺的)一個樸素的真理:“有價值的、藉由紙質(zhì)媒介傳播的人類文明遺產(chǎn),在數(shù)字時代,一定不會黯然失色,相反,仍將會光彩奪目、熠熠生輝?!?2

更進一步來說,重新檢視這一早期全球“數(shù)字魯迅”生產(chǎn)、制作歷程的意義,并不在于幫助我們確認這樣一個事實,此即漢字編碼等方面的信息處理技術深刻地影響了早期“數(shù)字魯迅”的生產(chǎn)、制作,使之產(chǎn)生了紙質(zhì)媒介、文獻難以創(chuàng)造的成就的同時也具有明顯的不足(無論其數(shù)量、質(zhì)量)。更重要的是,也讓我們得以發(fā)現(xiàn):在其不足的背面和后面(未來),藉由無數(shù)讀者、計算機和互聯(lián)網(wǎng)用戶的努力,在海內(nèi)外中文用戶/讀者共同以魯迅作為當代思想文化重要資源和數(shù)字文化發(fā)展的重要數(shù)據(jù)資源這一觀念的驅(qū)動下,早期全球“數(shù)字魯迅”生產(chǎn)實踐的局限性也恰以技術之力,被不斷地超越、克服。這主要表現(xiàn)在兩個方面:一方面,關于魯迅文本的電子化、數(shù)字化版本,在“新語絲”電子期刊、“文庫”及其他同類型的網(wǎng)站上,此后被接連不斷地生產(chǎn)出來,成為人們利用計算機這一新的工具進行閱讀、討論的對象,紙質(zhì)文獻由此逐漸退出我們的日常閱讀、專業(yè)閱讀和非專業(yè)閱讀,與紙質(zhì)媒介有關的、一整套閱讀和寫作技術、文化由此迎來了它最大的競爭對手;另一方面,關于魯迅文學與學術思想的對話、交流,也得以跨越時空,跨越國境,跨越族裔、代際和職業(yè)分工,跨越太平洋,在互聯(lián)網(wǎng)上大規(guī)模、迅速、即時地展開,而且,對話、交流的結果可以被我們以同樣的方式復制、保存、傳播、再利用,使交流和互動方式的“持續(xù)化”成為了可能(取代了舊的“社會化”的形式)33,由此一開始可能僅僅只是作為文本、文獻(或是紙質(zhì)文獻的替代品、補充)而存在的“數(shù)字魯迅”生產(chǎn)實踐,逐漸轉(zhuǎn)變成為豐富、多元的數(shù)字文化生產(chǎn)、再生產(chǎn)實踐,當然,不可否認的是,它們同時也是作為實踐的技術(規(guī)范性技術?救贖式技術?二者兼具?)本身34,以新的、隱蔽性的、規(guī)范性的方式,從原初(當我們獲得這些文本的方式、時候)就影響了我們對魯迅文本的理解,介入了數(shù)字時代我們的魯迅觀、文學觀、文本觀、文獻觀的建構。

然而,無論是在“新語絲”電子期刊、“文庫”中出現(xiàn)的“數(shù)字魯迅”像,還是流傳于早期互聯(lián)網(wǎng)上的諸多電子化、數(shù)字化的魯迅文本,畢竟都只是魯迅全部創(chuàng)作文本和與之相關的大量文獻資料(其中之一部分即為評論、研究資料)、實物資料、口述資料當中的一小部分,兼以其文本質(zhì)量并非全部可以信任、許多文本并無可靠的版本來源、亦無頁碼因而不便在學術研究中引用,乃至如何將文本匹配不同的工具、載體和界面,持續(xù)優(yōu)化其閱讀效果等問題的長期存在,全球“數(shù)字魯迅”的生產(chǎn)實踐其實自始至終,就面臨著層出不窮的、新的挑戰(zhàn),而如何回應這些挑戰(zhàn)、順利解決這些大大小小的難題,便成為其后尤其新世紀以來“數(shù)字魯迅”生產(chǎn)實踐的重要任務;此后至今的發(fā)展路線,因之亦得以大致劃定。這仍然體現(xiàn)為兩個方面:一方面,數(shù)字化、文本化、數(shù)據(jù)化的魯迅文本被繼續(xù)制作,由此產(chǎn)生了《全集》電子書、APP、數(shù)據(jù)庫、機器人魯迅等不同形式的應用,更加有效地連接起了科學、技術、文學和文化,為魯迅文本的日常閱讀、專業(yè)閱讀、非專業(yè)閱讀乃至其他的利用、研究方式(如文本數(shù)據(jù)挖掘、分析)創(chuàng)造了新的途徑;另一方面,隨著可便攜文件編輯技術(以Adobe公司開發(fā)的Portable Document Format文件處理程序、文件格式為代表)等的發(fā)明與逐漸普及,依據(jù)某一可以信賴的紙質(zhì)版本的《全集》而對其進行掃描、加工,制作相應的、優(yōu)良的電子版(亦可有多種格式),逐漸成為許多計算機用戶/讀者(尤其專業(yè)讀者)的優(yōu)先選擇。而這一切,無一例外,不僅已經(jīng)且正在為其后我們通過包括個人電腦、手持終端在內(nèi)的各種工具、界面所閱讀、感知的“數(shù)字魯迅”賦形,也構成了“數(shù)字文獻學”“數(shù)字現(xiàn)代文學”等正在發(fā)展中的新領域的重要課題,尚須一探再探。

[本文為國家社科基金重大項目“中國現(xiàn)當代文學思潮中的古典傳統(tǒng)重釋重構及其互動關系史研究”(項目編號:21&ZD267)、上海市“數(shù)字人文資源建設與研究”重點創(chuàng)新團隊項目、“上海市人才發(fā)展資金資助計劃”中期成果]

注釋:

1 參見王賀《追尋“數(shù)字魯迅”:文本、機器與機器人——再思現(xiàn)代文學“數(shù)字化”及其相關問題》,《文藝爭鳴》2021年第11期。

2 6 33[德]S?康拉德:《全球史導論》,陳浩譯,商務印書館2018年版,第3、3、120頁。

3 4 5 《新語絲》創(chuàng)刊號,網(wǎng)址為:http://www.xys.org/xys/magazine/GB/1994/xys9402.txt,2023年6月26日檢索。

7 9 10 《(新語絲)電子文庫簡介》,網(wǎng)址為:http://www.xys.org/lib_intro.html,2023年6月26日檢索。

8 組論小組:《紙還有未來嗎?一部印刷文化史》,傅力譯,北京聯(lián)合出版公司2021年版,第7頁。

11惜其簡介多所錯誤。該網(wǎng)站對《新語絲》的簡介為:“《新語絲》為文化性綜合刊物,登載文學、藝術、史地、哲學、科普等方面的稿件,只刊登創(chuàng)作稿,不登文摘稿。目前設四個欄目:‘牛肆’(隨筆、評論)、‘絲露集’(詩歌、散文、小說)、‘網(wǎng)里乾’(文史哲科普小品)和‘網(wǎng)萃’(個人或?qū)n}選集)?!缎抡Z絲》創(chuàng)刊于一九九四年二月,《新語絲》為月刊,每月十五日出版,并不定期出版專題增刊。自一九九七年一月起《新語絲》開始出版多媒體版。”參見《Language & Literature-Chinese Studies-LibGuides at Duke University》,網(wǎng)址為:https://guides.library.duke.edu/c.php?g=289252&p=1929075,2023年6月27日檢索。

方舟子:《網(wǎng)文原來有“中心”》,網(wǎng)址見http://www.xys.org/xys/netters/Fang-Zhouzi/Net/wangwen2.txt,2023年6月27日檢索。

13[美]羅伯特?達恩頓:《屠貓記:法國文化史鉤沉》,呂健忠譯,新星出版社2006年,第202-228頁。

14參見黃喬生《毛衣照》,《魯迅像傳》,貴州人民出版社2013年版,第272頁。

15魯迅:《求乞者》,《魯迅全集》第2卷,人民文學出版社1981年版,第167頁。

《野草》,網(wǎng)址見http://www.xys.org/xys/classics/Lu-Xun/yecao.txt,2023年6月30日檢索。

17孫用編:《〈魯迅全集〉校讀記》,湖南人民出版社1982年版,第148頁。

博客水木:《FTP中Binary二進制與ASCII傳輸模式的區(qū)別》,網(wǎng)址為http://www.4u4v.net/ftp-in-binary-and-ascii-transfer-mode-binary-difference.html,2023年6月27日檢索。

參見《The Unicode Standard ? Version 1.0》,網(wǎng)址見https://www.unicode.org/versions/Unicode1.0.0,2023年6月27日檢索。

計算中心:《GBK編碼》,網(wǎng)址見http://jszx.cuit.edu.cn/NewsCont.asp?bm=00&type=1009&id=20567;天使在唱歌7:《字體里面GB和GBK有什么區(qū)別?》,網(wǎng)址見https://zhidao.baidu.com/question/568647091.html,2023年6月27日檢索。

21此處的有關分析,筆者得到了友人中山大學信息管理學院陳濤副教授的指教,書此謹申謝悃。

《新到資料(1990.01.)》,網(wǎng)址見http://www.xys.org/new9901.html,2023年6月27日檢索。

23《【通知】兩個多月以來投過稿或來信聯(lián)系的讀者請注意》,網(wǎng)址見http://www.xys.org/doc/crash.txt,2023年6月26日檢索。

24[英]詹姆斯?柯蘭、娜塔莉?芬頓、德斯?弗里德曼:《互聯(lián)網(wǎng)的誤讀》,何道寬譯,中國人民大學出版社2014年版,第43頁。

25《徹底調(diào)查:國內(nèi)家庭電腦升溫普及率15.5%》,網(wǎng)址見http://tech.sina.com.cn/it/e/2002-09-17/1519139139.shtml,2023年6月28日檢索。

26竹子譯:《報告顯示美國家庭電腦普及率達51%》,網(wǎng)址見http://tech.sina.com.cn/hardware/news/2000-10-17/39208.shtml,2023年6月28日檢索。

27蔣道鼎:《日本家庭個人電腦普及率達38.6%》,網(wǎng)址見http://tech.sina.com.cn/news/it/2000-04-24/23528.shtml,2023年6月28日檢索。

28趙建華:《中國大中城市家用電腦普及率年末可達到70%》,網(wǎng)址見https://tech.sina.com.cn/h/n/69516.shtml,2023年6月28日檢索。

29張懿:《上海人數(shù)字化升級家庭電腦普及率達44%》,網(wǎng)址見http://tech.sina.com.cn/it/e/2002-08-25/1054134566.shtml,2023年6月28日檢索。

30此處的統(tǒng)計分析,得到了我的同事上海師范大學全球城市研究院助理研究員張舒博士的幫助,謹此致謝。

31[英]J.M.羅伯茨:《全球史》,陳恒、黃公夏、黎海波等譯,東方出版中心2013年版,第1236頁。

32王賀:《人工智能時代人文學的危機與新生——從陳子善文話、書話、樂話及其與學術研究之關系談起》,《小說評論》2023年第5期。

34對現(xiàn)代技術、尤其傳播技術的性質(zhì)及其對真實世界的影響的討論,請參考[加]厄休拉?M.富蘭克林:《技術的真相》,田奧譯,南京大學出版社2019年版,第161-186頁。

[作者單位 :上海師范大學中文系 數(shù)字人文研究中心]

[本期責編:鐘 媛]

[網(wǎng)絡編輯:陳澤宇]