用戶登錄投稿

中國作家協(xié)會主管

早期全球“數(shù)字魯迅”生產(chǎn)中的文本、媒介與技術(shù) 
來源:《中國當(dāng)代文學(xué)研究》2023年第6期 | 王賀  2023年12月04日15:16

內(nèi)容提要:在“數(shù)字魯迅”的生產(chǎn)、制作實踐中,其早期階段的歷史頗為重要,但目前這方面的研究才剛剛開始,有欠深入。本文即以1990年后期海外出現(xiàn)的“新語絲”電子期刊、衍生產(chǎn)品“新語絲電子文庫”及其形成的“魯迅作品”這一“文件樹”為討論對象,試圖探究其所代表的早期全球“數(shù)字魯迅”生產(chǎn)實踐的基本輪廓、特點及其成因、貢獻以及不足,尤其分析在這一過程中早期計算機用戶/讀者,如何處理魯迅文本、數(shù)字媒介與中文信息處理技術(shù)、漢字編碼技術(shù)之間的互動關(guān)系,藉以重建“數(shù)字魯迅”的早期歷史及其多元圖景,以使學(xué)界能在傳統(tǒng)的文學(xué)研究(批評)和文獻學(xué)研究之外,從多角度對早期全球“數(shù)字魯迅”生產(chǎn)歷史及發(fā)生在早期互聯(lián)網(wǎng)上的數(shù)字文化生產(chǎn)、再生產(chǎn)實踐形成新的理解,同時亦能由此個案研究逐步邁向?qū)Α皵?shù)字文獻學(xué)”“數(shù)字現(xiàn)代文學(xué)”等新領(lǐng)域的探索。

關(guān)鍵詞:“數(shù)字魯迅” 新語絲 文件樹 中文信息處理 漢字編碼

在《追尋“數(shù)字魯迅”:文本、機器與機器人——再思現(xiàn)代文學(xué)“數(shù)字化”及其相關(guān)問題》1一文中,筆者曾討論自互聯(lián)網(wǎng)瀏覽器誕生以來至2021年的“數(shù)字魯迅”生產(chǎn)、制作實踐及其相關(guān)問題,并區(qū)分了“數(shù)字化”“電子化”“文本化”“數(shù)據(jù)化”“電子版”“電子書”等一系列核心概念、術(shù)語。不過,對其早期歷史、尤其2000年之前歷史(以2000年1月出現(xiàn)《魯迅全集》電子版為分界線,將其分作前后期)的討論仍嫌簡略,有欠深入,并認為,諸如 “新語絲”(1994 年 2 月創(chuàng)立,后發(fā)展為網(wǎng)站)、“橄欖樹”(1995 年 3 月創(chuàng)立)等數(shù)百種電子期刊所制作的“電子化”“數(shù)字化”的魯迅文本,“很難被看作(諸如《魯迅全集》電子版、電子書、APP、數(shù)據(jù)庫等的)‘史前史’或‘早期歷史’的范疇”。本文將致力于修正、補充這一判斷,并將其確立為新的、重要的研究對象(即不同于最早的《魯迅全集》電子版的、新的“數(shù)字魯迅”生產(chǎn)實踐)重新予以討論,特別是結(jié)合中文信息處理技術(shù)、尤其漢字編碼技術(shù)的發(fā)展歷史,來切入這一討論。在具體的論述過程中,將以“新語絲”電子期刊、衍生產(chǎn)品“新語絲電子文庫”(XYS Electronic Library)及其形成的“魯迅作品”這一“文件樹”為討論對象,并將有關(guān)的現(xiàn)象、事件和歷史進程放置于全球語境之中進行考察,2分析這些研究對象所代表的早期全球“數(shù)字魯迅”生產(chǎn)實踐的基本輪廓、特點及其成因、貢獻以及不足,以及在這一過程中魯迅文本、數(shù)字媒介、漢字編碼技術(shù)與早期計算機用戶/讀者之間的互動關(guān)系等問題,重建早期“數(shù)字魯迅”的生產(chǎn)、制作歷史及其多元圖景。對上述問題的深入探究,不僅有助于我們在傳統(tǒng)的文學(xué)研究(批評)和文獻學(xué)研究之外,從媒介、技術(shù)、網(wǎng)絡(luò)基礎(chǔ)設(shè)施、數(shù)字讀寫能力等多重角度理解全球范圍內(nèi)早期“數(shù)字魯迅”生產(chǎn)、制作的歷史,乃至發(fā)生在早期互聯(lián)網(wǎng)上的數(shù)字文化生產(chǎn)、再生產(chǎn)實踐,還將幫助我們由此個案研究尋找進入“數(shù)字文獻學(xué)”“數(shù)字現(xiàn)代文學(xué)”等正在發(fā)展中的新領(lǐng)域的路徑,進而豐富我們對這些新領(lǐng)域的認識。

一、“新語絲”與“數(shù)字魯迅”早期生產(chǎn)的開端

作為電子期刊的“新語絲”(http://www.xys.org),自1994年2月在美國創(chuàng)立以來,不僅擁有正式的國際期刊刊號(ISSN 1081-9207)和固定的出版日期(每月15日),而且從一開始就表明了其為“文化性綜合刊物,登載文學(xué)、藝術(shù)、史地、哲學(xué)等方面的稿件”3的立場,長期開設(shè)“牛肆”(隨筆、評論)、“絲露集”(詩歌、散文、小說)、“網(wǎng)里乾坤”(文史哲小品)和“網(wǎng)萃”(中文網(wǎng)佳作選)等欄目。其《發(fā)刊詞》更透露出有意繼承1924年在北京創(chuàng)刊,周作人、魯迅等人編輯的《語絲》周刊的辦刊宗旨,但又與之有所不同,這一不同主要由新的媒介——互聯(lián)網(wǎng)——帶來:

幾萬分布世界各地的漢字使用者,黑白紅黃藍各色人等,通過一張無形的網(wǎng),緊緊地聯(lián)系在一起。網(wǎng)里的世界,跟人世間的一切也沒有什么太大的不同。喜怒哀樂,人生的百態(tài)在網(wǎng)里一一呈現(xiàn);酸甜苦辣,人生的百味在網(wǎng)上同樣嘗個夠。雖然林子大了什么鳥都有,網(wǎng)大了免不了會有臭魚爛蝦,一個大家庭免不了會有吵吵鬧鬧;但更多的人,在這里找到了從未見面也許永遠無緣見面的朋友,無數(shù)淪落天涯的心靈,因此有了些許的慰藉。更有一些默默耕耘的網(wǎng)友,碼字輸書,傳經(jīng)送寶,讓大家大開眼界,大長見識,把這些文字匯集起來,乃是一部無與倫比的百科全書。

因此多少人在此流連忘返,欲罷不能,正所謂“算只有殷勤,畫檐蛛網(wǎng),盡日惹飛絮?!?

也因此,雖然編者(創(chuàng)刊號編輯方舟子,審稿竹人、蠢俠、呆子、古平、臺北阿生、小寶、灰人。校對散宜生,其后人員屢有變動,恕不縷述)、作者“之中的大多數(shù)人,流落在異國他鄉(xiāng);更有一些人,曾經(jīng)滄海,心中傷痕累累。絲者,思也,‘春蠶到死絲方盡’,永遠不變是對祖國故鄉(xiāng),對親朋愛人的思念之情,綿綿無盡期。值此春節(jié)、情人節(jié)之際,思念之情更濃更盛。遙望神州,感慨不已”。但卻堅信,“這張網(wǎng)伸到漢字的發(fā)源地,讓親人們聽到我們的心聲的日子不會太遠”?!拔覀兘裉焖幙椀摹?,“是未來一張恢恢天網(wǎng)的小小起點”5。換言之,“新語絲”電子期刊不只是一份在網(wǎng)上發(fā)行的刊物,或是“幾萬分布世界各地的漢字使用者”的言論空間,更是聯(lián)系編者、作者與祖國的紐帶,是流動的、跨越國境的文化生產(chǎn)實踐,是新的“事物、人群、思想和制度之間的流通和交換”6,其意義因此也就無法被單獨放置于當(dāng)代中國、美國及任何一個國家和地區(qū)的界限、語境之內(nèi)做出內(nèi)源性的解釋,而必須在全球語境中展開分析。不過,饒有意味的是,從1994年2月創(chuàng)刊至1995年末,“新語絲”電子期刊均未發(fā)表(轉(zhuǎn)載)任何魯迅的文本,以及關(guān)于魯迅文學(xué)、思想的討論,直至1996年1月“新語絲”出版增刊“周氏兄弟專輯”,“魯迅”才正式進入該刊編者、讀者的視野當(dāng)中,這也是該刊“數(shù)字魯迅”早期生產(chǎn)的開端。但是,我們注意到,直至2000年年末,魯迅文本在該刊(無論正刊、增刊)出現(xiàn)的次數(shù)都極其有限(只有1篇,即發(fā)表于“周氏兄弟專輯”的魯迅舊體詩《別諸弟三首(庚子二月)》),討論魯迅文學(xué)、思想的文章也并不為多(共12篇),最后,即便是將兩者合起來看,其體量仍然只占該刊刊發(fā)文章當(dāng)?shù)臉O少一部分,幾乎可以忽略不計。換句話說,從組織出版“周氏兄弟專輯”這一做法來看,編者對閱讀、討論魯迅應(yīng)較一般現(xiàn)代、當(dāng)代作家格外有興趣,但其后該刊并未出現(xiàn)大量的魯迅文本和有關(guān)的討論,而且在其內(nèi)部呈現(xiàn)出一種顯著的不平衡性:在這七年間,有關(guān)的文本、討論只出現(xiàn)在1996—1998這三年,而1994、1995、1999、2000年均與“魯迅”無涉。何以如此呢?原因固然可能很多,但據(jù)筆者推測,一個最直接的理由可能是因文獻資料的匱乏所導(dǎo)致的閱讀、利用的不便:一方面當(dāng)時海外各大學(xué)收藏的魯迅著作并不算多,另一方面,更重要的是,在互聯(lián)網(wǎng)上,電子化、數(shù)字化的魯迅文本實在太少。

此外,與“橄欖樹”等其他電子期刊不同的是,“新語絲”同人在創(chuàng)辦電子期刊一年四個月之后,很快又創(chuàng)建了“新語絲電子文庫”(以下簡作“文庫”)。據(jù)該“文庫”主頁介紹,其“為收藏中文文史資料電子版(國標版)的FTP存檔處,以收藏《新語絲》雜志和中國文學(xué)經(jīng)典作品為主,兼收其他資料,是目前收藏中國文學(xué)經(jīng)典作品最為齊全的公共存檔點”7。實際上,這一在線產(chǎn)品,除了首先是提供大量數(shù)字化的、公眾可訪問的、免費的中國文學(xué)作品的站點,亦是“一個交互式網(wǎng)站、一個超文本存儲庫,”比“新語絲”電子期刊(以下簡作“期刊”“電子期刊”)這部編者眼中的“無與倫比的百科全書”更像“百科全書”,而其優(yōu)點亦頗近似于目前全球最大的在線百科全書——維基百科(https://www.wikipedia.org),“用戶可以用非線性的方式瀏覽章節(jié),內(nèi)容可以包含無限數(shù)量的插圖,可以生成動態(tài)可視化的材料,并且可以無限制地更新文本,甚至可以開放編輯”8,更不用說幫助讀者超越紙質(zhì)媒介環(huán)境帶來的、可能的限制,使之更加順利地在數(shù)字環(huán)境中與電子化、數(shù)字化的文本進行交互,推進文學(xué)與文化生產(chǎn)的進程。當(dāng)然,官方介紹也透露了“文庫”的具體收藏范圍:

1.《新語絲》雜志:收藏自《新語絲》創(chuàng)刊(1994年2月)至今的各種版本(GB、HZ、Big5、PS)正刊和增刊。

2.“新語絲之友”張貼:收藏“新語絲之友”通訊網(wǎng)設(shè)立以來(1996年2月)的所有張貼。每月張貼存檔在一個月后公開。

3.中國經(jīng)典:該部現(xiàn)有七個分支,分別收藏諸子百家、古典詩歌、古典小說、古文、古典文學(xué)評論、古典色情文學(xué)和魯迅著作。

4.電子書籍:該部現(xiàn)有現(xiàn)代文學(xué)和文史資料兩部分?,F(xiàn)代文學(xué)收藏現(xiàn)代、當(dāng)代著名作家、詩人的作品。文史資料收藏哲學(xué)、歷史、宗教等方面的資料。

5.中文網(wǎng)人作品:收藏活躍在計算機網(wǎng)絡(luò)上的中文寫作者的作品,主要為作者本人的結(jié)集和互聯(lián)網(wǎng)中文新聞組(ACT、ACTB)、中文通訊網(wǎng)(“新語絲之友”“中文詩歌網(wǎng)”)的張貼。收藏的標準是:具有一定的思想性、文學(xué)性、知識性或趣味性,并且能夠獨立成篇。對于創(chuàng)作量較多的作者設(shè)立個人專欄,其他張貼則分為閑談、故事、小說、文史、科普等幾類收藏。

6.中文網(wǎng)人照片:收藏活躍在計算機網(wǎng)絡(luò)上的中文網(wǎng)人的數(shù)字化圖像(gif或jpg格式),個人照每人限定兩幅。9

其下還注明了投稿辦法和取閱辦法。稱“投稿以作者本人自薦為主,別人推薦為輔。投稿方法有二:1.upload到:xys.org/pub/incoming并通知管理員(xys@xys.org)。2.把文件寄到xys@xys.org”。 “取閱辦法亦有兩種:1. use anonymous FTP: xys.org/pub/xys.注意大多數(shù)文件是國標碼,必須用binary transfer. 2.use WWW viewer (lynx, netscape, mosaic):http://www.xys.org;http://xys.asianews.com.”10而從這些沿用至今的官方介紹中,我們不僅可以看出“文庫”的定位、范圍及其特色,更可看出因“文庫”的生產(chǎn)、制作(在此體現(xiàn)為“投稿”“取閱”)深受早期互聯(lián)網(wǎng)文件傳輸、存儲技術(shù)的影響與限制,而以提供FTP服務(wù)為主、互聯(lián)網(wǎng)瀏覽服務(wù)為輔(即上述介紹中的“use WWW viewer”),且嚴格限定了FTP環(huán)境下的文件編碼格式,乃為“國標碼,必須用binary transfer”(對此下文將有深入討論)。但即便如此,經(jīng)主辦者數(shù)十年苦心經(jīng)營、辛勤耕耘,該“文庫”現(xiàn)已匯集大量中國古代典籍及近現(xiàn)代、當(dāng)代文學(xué)的電子化、數(shù)字化文本,成為海內(nèi)外研究中國文學(xué)、文化的重要數(shù)字資源,例如,美國杜克大學(xué)圖書館就將其列為“中國研究”之“語言與文學(xué)”類八種重要的數(shù)字資源之一。11不過,值得注意的是,“文庫”雖系在期刊基礎(chǔ)之上建立,但與期刊頗多不同,例如,與期刊擁有眾多編校人員不同,“文庫”的編輯工作似乎主要由方舟子一人承擔(dān)。

隨后,當(dāng)我們逐一檢查“文庫”自創(chuàng)辦至2000年末全部發(fā)表的文章及其記錄(即“新語絲新到資料年月索引”),一個又一個有趣的事實便相繼浮出歷史地表。首先,“文庫”出現(xiàn)與魯迅有關(guān)的文本的時間雖較期刊稍晚一些,但與期刊只發(fā)表了1篇魯迅文本和12篇魯迅評論不同,“文庫”在這一時間段收錄了至少162篇與魯迅有關(guān)的文本。可以說,“魯迅”成為“文庫”這一時期最為經(jīng)常出現(xiàn)的關(guān)鍵詞之一;其次,在這162篇與魯迅有關(guān)的文本中,魯迅本人的文本(數(shù)字化文本)有73篇之多,占全部與魯迅有關(guān)的文本的45%,極大地改善了前此電子期刊所凸顯的、在網(wǎng)上不便或很少能直接閱讀魯迅文本的現(xiàn)象,而這很可能是因為期刊編者注意到了資料匱乏這一問題,然后開始發(fā)力,想要在“文庫”中彌補這一缺憾(期刊以體例限制,畢竟發(fā)表古代、近現(xiàn)代作家學(xué)者作品較少)的緣故;再次,更重要的是,“文庫“從一開始采用的做法是 “數(shù)字化”(文本化)而非“電子化”。當(dāng)時,有些網(wǎng)站在“數(shù)字化”名家名作之后,為避免其他網(wǎng)站和用戶任意轉(zhuǎn)載,又將其轉(zhuǎn)為圖像發(fā)布,亦即使“數(shù)字化”的文本退回到“電子化”的圖像階段,12相形之下,“新語絲”同人,甚至當(dāng)時不少網(wǎng)民,都直接采用了“數(shù)字化”這一做法,以便讀者直接查找、復(fù)制、粘貼、再創(chuàng)作;最后,這一記錄同時也向我們表明,關(guān)于魯迅文本和有關(guān)研究、評論的數(shù)字化工作,在一開始(1996年9月27日)就被創(chuàng)建為一個獨立的網(wǎng)頁“魯迅家頁”(Lu Xun Home Page,早期被稱作“魯迅作品”),其后隨著架構(gòu)的不斷完善(如創(chuàng)建子網(wǎng)頁“魯迅全集索引”、子目錄“有關(guān)魯迅的新聞報道”等)、數(shù)字化魯迅文本的不斷增益、漢字編碼技術(shù)(及其標準)在保持相對穩(wěn)定的過程中逐漸變化等因素的影響,“文庫”不僅迅速發(fā)展壯大,其中與魯迅有關(guān)的文本,也成為全球中文互聯(lián)網(wǎng)上一道獨特、重要的風(fēng)景,遠遠超出其他的同類型網(wǎng)站、電子期刊。

然而,這仍然并非是“文庫”有關(guān)魯迅文本的全部,亦非其所代表的早期全球“數(shù)字魯迅”生產(chǎn)實踐的全部。其實未進入“新語絲新到資料年月索引”這一“文庫”逐日更新目錄(類似于網(wǎng)站“日志”,但在此時仍系人工添加、統(tǒng)計)中的魯迅文本及其電子化、數(shù)字化記錄(亦即實際上被收入“文庫”及其“魯迅家頁”者),還有不少。今天,雖然因受限于這些資料大多并未公開發(fā)布等因素的影響,我們無法全部統(tǒng)計這些逐日更新目錄之外的魯迅文本,但通過部分已經(jīng)發(fā)布且目前尚能公開訪問的資料,仍可對此一時期“數(shù)字魯迅”生產(chǎn)的另一面向,做出一定的觀察。進而言之,也只有將此一面向,與“文庫”逐日更新目錄中呈現(xiàn)的魯迅文本,乃至關(guān)于魯迅的評論、報道等文獻資料合而觀之,我們才有可能把握“新語絲”同人、尤其“文庫”所代表的早期全球“數(shù)字魯迅”生產(chǎn)實踐。

二、從文件樹看“數(shù)字魯迅”早期歷史的一個側(cè)面

這些已經(jīng)發(fā)布且目前尚能公開訪問的、有限的文獻資料之中的一篇重要資料,乃為用戶名為“江南小樓”在谷歌網(wǎng)上論壇(https://groups.google.com)的發(fā)帖。該貼名為《〈新語絲〉文庫目錄》,其正文標題為《“新語絲電子文庫”目錄(1998.8.1)》,其中的一部分內(nèi)容即為截至1998年8月1日,由該“文庫”已收集的大量的數(shù)字化的魯迅文本而構(gòu)造的一個“文件樹”。 不過,在此首先需要說明兩個問題。

第一,這里所謂的“文件樹”,并非修辭、譬喻,而是一種計算機科學(xué)術(shù)語,意為由不同層級的文件所形成的一個樹狀結(jié)構(gòu),其在不同的操作系統(tǒng)和編程環(huán)境下呈現(xiàn)出不同的面貌。“文件樹”與目錄學(xué)、文獻學(xué)學(xué)術(shù)傳統(tǒng)中一般所謂的目錄、索引,既有聯(lián)系,又有差異,其聯(lián)系為共同屬于知識(信息)的組織和表現(xiàn)、發(fā)現(xiàn)形式,差異在于“文件樹”尤其早期的“文件樹”時常也包含了完整的不同層級的文件的存儲、訪問路徑信息,而目錄、索引卻很難做到這一點。但是,即便如此,我們?nèi)钥梢詫ⅰ拔募洹笨醋饕环N特殊的目錄、索引。而在此一名為“魯迅作品”的“文件樹”中,我們可以看出,其以“魯迅作品”為一級目錄,再以魯迅生前出版的作品集及不同的主題建立子目錄,其下依據(jù)其間收錄的具體文本,創(chuàng)立了第三級目錄,當(dāng)然,這些目錄本身同時也代表著它們的存儲和訪問路徑。這種特殊的目錄、索引,從理論上來說,可以與常見的網(wǎng)站、電子期刊的逐日更新的目錄保持一致,但事實上,因為依據(jù)不同的標準和原則進行規(guī)整,二者往往有所不同:在“文庫”中,逐日更新的目錄(即“新語絲新到資料年月索引”,類似于人工記錄、添加的“網(wǎng)站管理日志”),和這一“文件樹”所顯示的結(jié)果也不盡一致。

第二,這里所謂的“構(gòu)造”,亦非發(fā)帖者“江南小樓”或其他人主觀臆造,或是某人據(jù)該“文庫”所收集的魯迅文本再度加工、整理而來(如同目錄、索引,被視作“二次文獻”的原因,就在于其系編纂人員按照一定知識分類標準、規(guī)則,對原始文獻進行加工、整理,從而形成了一個新的文獻),而是由計算機自動生成。甚至,從理論上來說,其創(chuàng)建者(在此同時也扮演著技術(shù)人員的角色)可以一直在維持它的原貌的同時,不斷地進行更新(加入新的文件和文件層級),“文件樹”也能不斷地生長,而不破壞它的整體結(jié)構(gòu)。當(dāng)然,在所有這些“構(gòu)造”的背后,既有技術(shù)(代碼、程序),也有知識,體現(xiàn)的是知識的重新組織、表現(xiàn)與發(fā)現(xiàn)形式,而就后者而言,任一“文件樹”顯然并非單純的、不同文件的關(guān)系的體現(xiàn),恰是閱讀史、書籍史研究者達恩頓所謂的“知識樹”,是知識變遷、文化脈動、文獻體系構(gòu)造的一種表現(xiàn)形式。13

但本文下述討論的重點,并非是從“知識樹”及其相關(guān)角度(如知識史、文化史)來分析這一“文件樹”所傳遞的新的知識生產(chǎn)意涵,相反,更多的是從技術(shù)史的角度進行的。為便討論,以下先照錄“文庫”所載“魯迅作品”(截至1998年8月1日)這一“文件樹”全景圖:

../Lu-Xun/ 魯迅作品

..../Introduction.gb 魯迅傳略(方舟子輸)

..../yecao.gb 散文詩集《野草》(方舟子輸)

..../poetry.gb 魯迅舊體詩集注(座山雕、方舟子輸)

..../nahan/ 小說集《吶喊》(不亮輸)

..../Panghuang/ 小說集《彷徨》

..../Gushi/ 小說集《故事新編》

..../zhaohua-xishi/ 散文集《朝花夕識》(蓮波輸)

..../pictures/ 魯迅照片

....../Lu-Xun1.gif 魯迅照片(青年)

....../Lu-Xun2.gif 魯迅照片(1933)

....../Lu-Xun3.gif 魯迅照片(1930)

....../luxun4.gif 魯迅照片(1930)

....../luxun5.gif 魯迅照片(1933)

....../luxun6.gif 魯迅照片(1936)

....../family.gif 魯迅合家照(1933)

....../handwriting*.gif 魯迅手稿

....../poetry*.gif 魯迅詩稿

..../essays/ 雜文

....../fen/ 雜文集《墳》

......../index.gb 《墳》目錄(哈哈輸)

......../preface.gb 魯迅《〈墳〉題記》

......../jielie.gb 魯迅《我之節(jié)烈觀》

......../nala.gb 魯迅《娜拉走后怎樣》

......../genius.gb 魯迅《未有天才之前》

......../being_father.gb 我們怎樣做父親(哈哈輸)

......../Leifeng_pagoda.gb 論雷峰塔的倒掉(哈哈輸)

......../beard.gb 魯迅《說胡須》

......../photography.gb 魯迅《論照相之類》

......../Leifeng_pagoda2.gb 再論雷峰塔的倒掉(哈哈輸)

......../mirror.gb 看鏡有感(海生輸)

......../late_spring.gb 魯迅《春末閑談》

......../under_lamp.gb 魯迅《燈下漫筆》

......../misc_recall.gb 魯迅《雜億》

......../tamade.gb魯迅《論“他媽的!”》

......../teeth.gb 魯迅《從胡須說到牙齒》

......../jianbi.gb 魯迅《堅壁清野主義》

......../kuofuism.gb 魯迅《寡婦主義》

......../fairplay.gb 魯迅《論“費厄潑賴”應(yīng)該緩行》

......../open_eyes.gb 論睜了眼看(海生輸)

......../postscript.gb 寫在“墳”后面(哈哈輸)

....../refeng/ 雜文集《熱風(fēng)》

......../preface.gb 魯迅《〈熱風(fēng)〉題記》

......../essay25.gb 魯迅《隨感錄二十五》

......../essay33.gb 魯迅《隨感錄三十三》

......../essay35.gb 魯迅《隨感錄三十五》

......../essay36.gb 魯迅《隨感錄三十六》

......../essay37.gb 魯迅《隨感錄三十七》

......../essay38.gb 魯迅《隨感錄三十八》

....../er_xin_ji/ 雜文集《二心集》

......../good_goverment.gb 好政府主義(方舟子輸)

......../hard_translation.gb 硬譯與文學(xué)的階級性(方舟子輸)

......../knowing_and_doing.gb 知難行易(方舟子輸)

......../running_dog.gb 喪家的資本家的乏走狗(方舟子輸)

....../wei_ziyou_shu/ 雜文集《偽自由書》

......../king_way.gb 王道詩話(方舟子輸)

......../light_coming.gb 光明所到(方舟子輸)

......../sell_soul.gb 出賣靈魂的秘訣(方舟子輸)

....../huabian_wenxue/ 雜文集《花邊文學(xué)》

......./Beijing_and_Shanghai.gb 京派和海派(方舟子輸)

......./friends.gb 朋友(方舟子輸)

......./new_year.gb 新年(方舟子輸)

....../eryi_ji/ 雜文集《而已集》

......../literature_and_sweat.gb 文學(xué)與出汗(方舟子輸)

......../Wei-Jin_manner.gb 魏晉風(fēng)度及文章與藥及酒之關(guān)系(方舟子輸)

......../face_of_Chinese.gb 略論中國人的臉(方舟子輸)

....../zhun_fengyue_tan/ 雜文集《準風(fēng)月談》

......../body_search.gb 《“抄靶子”》(大隸輸)

....../huagai_ji/ 雜文集《華蓋集》

......../beida.gb 魯迅《我觀北大》(一華輸)

..../criticism/ 魯迅評論

....../Mr.Lu-Xun.gb 張定璜《魯迅先生》(方舟子輸)

....../death_of_Lu-Xun.gb 林語堂《魯迅之死》

....../Liang-Shiqiu.gb 梁實秋論魯迅(南山明輸)

....../Li-Zehou.gb 李澤厚論魯迅(方舟子輸)

....../Lu_Mei.gb 袁良駿《兩位藝術(shù)大師為何不相能?——略論魯迅與梅蘭芳》

..../reports/ 有關(guān)魯迅的新聞報導(dǎo)

..../biography/ 魯迅傳記資料

....../zhu-an.gb 魯迅與朱安

透過這一“文件樹”,我們首先可以看到,此時“文庫”的數(shù)字化對象已涉及至少13種魯迅作品集單行本。其中,散文詩集《野草》、小說集《吶喊》、小說集《彷徨》、小說集《故事新編》、散文集《朝花夕識》、雜文集《墳》等6部作品集中的絕大部分篇目已數(shù)字化。具體情況如下:

(1)《野草》收文(此處及以下篇目之統(tǒng)計,均以各書初版本及1938年版《魯迅全集》為主,另外也參考了1973年版、1981年版、2005年版《魯迅全集》,恕不贅述)23篇(不含“題辭”),“文庫”則收文24篇(含“題辭”)。另收有《〈野草〉英文譯本序》(魯迅)及《〈野草〉簡介》(方舟子)二文?!丁匆安荨岛喗椤芬晃膶懙妙H為用心,除簡介該集所收篇目的發(fā)表、選入教材及作者的自我表述等方面的情況外,還交代了《題辭》被《野草》各版本及魯迅作品集時而收入、時而抽去的原因及具體事實。

(2)《吶喊》收文15篇(含“自序”),“文庫”亦收文15篇(不計《吶喊》之目錄)。這里需要說明的是,目錄頁,在紙書中雖占一定篇幅、位置重要,但一般并不被看作是一獨立文獻,而到了電子化、數(shù)字化的階段,則其必須是一個獨立文件。但即便如此,若是從內(nèi)容角度而言,尤其是在進行數(shù)字化與原有紙質(zhì)文獻的比較研究、統(tǒng)計,作對齊式的分析時,似可略去。事實上,在“文庫”所收《吶喊》集中,除了獨立的《〈吶喊〉目錄》(尚未歸檔時輸入),還有另外一個目錄,亦即包括了《〈吶喊〉目錄》及集中諸文的目錄(全部文件歸檔整理時產(chǎn)生)。筆者以為,為避免混亂,在統(tǒng)計分析時有必要剔除這兩個目錄,當(dāng)然,這并不是說它們不重要。下同。

(3)《彷徨》收文11篇,“文庫”盡收其文。其中有一處明顯的誤植,即在該書目錄界面,錯將《弟兄》一文的題目錄為《兄弟》,但正文中的標題無誤,仍為《弟兄》。

(4)《故事新編》收文9篇(含“序言”),“文庫”盡收其文。

(5)《朝花夕拾》收文12篇(含“小引”“后記”),“文庫”盡收其文。另有一《〈朝花夕拾〉簡介》(方舟子),其特色如《〈野草〉簡介》。

(6)《墳》收文25篇,“文庫”收文20篇(不計《墳》之目錄),未收入的篇什為:《人之歷史》《科學(xué)史教篇》《文化偏至論》《摩羅詩力說》《宋民間之所謂小說及其后來》。這5篇文章中,除了《宋民間之所謂小說及其后來》是學(xué)術(shù)論文,前4篇文章均為魯迅早期的文言論文,它們的意義在當(dāng)時或許尚未得到充分的認識,因此,也就被遺漏在外了。另外,因為各文的輸入者、校對者均非一人,而是成自眾人之手(需要指出的是,這里筆者并非暗示相反的情形,即由一人完成全部數(shù)字化工作,就能保證其文本質(zhì)量,詳見下文論述),以致各篇目標題是否加書名號、作者魯迅等,亦未能統(tǒng)一?!拔膸?”編者也并未對其統(tǒng)一、對齊,但這并不是由于其未有如此之意識,更多的或是由于FTP環(huán)境下文件上傳后,根目錄文件不僅是對文件的命名,而且包含著指定的存儲和訪問路徑,一旦頻繁更名(更名須手動、逐一為之),極易造成混亂這一技術(shù)條件造成的。

另一方面,雖然其數(shù)字化的魯迅文本涉及不少魯迅作品集單行本,在所有這些單行本著作中,又以雜文集為多(共8種,在全部被數(shù)字化的魯迅作品集中占比約62%,這也與魯迅創(chuàng)作、出版文類數(shù)量本身的多寡大概保持一致),但在對這些雜文集所收文章,是否需要全部數(shù)字化這一問題上,似乎并未在事先形成明確的、穩(wěn)定的認識,毋寧說更多地體現(xiàn)出一種主觀性、任意性。對于這一點,我們既可以從這一“文件樹”所收各種雜文集的順序中看出,也可以從其具體對每種魯迅雜文集的數(shù)字化過程中所作的選擇中發(fā)現(xiàn)。事實上,除了《墳》較多被數(shù)字化以外,其余各種雜文集的數(shù)字化程度并不平衡。當(dāng)然,即便有這些林林總總的問題,在這一過程中,也體現(xiàn)出“文庫”編者一定程度的文獻編纂意識:

(1)《熱風(fēng)》收文28篇,而“文庫”收文7篇,均為1918年魯迅所作。但這7篇文章,在不同版本的《魯迅全集》(以下簡作《全集》)中,則被合并為2或4篇,即《隨感錄二十五》與《隨感錄三十三至四十三》(1938年版、1973年版);《隨感錄二十五》與《三十三》《三十五至三十八》《隨感錄三十九至四十三》(1981年版、2005年版)。顯然,“文庫”并未采用上述任何一種《全集》的編纂方針,而是將其拆分成了7篇單獨的文章。此外,這7篇文章亦未循例注明輸入者、校對者,可能是從網(wǎng)上搜集而來,并非“文庫”編者輸入,校對。

(2)《二心集》收文39篇,而“文庫”收文僅4篇,除《知難行易》(應(yīng)為《知難行難》)系1931年所作外,其余3文均為1930年魯迅所作雜文。另外,這4篇文章在其初版本、各版本的《全集》中的順序,亦非如“文庫”所示。

(3)《偽自由書》收文45篇(不計附文、“備考”),而“文庫”收文僅3篇,均為魯迅1933年所作。此外,這3篇文章的先后順序,與原書一致。

(4)《花邊文學(xué)》收文62篇(不計附文、“備考”),而“文庫”收文僅3篇,且其編次與原書不同。

(5)《而已集》收文31篇(不計附文、“備考”),而“文庫”收文僅3篇,其編次亦與原書不同。

(6)《準風(fēng)月談》收文66篇(不計“備考”),而“文庫”收文僅《“抄靶子”》1篇。

(7)《華蓋集》收文33篇,而“文庫”僅收《我觀北大》1篇。而收入此文的原因,或與當(dāng)時有關(guān)北大的新聞事件有關(guān)。

當(dāng)然,所有這些數(shù)字化的魯迅雜文文本,在魯迅的全部雜文創(chuàng)作中,仍只是少數(shù)一部分。且不論各集所遺漏的大量文章,僅在這8部雜文集之外,諸如《華蓋集續(xù)編》《三閑集》《南腔北調(diào)集》《且介亭雜文》《且介亭雜文二集》《且介亭雜文末編》《集外集》《集外集拾遺》(許廣平編)《集外集拾遺補編》(1981年版《全集》編入)等9部雜文集,皆尚未引起“文庫”編者,乃至其他的計算機用戶/讀者注意,而被見棄于“文庫”,有待以后補充。

但更重要的是,這一“文件樹”也顯示出,還有一些新的魯迅文獻資料已被數(shù)字化,不限于其文學(xué)作品,尤其新文學(xué)作品,其中包括魯迅照片、手稿、詩稿及魯迅舊體詩集注。但對這些文獻資料的數(shù)字化,似乎與對魯迅文本的數(shù)字化的性質(zhì)、特點是一樣的,因為其經(jīng)歷了一個相當(dāng)長的過程,而且很可能出自眾人之手,因此,其原則并不一致。僅以其照片部分為例,對這些電子化的照片文件本身(皆為.gif文件)的命名,此時已出現(xiàn)兩種格式:其一為“Lu-Xun+序號”,其二為“l(fā)uxun+序號”;而且,全部7張照片并未按照其形成時間先后編次,顯得有些混亂(這一問題在其后被糾正,并新增了“上海魯迅公園魯迅墓”照片)。不過,對這些照片的出處進行考察,可以幫助我們解決一個重要問題,此即“文庫”編者數(shù)字化的魯迅文本(或者至少大多數(shù)被收入“文庫”的、經(jīng)由“文庫”編者數(shù)字化的文本),其母本/紙本文獻究竟源于何處?實際上,在“魯迅家頁”主頁,在魯迅照片、詩稿和手稿照片、傳記、年譜與全集文本中間,有兩條分割線,在分割線的居中位置,就寫著“以下作品均據(jù)人民文學(xué)出版社版校對”一行文字,向讀者表明以下的全集文本“均據(jù)人民文學(xué)出版社版校對”,但我們知道,在此之前,人民文學(xué)出版社已出版1973年版和1981年版兩個版本的《全集》,那么,究竟人民文學(xué)出版社出版的哪一個版本的《全集》,抑或該社出版的某一魯迅作品集單行本(這一可能性不能說沒有,但由于魯迅的不同的作品集單行本在1949-2000年間擁有太多的版本,而在學(xué)界未對這一版本問題做出堅實研究和可靠結(jié)論之前,想要討論這一可能性幾乎無從著手,因此,筆者在此只能排除這一可能),何者才是“文庫”生產(chǎn)、制作“數(shù)字魯迅”所依據(jù)的底本呢?

仔細對照、考察這些收入“文庫”及“魯迅家頁”的魯迅照片的電子版、數(shù)字版與紙質(zhì)文獻來源,可得如下結(jié)果:

(1)“魯迅照片(青年)”:實即1903年魯迅旅日時所攝照片,相繼被收入1973年版《全集》第2卷和1981年版《全集》第1卷。

(2)“魯迅照片(1933)”:攝于1933年5月1日之上海春陽照相館14(如圖1),但“文庫”所收該照片的電子化版本(如圖2),并非原始照片的復(fù)制件,而是將原圖進行裁剪、壓縮、重新著色的結(jié)果。不過,我們并不清楚這一結(jié)果是由“文庫”編者或“新語絲”同人所為,還是由某一網(wǎng)民自其他紙質(zhì)文獻翻拍,而后予以技術(shù)處理得來。此一魯迅照片電子化版本流傳甚廣,至今亦可見于網(wǎng)絡(luò)和多種書刊資料,但若是將此二照片作一對照,便可確認“文庫”版本的照片(即網(wǎng)上流行的魯迅照片)并非原照、原圖,恰由對原照進行技術(shù)處理而來這一事實。另外,如果不是對照原始照片,我們也很容易將這一“文庫”所收魯迅照片與1981年版《全集》第8卷收入的、魯迅于1931年5月26日為斯諾著《活的中國——現(xiàn)代中國短篇小說選》一書所攝照片(如圖3)混同,將其視作后者翻轉(zhuǎn)的結(jié)果,其實二者雖攝制于大約同一時期,照片中魯迅的神態(tài)、發(fā)型、衣著等較為近似,但并非同一物。

(3)“魯迅照片(1930)”:該照片現(xiàn)已無法訪問,此處無法討論。但據(jù)筆者推測,此文件[原文件名為“Lu-Xun3.gif”,顯示文件名為“魯迅照片(1930)”]與“文庫”所收第4張照片[即本文接下來要討論的照片,原文件名為“l(fā)uxun4.gif”,顯示文件名同為“魯迅照片(1930)”]或為同一幅照片,后來“文庫”編者發(fā)現(xiàn)了這一點,因此將其予以刪除。

(4)“魯迅照片(1930)”:攝于魯迅五十壽辰之時,相繼被收入1973年版《全集》第1卷和1981年版《全集》第4卷。

(5)“魯迅照片(1933)”:攝于上海大陸新村寓所,相繼被收入1973年版《全集》第19卷和1981年版《全集》第4卷。但1973年版《全集》第19卷所收魯迅譯著《豎琴》《一天的工作》并未進入“文庫”。

(6)“魯迅照片(1936)”:系1936年10月8日魯迅在全國第二回木刻流動展覽會上所攝,收入1981年版《全集》第6卷。但“文庫”所收電子版的色度失調(diào),難以看出魯迅當(dāng)時所坐藤椅的扶手(原照片左下角位置)和其左方的另一椅背(原照片右上角位置)等細節(jié)。

(7)“魯迅合家照(1933)”:實即1933年魯迅五十三歲壽辰全家合影,被收入1981年版《全集》第5卷。

在此,我們對上述討論結(jié)果作一總結(jié),便可得出以下兩點結(jié)論:首先,上述6張照片中,共有3張照片被同時收入1973年版和1981年版《全集》,但在1981年版《全集》中,收入了其中5張照片;其次,如上所述,收入了“魯迅照片(1933)”的1973年版《全集》第19卷所收魯迅譯著《豎琴》《一天的工作》并未進入“文庫”,相形之下,收入了多達5張照片的1981年版《全集》的第1、4、5、6、8卷中的魯迅原創(chuàng)作品集,即《墳》《熱風(fēng)》、《吶喊》(以上收入第1卷)、《三閑集》《二心集》《南腔北調(diào)集》(以上第4卷)、《偽自由書》《準風(fēng)月談》《花邊文學(xué)》(以上第5卷)、《且介亭雜文》《且介亭雜文二集》、《且介亭雜文末編》(以上第6卷)、《集外集拾遺補編》(第8卷)中,一半以上的作品集,均進入了“文庫”。在這兩點結(jié)論的基礎(chǔ)之上,我們似乎可以得出這樣的結(jié)論:如果“文庫”編者采用人民文學(xué)出版社出版的某一版本的《全集》,對魯迅的照片及其文本進行電子化、數(shù)字化的話,只有1981年版《全集》才能滿足其絕大多數(shù)需要,也就是說,1981年版《全集》而非1973年版甚至更早版本的《全集》,才可能是這一數(shù)字化工作的重要紙質(zhì)文本來源。

但在針對其照片的數(shù)字化工作展開分析之外,配合對其創(chuàng)作文本的研究,我們還可以進一步發(fā)現(xiàn),該“文庫”及此前問世的“新語絲”電子期刊上出現(xiàn)的魯迅文本(含創(chuàng)作文本、照片等),可能并非只有一個版本來源(即1981年版《全集》),而是擁有眾多的版本和文本來源。舉一個小小的例子來說,本節(jié)上文曾指出,從這一“文件樹”看,當(dāng)時被“文庫”數(shù)字化的魯迅作品集中,并不包括《集外集拾遺補編》(編入 1981年版《全集》,但并非魯迅生前自定)這一雜文集,但是,在本文第一節(jié)論述的、首先出現(xiàn)于“新語絲”電子期刊“周氏兄弟專輯”的魯迅舊體詩《別諸弟三首(庚子二月)》曾編入1981年版《全集》之《集外集拾遺補編》,然而,無論是期刊編者,還是“文庫”編者,顯然都并未意識到這一點,因此,并未在當(dāng)時(甚至以后)建立《集外集拾遺補編》的目錄和全文,何以如此呢?一個可能的解釋是,他們在數(shù)字化這組舊體詩時,很大可能并未參考1981年版《全集》,而采用的是周振甫著《魯迅詩歌注》這一整理本,而在其后,他們也并沒有通檢1981年版《全集》,因此并不知道該組詩系《集外集拾遺補編》所收一文,因此,在“文庫”中僅僅建立了“魯迅舊體詩集注”的目錄和全文,注明了其注釋來源,乃至錄入者、注釋者,且據(jù)《魯迅詩歌注》將該組詩列為全部魯迅舊體詩(共六十一首)之首,供讀者閱讀,但并未為《集外集拾遺補編》創(chuàng)建有關(guān)的記錄。當(dāng)然,這與他們在數(shù)字化其他的魯迅文本時,采用1981年版《全集》或是其他紙質(zhì)書籍(如某一魯迅作品集的單行本,甚至是某一選本),也并不矛盾。

但是,透過這一“文件樹”,我們進一步發(fā)現(xiàn),部分關(guān)于魯迅的評論、當(dāng)代報道、傳記資料,此時也已被數(shù)字化并收入“文庫”。與大量被數(shù)字化的魯迅文本一樣,其中許多作品也標明了輸入者,或是在文末加上了校對者的大名,體現(xiàn)出“文庫”編者一定程度的文獻整理意識(至于哪些未注明輸入者、校對者的作品,如上所述,也可能來自于其他用戶,是編者從網(wǎng)上搜集而來,而非“新語絲”同人或“文庫”編者所為),及愿意將自己視為這些數(shù)字文本的作者的新的作者觀念。不過,這些意識、觀念都不能保證其在文字輸入、整理方面不犯錯誤。在數(shù)字化的魯迅文本(這里不討論有關(guān)魯迅的報道、評論等類型的文獻資料)中,這些錯誤大致可以分為三類:

(1)文字輸入時不慎造成的誤植:如《雜億》應(yīng)為《雜憶》,《知難行易》應(yīng)為《知難行難》,《京派和海派》應(yīng)為《“京派”與“海派”》,《新年》應(yīng)為《過年》,《文學(xué)與出汗》應(yīng)為《文學(xué)和出汗》等。

(2)一些可能是由簡括造成的訛誤:如《我們怎樣做父親》應(yīng)為《我們現(xiàn)在怎樣做父親》,《喪家的資本家的乏走狗》應(yīng)為《“喪家的”“資本家的乏走狗”》,《硬譯與文學(xué)的階級性》應(yīng)為《“硬譯”與“文學(xué)的階級性”》,《光明所到》應(yīng)為《“光明所到……”》等。

(3)在標題之外,具體的正文之中出現(xiàn)的錯誤:如《野草》中的《求乞者》一文的第三、四段,1981年版《全集》作:

一個孩子向我求乞,也穿著夾衣,也不見得悲戚,而攔著磕頭,追著哀呼。

我厭惡他的聲調(diào),態(tài)度。我憎惡他并不悲哀,近于兒戲;我煩厭他這追著哀呼。15

“文庫”則作“一個孩子向我求乞,也穿著夾衣,也不見得悲戚,近于兒戲;我煩膩他這追著哀呼?!?6其間不僅刊落了“而攔著磕頭,追著哀呼。我厭惡他的聲調(diào),態(tài)度。我憎惡他并不悲哀”等語句,還將末句“我煩厭他這追著哀呼”中的“煩厭”誤植為“煩膩”(這很可能是由于下文魯迅曾兩次使用“煩膩”一詞,因而“文庫”編者、錄入者、校對者便以為此處亦宜統(tǒng)一作“煩膩”造成的,但正如孫用所言,該文最早在《語絲周刊》發(fā)表時,此處的“煩厭”一語,原作“煩膩”。17只是不知何故,1981年版 《全集》將其改作“煩厭”)。

顯然,這些不同程度的錯誤,乃至“文庫”其他方面的表現(xiàn),均向我們表明編者的文獻整理、編纂意識,抑或其所具有的文獻學(xué)功力,仍然是相當(dāng)有限的。還是以上文分析過的、“文庫”中的“魯迅舊體詩集注”為例,實際上,“文庫”所謂的“集注”并非古文獻學(xué)領(lǐng)域所謂的集數(shù)家、百家之注而總其成,并附上自家見解的文獻整理類著作,或是指代此類整理、研究工作本身,相反,只是據(jù)周振甫著《魯迅詩歌注》對61首魯迅舊體詩作一 一加注而已。我們很難想象,一個接受過專業(yè)的文獻學(xué)訓(xùn)練的學(xué)者,會亂用、誤用“集注”這一再基礎(chǔ)不過的概念,但話又說回來,又有多少專業(yè)學(xué)者在此時(甚至此后)“觸電”“觸網(wǎng)”,且孜孜矻矻,不憚煩勞,從事此類電子化、數(shù)字化的工作呢?

三、漢字編碼與“數(shù)字魯迅”的早期歷史

其實,無論我們站在今天的立場上(一種后見之明?)對早期的“數(shù)字魯迅”生產(chǎn)實踐提出多少嚴苛的批評和質(zhì)疑,它的開拓性、先鋒性,都是不容置疑的。尤其從數(shù)字技術(shù)的發(fā)展角度來看,上舉這一“文件樹”及其文件命名、格式本身,直接揭示了漢字編碼技術(shù)對于早期“數(shù)字魯迅”的重要影響,值得深入探究。

這里我們首先注意到,這些作品(作為電子文件)皆以.gb形式命名,而這里的“gb”正是數(shù)字化過程中采用國標碼漢語編碼而制作電子文件時所必須有的特征。那么,為什么在早期的“數(shù)字魯迅”生產(chǎn)實踐過程中,被數(shù)字化的魯迅文本及其相關(guān)資料,沒有采用我們熟悉的.txt、.doc、.pdf、.htm(l)等格式,而是.gb格式?除了“魯迅作品”(截至1998年8月1日)這一“文件樹”,囊括了絕大多數(shù)魯迅文本、研究資料的“魯迅家頁”文件目錄,何以也采用了與前者幾乎相同的形式(只是未曾顯示最底層的根目錄文件),大致上仍可視作FTP環(huán)境下的“文件樹”這一形式呢?這就與計算機操作系統(tǒng)、網(wǎng)絡(luò)傳輸技術(shù)、中文信息處理技術(shù),尤其漢字編碼技術(shù)的發(fā)展密切相關(guān)了。

以下我們先來討論后一問題,即“魯迅家頁”的文件目錄,同樣采用FTP環(huán)境下的“文件樹”這一形式的原因。實際上,與我們熟知的、后來成為主流互聯(lián)網(wǎng)瀏覽器的Internet Explorer瀏覽器,從1995年開始被內(nèi)置于各個新版本的 Windows 操作系統(tǒng)(此時尚未成為主流操作系統(tǒng),取代Unix、Linux系統(tǒng)),成為微軟 Windows 操作系統(tǒng)的一個組成部分——不同,在Windows 操作系統(tǒng)(及其內(nèi)置的IE瀏覽器)未取得統(tǒng)治地位之前,其他的互聯(lián)網(wǎng)瀏覽器如Lynx(適用于Unix、Linux系統(tǒng)的純文字網(wǎng)頁瀏覽器)、Netscape(1994年發(fā)布)、Mosaic(1993年發(fā)布)等,早已在市場嶄露頭角,擁有大量用戶。因此,在“文庫”之前創(chuàng)生的“新語絲”電子期刊,便為用戶提供了兩個網(wǎng)址(即http://www.xys.org與http://xys.asianews.com),以便其透過互聯(lián)網(wǎng)瀏覽器的方式進行訪問、獲取。但是,仍有不少剛剛“觸電”“觸網(wǎng)”的用戶,對此種上網(wǎng)方式并不熟悉,而是習(xí)慣于使用FTP上傳、下載、共享、訪問文件,也因此,“新語絲”給讀者提供的第一種使用方式,就是一個匿名的FTP地址: xys.org/pub/xys,并提醒讀者“注意大多數(shù)文件是國標碼,必須用binary transfer”。雖然FTP可用多種格式傳輸文件(這通常由操作系統(tǒng)決定),但當(dāng)時流行的大多數(shù)Unix、Linux系統(tǒng)只有兩種模式:文本模式和二進制模式。其中,“文本傳輸器使用ASCII字符,并由回車鍵和換行符分開,而二進制不用轉(zhuǎn)換或格式化就可傳字符,二進制模式比文本模式更快,并且可以傳輸所有ASCII值,所以系統(tǒng)管理員一般將FTP設(shè)置成二進制模式?!倍@正是它們?yōu)楹我笞x者“必須用binary transfer”(意為“二進制傳輸模式”——引者注)的原因所在,也決定了“文庫”及“魯迅作品”“魯迅家頁”繼承這一做法,而非另辟蹊徑。

但“文庫”中這些數(shù)字化的魯迅文本及相關(guān)資料,皆采用.gb這一文件格式,從而生成GB版本的文本,與“新語絲”電子期刊采用GB、HZ、Big5、PS多種版本之間,仍形成明顯的差異。令我們不禁感到好奇的是,何以后者只有一種格式(后來全部改成.txt格式),而前者需要采用多種格式呢?這或許是由電子期刊的公共性質(zhì)、同人性質(zhì),與“文庫”屬于編者(同時也可能是最主要的文字錄入者、校對者)方舟子的個人興趣、行為之間的不同性質(zhì)所決定的。簡言之,前者是集體合作的產(chǎn)物,而且定期刊出,希望能夠爭取更多的讀者,因此,為便利讀者計,須盡可能多地采用不同的漢字編碼技術(shù),因此也就形成了不同的格式和版本;而后者寄托了方舟子本人的愛好、理想,無論是出于節(jié)省時間、精力的考慮,還是長期維系這一工作本身的需要,他都有理由采用一種統(tǒng)一的、單一的漢字編碼格式??墒牵酉聛砦覀冃枰穯柕氖牵谒械木幋a格式中,其何以只選擇了GB碼,而非其他?

眾所周知,20世紀七十年代到九十年代的中文信息處理技術(shù),由于技術(shù)限制、數(shù)據(jù)限制和漢語言文字本身的語言特點,相對較為簡單、有限。這些早期的中文信息處理技術(shù),一般包括輸入法、文字編碼、信息檢索等,其中漢字編碼技術(shù)尤為關(guān)鍵。具體而言,為了在計算機中存儲和處理中文字符,需要制定相應(yīng)的文字編碼方案。當(dāng)時被發(fā)明并被普遍使用的編碼標準及字符集,就包括GB碼、Big5等。這些編碼方案,允許計算機以數(shù)字形式來表示中文字符,從而實現(xiàn)中文信息在計算機中的傳輸和處理。其中,在“文庫”編輯過程中,被一直采用的、作為漢字編碼標準的GB碼(全稱為GB2312-80編碼,亦稱GB2312編碼,簡稱GB碼、國標碼),是一個由國家標準總局于1981年5月1日發(fā)布并實施的、針對簡體中文字符集的國家標準。其全稱為《信息交換用漢字編碼字符集——基本集》,共收錄6763個漢字,并對所收漢字作了“分區(qū)”處理(每區(qū)含有94個漢字/符號),這種表示方式也被稱為“區(qū)位碼”。而在此基礎(chǔ)上更新的GBK碼(亦稱HZ編碼),由全國信息技術(shù)標準化技術(shù)委員會于1995年12月1日制訂,并于當(dāng)月15日由國家技術(shù)監(jiān)督局標準化司、電子工業(yè)部科技與質(zhì)量監(jiān)督司聯(lián)合頒布。這一新的標準基本上采用了原GB2312-80編碼所有的漢字及碼位,涵蓋了原Unicode(在ASCII碼基礎(chǔ)上建立,1991年10月發(fā)布,1992年6月加進漢字即“中日韓統(tǒng)一表意文字集”)19所有的20902個漢字,總共收錄21003個漢字、883個符號,并提供1894個造字碼位,可輸入簡、繁體中文。20兩相比較,后者的優(yōu)勢更為明顯。

但引人矚目的是,“文庫”并未采用GBK碼這一新的、更加優(yōu)良的編碼標準,而是長期維持早已使用中的GB碼這一規(guī)范。換言之,“文庫”從創(chuàng)生到1999年年初的中文文本編輯規(guī)范,一直采用GB碼而非GBK碼,一定并非偶然,實有意致之。極為概括地來說,除了如前述所言,這一生產(chǎn)實踐本身具有的個人性、私人性(在這里,其不僅與個人愛好、非功利性聯(lián)系在一起,而且還意味著一種主觀性、偶然性和一定程度上的不可解釋性)之外,還與“文庫”編者方舟子在網(wǎng)上發(fā)帖、發(fā)送電子郵件、輸入中文文本等的習(xí)慣一致,因不僅是他本人,“新語絲”同人大多曾在中國大陸長期接受簡體字的教育,需要與其他的簡體字用戶在網(wǎng)上保持日常、頻繁的交流,而GBK碼的優(yōu)勢只有在使用生僻字、繁體字時才能見出其優(yōu)勢,一般情況下,GB碼已堪其用(當(dāng)然“文庫”編者,對其限制應(yīng)有一定認識,這表現(xiàn)在:“文庫”所收魯迅文本中的許多古字、生僻字,亦即不被GB碼字符集收錄的集外字,常不得不被拆分作兩個字或是幾個獨立的偏旁部首的組合,并以此形式表示)??傊绱朔N種考慮,決定了“文庫”如果選擇唯一的漢字編碼格式,就一定是GB碼,而非其他。

與“文庫”不同,“新語絲”電子期刊除了采用GB碼,還采用了HZ、Big5、PS等另外三種不同的編碼標準,向讀者提供多種可供計算機閱讀的文件格式和版本。其中,HZ字符編碼(亦即GBK編碼)是早期為了在只支持7位ASCII(美國信息交換標準代碼,基于拉丁字母而設(shè)計,主要用于顯示英語和常用標點,共128個字符,屬于底層的電腦編碼系統(tǒng),其他任何語文的編碼皆須與之匹配)系統(tǒng)中顯示、傳輸中文而設(shè)計的編碼方式;Big5編碼(亦稱大五碼、五大碼)兼容ASCII系統(tǒng),是我國臺灣地區(qū)推出的繁體中文字符集標準;PS編碼則是指GB18030編碼標準,來自《信息技術(shù)漢字編碼字符集 基本集的擴充》這一國家標準,其最新版本是GB18030-2005,最早版本為GB18030-2000,由信息產(chǎn)業(yè)部、國家質(zhì)量技術(shù)監(jiān)督局于2000年3月17日聯(lián)合發(fā)布,并于2001年1月作為一項強制性的國家標準開始實行。21但我們知道,這一編碼格式晚于該刊的創(chuàng)刊時間(1994年2月),因此,可以推定,這是該期刊在2000年以后為了適應(yīng)新的中文處理技術(shù)、漢字編碼技術(shù)而做出的改變,并非一開始就有。易言之,這些不同的編碼技術(shù)的被采用,雖然是出于期刊需要照顧不同國家和地區(qū)、使用不同的計算機操作系統(tǒng)和互聯(lián)網(wǎng)瀏覽器用戶的考慮,但并沒有一開始就被確立為期刊的在線編輯原則之一,而是隨著技術(shù)的發(fā)展不斷地擴充,為了最大程度上滿足此后讀者的需要和期刊內(nèi)容存檔的需要,而并非僅僅是同時代讀者的需要。

但“文庫”難道就不用考慮早期及以后計算機用戶/讀者的需要,而不斷做出改變嗎?實際上,其長期采用GB碼生成的、GB版本的文件的可擴展利用的功能,受到它本身的限制頗多。除了使用互聯(lián)網(wǎng)瀏覽器,或是 Genome Compiler 等專門的軟件,或FTP方式進行訪問、閱讀,讀者若是想對其作進一步的復(fù)制、粘貼、編輯等操作,遠不如其他格式、版本的文件來得更加便利。在使用了五年多的GB碼之后,“文庫”全部文件的格式統(tǒng)一改為.txt也正說明了這一不足,及編者因應(yīng)這一不足的努力。具體來說,隨著1990年代中后期不同計算機操作系統(tǒng)之間的充分競爭,尤其是Windows操作系統(tǒng)的不斷普及,以及其中集成的“記事本”這一軟件的深入人心,越來越多的用戶開始希望使用與“記事本”相匹配的(亦尤其生成的).txt格式文件來閱讀各種文檔、資料,故此,1999年1月31日,“文庫”發(fā)布了一條通知:“1/31, 應(yīng)IE用戶要求,所有文件名稱從.gb改為.txt。”至此全站文件都改為了.txt格式,可以被便捷地閱讀、復(fù)制、粘貼、編輯,而由“文庫”所代表的早期“數(shù)字魯迅”生產(chǎn)實踐,由此也走出了GB碼編碼時代,進入了ANSI(在中文操作系統(tǒng)中指GBK,日文系統(tǒng)中是JIS,英文系統(tǒng)中則是ASCII)和UTF-8、UTF-16編碼時代,這些新的編碼技術(shù)(及其形成的文件)既可兼容中文繁簡體,也有更豐富的擴展功能,更方便讀者利用。而在這一文件格式的轉(zhuǎn)換過程中,方舟子應(yīng)該是利用計算機編程語言,開發(fā)出了專門的、相應(yīng)的程序(即包括“代碼轉(zhuǎn)換工具”在內(nèi)的諸多程序),從而能夠?qū)B碼文件自動轉(zhuǎn)換為能夠閱讀GB碼的txt、html等純文本文件,從此延續(xù)至今(當(dāng)然這里頭并不包括他后來完全放棄GB碼,而采用新的漢字編碼標準的文本)。

經(jīng)由對上述問題的討論和分析,我們可以更進一步看到,漢字編碼技術(shù)在早期“數(shù)字魯迅”的生產(chǎn),其實扮演了一個非常關(guān)鍵、基礎(chǔ)的作用。在公共層面,對于“新語絲”同人(尤其是期刊編者)而言,他們希望嘗試采用不同的編碼標準如GB碼、HZ、Big5、PS等,以此生產(chǎn)不同的魯迅文本及有關(guān)文獻資料(數(shù)量極為有限),但在個人層面,“文庫”編者仍更青睞于與自己的教育背景、文化背景、交際需要關(guān)系密切的GB碼,并根據(jù)自己的興趣、選擇和當(dāng)時能夠利用的紙質(zhì)文獻、數(shù)據(jù)資源,不斷對魯迅文本及有關(guān)資料進行數(shù)字化,進而創(chuàng)造了一副新的、不同于期刊的“魯迅像”,這其中既有魯迅的肖像、照片、手稿、新舊文學(xué)文本,也有大量關(guān)于他的報道、評論、傳記資料等,不啻為另一版本——或是早期數(shù)字版本——的“魯迅全集”,甚至我們或許完全可以將其視作一種新的“魯迅全集”版本,因為究其本質(zhì)而言,這一數(shù)字化的“魯迅作品”,并非既有的、任何一種紙質(zhì)“魯迅全集”的電子版、數(shù)字版或鏡像產(chǎn)品,亦非是現(xiàn)成的、某一“魯迅作品”目錄及其全文的復(fù)制件,而是一種新的人工創(chuàng)造(artifacts),一種利用新的、自動化的機器和技術(shù)對魯迅文本進行編碼(這里我們不是從這一術(shù)語的提出者斯圖亞特?霍爾的角度來使用它,恰是在其原初的意義上)、解碼的文化生產(chǎn)實踐,一種“數(shù)字魯迅”生產(chǎn)實踐。

當(dāng)然,在這一中文信息處理技術(shù)之外,網(wǎng)絡(luò)基礎(chǔ)設(shè)施、數(shù)字讀寫能力等方面的因素,也在不同程度上參與了“數(shù)字魯迅”的早期生產(chǎn),乃至對早期“數(shù)字魯迅”的接受過程當(dāng)中。在這一生產(chǎn)過程中,“文庫”編者除了無償付出大量時間和精力,還需要不斷解決來自服務(wù)器、網(wǎng)絡(luò)、硬盤存儲等與數(shù)字文化生產(chǎn)息息相關(guān)的、多方面的計算機軟硬件問題。例如,1999年12月24日,方舟子在“新語絲”發(fā)布了一封寫給“兩個多月以來投過稿或來信聯(lián)系的讀者”的“通知”,就透露出其所遭受的、來自硬盤存儲方面的困擾:

我的PC硬盤在一周前損壞,目前仍然未修復(fù)。自10月5日到12月18日之間的新文件和信件有可能全部丟失。如果您在此期間曾經(jīng)向我投過稿而未見登出,或者來信約稿、商量廣告適宜(應(yīng)為“事宜”之誤——引者注)而未見答復(fù),請重寄一遍。多謝!23

而在接受過程中,“新語絲”的用戶,一開始較多地集中于海外的中文讀者群體,但到了1990年代后期(有研究者認為,“到1998年,互聯(lián)網(wǎng)抵達了世界各國”24),尤其是2000年以來,已引起越來越多的中國大陸的計算機用戶/讀者的注意。當(dāng)然這也與此時中國大陸家庭電腦擁有率、全國上網(wǎng)計算機數(shù)和用戶數(shù)日益增長的趨勢相符。據(jù)調(diào)查,1996-2000年間,中國大陸家庭電腦的擁有率以年均38.2%的速度遞增,而不同層次的城市在家庭電腦市場發(fā)展中也表現(xiàn)出明顯差異,其中,北京、上海和廣州等一線城市的家庭電腦擁有率為全國最高,已達到28.1%,而二三線城市則相對發(fā)展較緩慢,這當(dāng)然與一線城市居民的人均收入較高,能夠支付當(dāng)時頗為高昂的電腦安裝費用、上網(wǎng)費用等因素直接相關(guān)(全部費用一般大約在4000元至5000元甚至更高)。25不過,若是將這一數(shù)據(jù)放置在全球范圍內(nèi)來看,似仍不夠搶眼,因與此同時,美國家庭電腦普及率高達51%,26日本家庭個人電腦普及率也已達到38.6%。27

另一調(diào)查則顯示,2001年,在北京、上海、廣州、大連、成都、西安六大城市,已有40%的家庭擁有電腦,其中58.7%的家庭,是在去年(即2000年——引者注)新購置的電腦,全國大中城市的電腦普及率(含家庭電腦擁有率——引者注)有望在是年年底達到70%。28其中上海的家庭電腦擁有率,在次年(即2002年——引者注)已高達44%,甚至有記者預(yù)測道,以此發(fā)展速度,到2002年底,平均每2戶就將擁有1臺電腦,“與1997年平均每10戶上海人還分不到1臺電腦、普及率只有8%相比,發(fā)生這種‘跨世紀’的變化僅僅用了5年”29。

此外,來自官方的調(diào)查報告,雖選用了不同的調(diào)查指標,但其呈現(xiàn)的互聯(lián)網(wǎng)發(fā)展趨勢,與上述兩種“民調(diào)”結(jié)果大致相符。中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)自1997年12月1日發(fā)布《第一次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r調(diào)查統(tǒng)計報告》起,以每年1-2次的頻率發(fā)布的中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r調(diào)查統(tǒng)計報告顯示,大約在同一時期,我國上網(wǎng)計算機數(shù)和上網(wǎng)用戶數(shù)均實現(xiàn)了大幅增長(如下表1、圖4所示,其中所有原始數(shù)據(jù),均抽取自這一官方調(diào)查報告,即第1-7次調(diào)查統(tǒng)計報告),據(jù)此亦可核算出此時我國上網(wǎng)計算機數(shù)的年平均增長率為32.24%,上網(wǎng)用戶數(shù)的年平均增長率為30.2%30:

與這些來自中國大陸各大城市的計算機用戶開始經(jīng)常訪問、使用這一網(wǎng)站,閱讀這些作品同時,中國大陸作家、學(xué)者有關(guān)魯迅的評論、討論,以及其發(fā)表在國內(nèi)的報章雜志和互聯(lián)網(wǎng)上的有關(guān)報道等,也以急劇增長的速度,被源源不斷地加入“文庫”當(dāng)中。簡言之,大量的用戶,尤其是來自中國大陸、使用簡體中文進行日常交流和學(xué)術(shù)寫作的用戶,可以利用家庭電腦、個人電腦訪問互聯(lián)網(wǎng)的用戶,為期刊、“文庫”帶來了大量的內(nèi)容,而且是高質(zhì)量的內(nèi)容,而這正是互聯(lián)網(wǎng)這一數(shù)字媒介在當(dāng)代文化生產(chǎn)中,與它的用戶互相成就、得以發(fā)揮作用的根本原因之所在。具體到早期“數(shù)字魯迅”的生產(chǎn)、接受過程中,伴隨著作為“20世紀90年代全球最重要的事件”的中國經(jīng)濟的飛速增長31、中國大陸網(wǎng)絡(luò)基礎(chǔ)設(shè)施的不斷改善、計算機用戶和上網(wǎng)用戶的快速增加及其數(shù)字讀寫能力等方面的變革,在互聯(lián)網(wǎng)上不僅出現(xiàn)大量的、與魯迅有關(guān)的用戶生成內(nèi)容(User-generated content,簡稱UGC),提升了“新語絲”電子期刊、“文庫”本身的質(zhì)量,使“數(shù)字魯迅”像變得更加豐富、多元,也使得“新語絲”同人生產(chǎn)的“數(shù)字魯迅”本身產(chǎn)生了更多、更大的影響。盡管這方面的直接證據(jù)較少,但一則資料卻可以幫助我們間接地證實這一猜想。2000年5月1日,一篇不題撰人的小說《阿Q》在“新語絲”發(fā)表,小說正文之前由編者加上的下面這段話,就從側(cè)面顯示了“新語絲”當(dāng)時在國內(nèi)引起的強烈反響:

(摘自“新語絲?讀書論壇”http://www.xys.org/cgi-bin/mainpage.pl新語絲海外站點被中國方面屏蔽,國內(nèi)網(wǎng)友可從新語絲國內(nèi)版“新到資料”的鏈接進入)

質(zhì)言之,如果說“新語絲”電子期刊、“文庫”的“數(shù)字魯迅”生產(chǎn)實踐,一開始還只代表了全球范圍內(nèi)少數(shù)精通計算機和網(wǎng)絡(luò)語言,又對中國文學(xué)懷有濃厚興趣的用戶的文化生產(chǎn)之舉的話,那么,在1990年代后期特別是2000年以來,經(jīng)由中國大陸家庭電腦擁有率、全國上網(wǎng)計算機數(shù)和用戶數(shù)的日益增長,已使其生產(chǎn)實踐發(fā)生了不小的改變。這一改變首先體現(xiàn)在生產(chǎn)者的構(gòu)成上,即由以在海外的中文讀者,擴充到在國內(nèi)的中文讀者(盡管他們在大多數(shù)時候并非是期刊、“文庫”的編者),但更重要的變化則體現(xiàn)為:在此之前、已經(jīng)出現(xiàn)在網(wǎng)上的、數(shù)字化的魯迅文本,為讀者提供了部分可資討論的、可利用機器讀寫的文本基礎(chǔ)和文獻資料,但在此之后,這一未完成的“數(shù)字魯迅”生產(chǎn)實踐,反過來又進一步激發(fā)了人們對魯迅文本及相關(guān)資料進行電子化、數(shù)字化的熱情,正是這兩個方面的互相影響,交相輝映,構(gòu)筑了早期(1990年代至新世紀初期)“數(shù)字魯迅”生產(chǎn)的歷史圖景與“數(shù)字魯迅”像的基本輪廓。

事實上,在無遠弗界的互聯(lián)網(wǎng)世界,苦心孤詣于制作“數(shù)字魯迅”、傳播其文學(xué)與學(xué)術(shù)思想者,又何止“新語絲”同人?2000年7月24日,“新語絲”曾發(fā)布一則簡短的消息,其標題為:【新網(wǎng)站】《魯迅全集》(1981年版)索引(德語界面)。但這是一條標題新聞,并無其他內(nèi)容,正文即鏈接到其所謂的“新網(wǎng)站”的網(wǎng)址。雖然由于原網(wǎng)址已失效、網(wǎng)站至今已蕩然無存等因素的影響,此一德語版《魯迅全集》(1981年版)索引工作,而今我們已不能識得廬山真面,但這一消息本身,恰恰再清楚不過地表明,此時在英語區(qū)之外,德語區(qū)也有讀者不約而同地展開了“數(shù)字魯迅”生產(chǎn)實踐。而這些來自不同語言文化區(qū)域、不同形式的“數(shù)字魯迅”生產(chǎn)實踐,不僅同樣構(gòu)成了全球范圍內(nèi)早期“數(shù)字魯迅”生產(chǎn)歷史的一個方面,也再一次預(yù)言了魯迅文學(xué)與學(xué)術(shù)思想在數(shù)字時代所具有的不朽魅力。由此,這些豐富的數(shù)字文化生產(chǎn)、再生產(chǎn)實踐,也再一次向我們提前揭示了(但在當(dāng)時或許并未引起人們察覺的)一個樸素的真理:“有價值的、藉由紙質(zhì)媒介傳播的人類文明遺產(chǎn),在數(shù)字時代,一定不會黯然失色,相反,仍將會光彩奪目、熠熠生輝?!?2

更進一步來說,重新檢視這一早期全球“數(shù)字魯迅”生產(chǎn)、制作歷程的意義,并不在于幫助我們確認這樣一個事實,此即漢字編碼等方面的信息處理技術(shù)深刻地影響了早期“數(shù)字魯迅”的生產(chǎn)、制作,使之產(chǎn)生了紙質(zhì)媒介、文獻難以創(chuàng)造的成就的同時也具有明顯的不足(無論其數(shù)量、質(zhì)量)。更重要的是,也讓我們得以發(fā)現(xiàn):在其不足的背面和后面(未來),藉由無數(shù)讀者、計算機和互聯(lián)網(wǎng)用戶的努力,在海內(nèi)外中文用戶/讀者共同以魯迅作為當(dāng)代思想文化重要資源和數(shù)字文化發(fā)展的重要數(shù)據(jù)資源這一觀念的驅(qū)動下,早期全球“數(shù)字魯迅”生產(chǎn)實踐的局限性也恰以技術(shù)之力,被不斷地超越、克服。這主要表現(xiàn)在兩個方面:一方面,關(guān)于魯迅文本的電子化、數(shù)字化版本,在“新語絲”電子期刊、“文庫”及其他同類型的網(wǎng)站上,此后被接連不斷地生產(chǎn)出來,成為人們利用計算機這一新的工具進行閱讀、討論的對象,紙質(zhì)文獻由此逐漸退出我們的日常閱讀、專業(yè)閱讀和非專業(yè)閱讀,與紙質(zhì)媒介有關(guān)的、一整套閱讀和寫作技術(shù)、文化由此迎來了它最大的競爭對手;另一方面,關(guān)于魯迅文學(xué)與學(xué)術(shù)思想的對話、交流,也得以跨越時空,跨越國境,跨越族裔、代際和職業(yè)分工,跨越太平洋,在互聯(lián)網(wǎng)上大規(guī)模、迅速、即時地展開,而且,對話、交流的結(jié)果可以被我們以同樣的方式復(fù)制、保存、傳播、再利用,使交流和互動方式的“持續(xù)化”成為了可能(取代了舊的“社會化”的形式)33,由此一開始可能僅僅只是作為文本、文獻(或是紙質(zhì)文獻的替代品、補充)而存在的“數(shù)字魯迅”生產(chǎn)實踐,逐漸轉(zhuǎn)變成為豐富、多元的數(shù)字文化生產(chǎn)、再生產(chǎn)實踐,當(dāng)然,不可否認的是,它們同時也是作為實踐的技術(shù)(規(guī)范性技術(shù)?救贖式技術(shù)?二者兼具?)本身34,以新的、隱蔽性的、規(guī)范性的方式,從原初(當(dāng)我們獲得這些文本的方式、時候)就影響了我們對魯迅文本的理解,介入了數(shù)字時代我們的魯迅觀、文學(xué)觀、文本觀、文獻觀的建構(gòu)。

然而,無論是在“新語絲”電子期刊、“文庫”中出現(xiàn)的“數(shù)字魯迅”像,還是流傳于早期互聯(lián)網(wǎng)上的諸多電子化、數(shù)字化的魯迅文本,畢竟都只是魯迅全部創(chuàng)作文本和與之相關(guān)的大量文獻資料(其中之一部分即為評論、研究資料)、實物資料、口述資料當(dāng)中的一小部分,兼以其文本質(zhì)量并非全部可以信任、許多文本并無可靠的版本來源、亦無頁碼因而不便在學(xué)術(shù)研究中引用,乃至如何將文本匹配不同的工具、載體和界面,持續(xù)優(yōu)化其閱讀效果等問題的長期存在,全球“數(shù)字魯迅”的生產(chǎn)實踐其實自始至終,就面臨著層出不窮的、新的挑戰(zhàn),而如何回應(yīng)這些挑戰(zhàn)、順利解決這些大大小小的難題,便成為其后尤其新世紀以來“數(shù)字魯迅”生產(chǎn)實踐的重要任務(wù);此后至今的發(fā)展路線,因之亦得以大致劃定。這仍然體現(xiàn)為兩個方面:一方面,數(shù)字化、文本化、數(shù)據(jù)化的魯迅文本被繼續(xù)制作,由此產(chǎn)生了《全集》電子書、APP、數(shù)據(jù)庫、機器人魯迅等不同形式的應(yīng)用,更加有效地連接起了科學(xué)、技術(shù)、文學(xué)和文化,為魯迅文本的日常閱讀、專業(yè)閱讀、非專業(yè)閱讀乃至其他的利用、研究方式(如文本數(shù)據(jù)挖掘、分析)創(chuàng)造了新的途徑;另一方面,隨著可便攜文件編輯技術(shù)(以Adobe公司開發(fā)的Portable Document Format文件處理程序、文件格式為代表)等的發(fā)明與逐漸普及,依據(jù)某一可以信賴的紙質(zhì)版本的《全集》而對其進行掃描、加工,制作相應(yīng)的、優(yōu)良的電子版(亦可有多種格式),逐漸成為許多計算機用戶/讀者(尤其專業(yè)讀者)的優(yōu)先選擇。而這一切,無一例外,不僅已經(jīng)且正在為其后我們通過包括個人電腦、手持終端在內(nèi)的各種工具、界面所閱讀、感知的“數(shù)字魯迅”賦形,也構(gòu)成了“數(shù)字文獻學(xué)”“數(shù)字現(xiàn)代文學(xué)”等正在發(fā)展中的新領(lǐng)域的重要課題,尚須一探再探。

[本文為國家社科基金重大項目“中國現(xiàn)當(dāng)代文學(xué)思潮中的古典傳統(tǒng)重釋重構(gòu)及其互動關(guān)系史研究”(項目編號:21&ZD267)、上海市“數(shù)字人文資源建設(shè)與研究”重點創(chuàng)新團隊項目、“上海市人才發(fā)展資金資助計劃”中期成果]

注釋:

1 參見王賀《追尋“數(shù)字魯迅”:文本、機器與機器人——再思現(xiàn)代文學(xué)“數(shù)字化”及其相關(guān)問題》,《文藝爭鳴》2021年第11期。

2 6 33[德]S?康拉德:《全球史導(dǎo)論》,陳浩譯,商務(wù)印書館2018年版,第3、3、120頁。

3 4 5 《新語絲》創(chuàng)刊號,網(wǎng)址為:http://www.xys.org/xys/magazine/GB/1994/xys9402.txt,2023年6月26日檢索。

7 9 10 《(新語絲)電子文庫簡介》,網(wǎng)址為:http://www.xys.org/lib_intro.html,2023年6月26日檢索。

8 組論小組:《紙還有未來嗎?一部印刷文化史》,傅力譯,北京聯(lián)合出版公司2021年版,第7頁。

11惜其簡介多所錯誤。該網(wǎng)站對《新語絲》的簡介為:“《新語絲》為文化性綜合刊物,登載文學(xué)、藝術(shù)、史地、哲學(xué)、科普等方面的稿件,只刊登創(chuàng)作稿,不登文摘稿。目前設(shè)四個欄目:‘牛肆’(隨筆、評論)、‘絲露集’(詩歌、散文、小說)、‘網(wǎng)里乾’(文史哲科普小品)和‘網(wǎng)萃’(個人或?qū)n}選集)?!缎抡Z絲》創(chuàng)刊于一九九四年二月,《新語絲》為月刊,每月十五日出版,并不定期出版專題增刊。自一九九七年一月起《新語絲》開始出版多媒體版。”參見《Language & Literature-Chinese Studies-LibGuides at Duke University》,網(wǎng)址為:https://guides.library.duke.edu/c.php?g=289252&p=1929075,2023年6月27日檢索。

方舟子:《網(wǎng)文原來有“中心”》,網(wǎng)址見http://www.xys.org/xys/netters/Fang-Zhouzi/Net/wangwen2.txt,2023年6月27日檢索。

13[美]羅伯特?達恩頓:《屠貓記:法國文化史鉤沉》,呂健忠譯,新星出版社2006年,第202-228頁。

14參見黃喬生《毛衣照》,《魯迅像傳》,貴州人民出版社2013年版,第272頁。

15魯迅:《求乞者》,《魯迅全集》第2卷,人民文學(xué)出版社1981年版,第167頁。

《野草》,網(wǎng)址見http://www.xys.org/xys/classics/Lu-Xun/yecao.txt,2023年6月30日檢索。

17孫用編:《〈魯迅全集〉校讀記》,湖南人民出版社1982年版,第148頁。

博客水木:《FTP中Binary二進制與ASCII傳輸模式的區(qū)別》,網(wǎng)址為http://www.4u4v.net/ftp-in-binary-and-ascii-transfer-mode-binary-difference.html,2023年6月27日檢索。

參見《The Unicode Standard ? Version 1.0》,網(wǎng)址見https://www.unicode.org/versions/Unicode1.0.0,2023年6月27日檢索。

計算中心:《GBK編碼》,網(wǎng)址見http://jszx.cuit.edu.cn/NewsCont.asp?bm=00&type=1009&id=20567;天使在唱歌7:《字體里面GB和GBK有什么區(qū)別?》,網(wǎng)址見https://zhidao.baidu.com/question/568647091.html,2023年6月27日檢索。

21此處的有關(guān)分析,筆者得到了友人中山大學(xué)信息管理學(xué)院陳濤副教授的指教,書此謹申謝悃。

《新到資料(1990.01.)》,網(wǎng)址見http://www.xys.org/new9901.html,2023年6月27日檢索。

23《【通知】兩個多月以來投過稿或來信聯(lián)系的讀者請注意》,網(wǎng)址見http://www.xys.org/doc/crash.txt,2023年6月26日檢索。

24[英]詹姆斯?柯蘭、娜塔莉?芬頓、德斯?弗里德曼:《互聯(lián)網(wǎng)的誤讀》,何道寬譯,中國人民大學(xué)出版社2014年版,第43頁。

25《徹底調(diào)查:國內(nèi)家庭電腦升溫普及率15.5%》,網(wǎng)址見http://tech.sina.com.cn/it/e/2002-09-17/1519139139.shtml,2023年6月28日檢索。

26竹子譯:《報告顯示美國家庭電腦普及率達51%》,網(wǎng)址見http://tech.sina.com.cn/hardware/news/2000-10-17/39208.shtml,2023年6月28日檢索。

27蔣道鼎:《日本家庭個人電腦普及率達38.6%》,網(wǎng)址見http://tech.sina.com.cn/news/it/2000-04-24/23528.shtml,2023年6月28日檢索。

28趙建華:《中國大中城市家用電腦普及率年末可達到70%》,網(wǎng)址見https://tech.sina.com.cn/h/n/69516.shtml,2023年6月28日檢索。

29張懿:《上海人數(shù)字化升級家庭電腦普及率達44%》,網(wǎng)址見http://tech.sina.com.cn/it/e/2002-08-25/1054134566.shtml,2023年6月28日檢索。

30此處的統(tǒng)計分析,得到了我的同事上海師范大學(xué)全球城市研究院助理研究員張舒博士的幫助,謹此致謝。

31[英]J.M.羅伯茨:《全球史》,陳恒、黃公夏、黎海波等譯,東方出版中心2013年版,第1236頁。

32王賀:《人工智能時代人文學(xué)的危機與新生——從陳子善文話、書話、樂話及其與學(xué)術(shù)研究之關(guān)系談起》,《小說評論》2023年第5期。

34對現(xiàn)代技術(shù)、尤其傳播技術(shù)的性質(zhì)及其對真實世界的影響的討論,請參考[加]厄休拉?M.富蘭克林:《技術(shù)的真相》,田奧譯,南京大學(xué)出版社2019年版,第161-186頁。

[作者單位 :上海師范大學(xué)中文系 數(shù)字人文研究中心]

[本期責(zé)編:鐘 媛]

[網(wǎng)絡(luò)編輯:陳澤宇]