红楼梦研究
红楼梦电脑-----<<红楼梦>>研究与电脑科技
王三庆
壹、前言:
<<红楼梦>>一书与其作者,其前进思想和表现的写作技巧,无可置疑的领先同时代的
作家和作品。曹雪芹生平纵然未能完成最后精采的一笔,作品却也在亲朋好友及市井
间传抄三十来年。直到程伟元、高鹗决定排版付梓,又采用当时最进步的新排版技
术--- 聚珍版木活字,使这书从创作到出版的过程处处独领风骚。而其研读人口之众
多,自国内到国外,老老少少,分布于每个阶层,各出己见,既有回响,也有争竞。
大家为了兴趣,也想了解红学史上撩乱纷纭的迷题,于是致力于新资料的发掘和新方
法的开发,迫使学者面对目不暇给的文献资料和篇章,只有向更深发掘与运用自己的
专擅学科别出心裁的设计一套迥异他人的研究方法,尝试为红楼解梦,使<<红楼梦>>
研究呈现百花怒放,而在文学研究的各领域中独占鳌头。
事实上,研究篇章的撰写并非永无止境,学问也是层叠累积的结果,如果了无新意的
任意发表重复的工作,不过是一种资源的浪费,也徒增学者的负担而已。因此新资料
的出土、新方法的开发以及新的诠释视角,才可能使学术走向更深更广的领域,这是
学科的进步和学者生命的延续。不管是对是错,都有可能促使各门各派的红学家对于
成说加以自我反省或重新检讨修正,形成红学进步的原动力。然而新资料的出土必需
经过学者有组织、有计划的加以爬梳搜罗才有发现的可能。有时穷碧落、下黄泉的结
果,已因时空变换,只能恢复部份的历史真象,无法再予重新复原。因此,一些人虽
然想把真象说得更确切真实,唯有在残存的历史真象外伪造些无关的东西加以搪塞,
终非实事求是的态度。所以,红学发展到目前已临瓶颈阶段,对于资料的寄望是可遇
不可求,丝毫勉强不得。至于面对着孤立的点如何串成线面和真实的历史空间,各家
只有凭靠着残存的证据予以合理的推论,从各视角及方位上予以重新建构。因此新的
研究方法和新的视角铨释则是在此残存的资料基础上突破瓶颈和发展红学的不二法
门。
然而在学科分工愈加精密的今日,各学科皆有其传统的研究方法和因自身需要而设计
的研究规范,尤其西方文学研究随着理论的创设,各有承袭与变异,百家争鸣,间接
的也影响了本国学者的文学研究。过去因为自尊的关系和语言人材的限制以及资讯传
播的迟缓,西方文论被引进传统文学中原本不多。直到晚近,在地球村的口号下已无
藩篱,因此千峰竞秀,大异昔时。目前文学研究方法是今古不分,中西合璧,学者再
也不能固守传统,闭门造车,而是根据研究材料的需要和研究指标的追求,设计和运
用其最适当的研究方法。再者,人文学科的领域中,从国内到国外都受到科学挂帅的
君临,处处讲究科学指标的计量下,人文走向科学化,文学研究受到科学的洗礼与机
器的干预乃是不可避免,因此本篇想从数理统计和电脑的闯入红学谈起,评介科学对
红学的参予得失。
贰、人工统计与数理运用
(一)、高本汉(Bernhard Karlgren)
非本学科的插入红学研究,当以瑞典汉学家高本汉(BernhardKarlgren)为最早,它运
用数理语言学的研究方法,自戚序本的前八十回和及程甲本的后四十回中,选出了三
十八个字,其中二十四字为白话文常用字,并将这些字的出现频率分为三级:未出现
者是零级,不高者为一级,极高者为二级,由于统计的结果,戚前八十回和及程甲本
的后四十回所使用的三十八字出现频率完全对应,于是得出<<红楼梦>>前后半部乃出
于一人之手。(1)
(二)、赵冈先生
赵先生对于高本汉(BernhardKarlgren)的结论并不同意,并给予如此的批评:
『第一、前八十回与后四十回并非两部独立的小说,两个不同的故事。后者是前者的
延续。如果后四十回是雪芹以外的他人所续,他在续书以前一定会注意到前八十回利
用京语的特徵。事实上,所有已知的红楼梦续书者都已注意到这点,而要刻意模仿。
第二、一个人如果要模仿他人语气及用字习惯到百分之百一致的程度确是办不到的。
总归会有一些差异留下。不过高本汉先生的分类过份粗糙,无法看出这些细微的差
异。
第三、一个人模仿别人,模仿的程度有时是「过之」,有时是「不及」。高本汉先生
的比较分析,只能办识模仿不及的续书,而不能办识模仿过了头的续书。』
由于高本汉先生统计时所下的用语定义不明确,选样也不谨慎;而其诠释时又背离成
说,没有考虑作品内容的延续性及续作者的刻意模仿,于是只从字频的一致性而论,
而不及差异性的问题,造成这一研究的失败。再者,对于语法问题也未涉及。
因此,赵先生则又以其专长学科重作统计,其根据与方法是:
一、以俞平伯<<红楼梦八十回校本>>为统计底本:取其已经校勘,剃除误植,而且整
齐版面,容易统计。
二、选出与高本汉不同的『儿』、『在』、『了』、『的』、『著』五字作为比较样
本,因为这些字不受叙事内容的限制和文义的支配,而是受到习惯的支使,可以从习
惯上来加以分辨。
三、用统计方法测验前后两部平均频率的差异,探讨是因机遇造成还是两个作者的用
字习惯不同,此即所谓的t测验。
于是他得出校本前八十回和程甲本后四十回的平均频率(Mean)、标准差(Standard
deviation)、变异数(Variance)等五个字的数据,并得出以下三点推论:
第一、从标准差来看,这五个字确实取决于用字习惯,它们的出现频律,相当稳定。
第二、前后两部绝对不是一个人写的,五字中用t测验结果分别为『儿』3.677、
『在』3.392、『了』0.116、『的』3.391、『著』3.910,除了不太显著外,四字的
平均差率绝不是偶然机率造成。就四字的每个字而言,其由于机遇造成的或然率都在
百分之一以下。而四字加在一起,其由于机遇造成的或然率等于是零。因此前后两部
习惯的不同结果应可确认。
第三、后四十回模仿前八十回使用口语是『过之』而非『不及』。
其使用这些白话文语助词之数量远在曹雪芹之上,这一点用高本汉的比较法绝对看不
出来,而其主要原因是曹雪芹和父祖辈三代曾有六十来年的南方背景使然。
甚至赵先生挑出七个字词进行比较前后的不同,其结果还是一样。(2) 很显然这篇文
章已经改正了高本汉先生文章中的缺点,并展示赵先生的专业--- 经济学上的数理统
计的方法,以至于除了<<论集>>一书外,这篇文章都出现在他的每一本书中,可以想
见其对这篇文章的矜持,直认为可作红学研究史上的一篇典范和后学的模仿。
参、电脑的统计频率与解读
然而以上运用统计学的方法,是以人工计算<<红楼梦>>及其续书之用字频率来判断作
者是一是二,而且仅用人工概算,无法巨细靡遗的精打细算。因此要作到这等工夫需
要等待中文电脑软硬体设备的出现和改进,才能将统计学与电脑两者结合。而首位以
电脑从事精密的计量,并根据其数据而研究说解者,则以陈炳藻先生一文为最早。其
后各系统与各种计量方法陆续出现,今依其出现之时序分述如下:
(一)、陈炳藻先生
陈先生原在美国威斯康辛大学周策纵先生的指导下,尝试运用电脑从事<<红楼梦>>的
数理统计撰写博士论文,其成果亦在『首届国际红楼梦讨论会』上用英文发表了<<从
字汇上的统计论<<红楼梦>>的作者问题>>,其后也以中文型式撰述了数篇文章,其研
究方法是:
分<<红楼梦>>全书1-40回作A组、41-80回作B组、81-120回作C组,另以<<儿女英雄
传>>作D组,各组随机抽样为8万字,约占<<红楼梦>>全书8%,然后再从各组中勾出虚
字、形容词、名词、副词、形动词等词类,以电脑统计结果,得出如下三个表格:第
一表:相联系数测验结果、第二表:相关系数测验结果、第三表则是各组及
以上二表间之比较:
组合正相关系数负相关系数测验次数
AB13215
AC11415
BC13215
AD51015
BD7815
结果证明『红楼梦第八十一回至一百二十回的用字习惯很接近第四十一回至一百二十
回,其接近的程度,与毫无疑问同是一人所写的第一回至八十回相比之下,可以说是
达到神似的地步。』
这篇文章的出现的确震撼红学界,主要是作者使用方法为大家所信服而不会骗人的最
新科技---电脑,结果又大异于过去成说。因此,陈先生又有<从『电脑红学』说起>、
<电脑在文学上的应用---<<红楼梦>>与<<儿女英雄传>>两书作者用词的比较>等两篇
以作补充说明。再者也引起新闻界的报导和读者的诸多回响(3),其结果是毁誉参半,
争议性颇大。
(二)、陈大康先生
由于陈炳藻先生所从事的研究方法极为新颖,成果又如此动人,在批评和后继者间首
先给予肯定者乃陈大康先生,其云:
陈先生创造性的工作是值得赞赏的。马克斯说过:『一种科学只有在成功的运用数学
时,才算达到了真正完善的地步。』作家写作时,某处用这个字(词)或那个字(词),
都带有很大的偶然性,而这大量的偶然性中却隐藏着某种客观规律,即该作家在其写
作生涯中形成的独特的文体特徵。研究大量偶然性事件中客观规律的科学是概率论,
数理语言学是它向语言学渗透的结果。因此,数理语言学能用函数刻划作家的文体特
徵,从而能对作品的真伪作出判断。本世纪六十年代,英国文学史上一大悬案的解
决,即<<朱利叶斯信函>>作者的确定,显示了此法的实用价值。因此在用各种方法探
讨后四十回作者究竟为何人时,陈先生从数理语言学进行考察不仅是可行的,而且也
是必要的。(294pp)
尽管他对陈先生从事数理语言学的研究方法给予肯定;但是对于该篇的研究过程却提
出如下的几点批评:
第一是抽样。陈先生从A.B.C三组中各随机抽取出约8%的文字统计分析,以此推断
A.B.C这三个主体是否同一。用统计学的术语说,就是以A.B.C三组为三个母体,而以
抽取的文字作为子样,从子样的性质来判断母体的性质是否同一,从而判断作者是否
同一。这种方法用于一般问题并无差错,但以此研究<<红楼梦>>前后两部份作者是否
同一却欠妥当,因为后四十回情况较为特殊。....统计分析时必须考虑到很可能含有
曹雪芹的残稿的因素。其次,即使后四十回均为高鹗续作,但为了假托曹雪芹之名与
前八十回一起刊行,高鹗也可能会着意模仿曹雪芹的某些写作手法。....为了保证结
论的可靠性,显然应该分别以曹雪芹和后四十回作者的写作习惯为母体,而以整部
<<红楼梦>>作为子样,即应对全书进行统计分析。
第二是检验项目该多些,要包括一些作家意识不到的文体特徵,如平均句长。
第三是分布。由Lindeberg 中心极限定理可知,各字、词或一定长短的句子在书中的
出现一般服从正态分布,它由两个均值u(统计时常用频率代替)与o2方差决定。
这是统计的基本常识,但决不能因此置于不顾,因为这会导致错误。
因此,他根据人民文学出版社1982年3月的新版本,分A.B.C三组重新检验词、字、句
之频率,得出最后的结论如下:
本文对词、字、句的88个项目进行了考察,除差别极明显或难以检验分布外,对73个
指标分组用CMNPHOB法作了145次分布检验。所有项目在A.B两组的分布均同
一,这与前七十八回分布同一的有133次,连同分布显然不同的『越性』等词,则有
151次。在取水平a=0.05时已说明,若分布不同一的比例低于5%,还可认为是将分布
同一误断为不同一,但现在比例却高达92.64%,因此我们只能否定陈炳藻先生的结
论,而认为后四十回并非曹雪芹所作。前面的分析同时表明,在后四十回的前半部分
中含有曹雪芹的少量残稿,但数理语言学只能指出少量残稿存在的区间,至于哪些情
节或段落属曹雪芹的残稿,那还有待专家们的进一步考证。(4)
从这篇文章我们可以看出,在统计抽样中从同而论则同,从异而论则异,除字频之统
计外还要扩及语词和句长,更要检验其分布,因此对陈炳藻先生一文的研究方法已经
改进且更多方面及更客观,所以研究结果大相迳庭。有一点倒需留意的是陈炳藻先生
认为全书作者同一人,如果根据成说,前八十回的作者是曹雪芹,则后四十回四也是
同一人;陈大康先生的研究结果虽说后四十回并非曹雪芹所作,却认为『在后四十回
的前半部分中含有曹雪芹的少量残稿』,这是很令人值得注目的问题。
(三)、李贤平先生
在红学电脑的所有篇章中,企图心最大而最为精细的研究篇章则是李贤平先生<<红楼
梦>>成书新说>一文,由于作者见于<<红楼梦>> 的研究几十年纷争不断,因而想尝试
利用新工具和新方法作为解决已经存在的问题,所以采用电脑学家的模式识别方法和
统计学家的探索性数据分析方法进行分析,其步骤是:
1.把全书一百二十回看作一个对象,依回平等对待。
2.从统计语言学的角度建立识别特徵,统计47个虚字的频率或句子的长度。
(1).十三个文言虚字:之、其、或、亦、方、于、即、皆、因、仍、故、尚、乃。
(2).九个句尾虚字:呀、吗、咧、罢咧、啊、罢、罢了、么、呢。
(3).十三个常用白话虚字:了、的、著、一、不、把、让、向、往、是、在、别、
好。
(4).十个表示转折、程度、比较等意的虚字:可、便、就、但、越、再、更、比、
很、偏。
(5).后缀于名词的『儿』字和后缀于副词、形容词、动词的『儿』。
3.利用各种统计分析方法(主要有主成份分析,典型相关分析,多维尺度法,广义线
性模型,类X2距离与相关系数)探索各回写作风格的接近程度并用三种层次聚类方法
对各回分类。
结果作成正视图与聚类图,其正视图若从长方形的右上角到左下角连一条对角线,
则出现了如下的特徵:
(1).数字中除了67回外,1-80回全在左上方,81-120回全在右下方。
(2).第1.2.3.4.5回,第17.18回,第78回则离开群体,远远落在左边。
(3).进一步观察还可以发现,前八十回大概可以分为三类,一类落在左边,另一类
落在右边,第三类则处在过度地段:即第9、12-16、21-23、53、63-69、74-78(67、
78)回不计、第55-59回也接近。后四十回也可分成二或三类,除个别回目外,前20
回偏上,后20回偏下。
至于聚类图是一种层次分类树图,它给各回之间写作风格相近的程度作一精确的描
述,只要图中相邻近,则其风格越近似。
以上对<<红楼梦>>的分析结果,另外他也把使用过的方法,尝试用在<<儿女英雄
传>>的前二十三回,其出现频数编在第121至143回,却远落在右下角,证明其使用
方法具有分辨能力。至此,他得出三点结论:
1.统计语言学的基本原则可以在汉语中建立,与情节无关的虚字使用频率可以用来
刻划作者的写作风格。
2.图一和图二中的距离和分类可以作为铨释说明『<<红楼梦>>的各部份是由不同的
作者在不同的时期撰写而成的』。
3.<<红楼梦>>一书729604个字和数千条脂批中含有大量关于作者和成书过程等信息
需待我们去发掘。采用新的研究工具,譬如统计方法和电子计算机,从现有的文献
中发掘出新的材料,肯定能使人处在更主动的地位上来开展红学研究。
于是他根据正视图与聚类图,并参照脂批及红学家的研究成果作出更前进的推断:
1.佚名作者<<石头记>>成书于1732年前后,约三十万言。该书以曹寅家事为背景,
作者曾亲历曹家的旺期,可能为曹寅侄儿,卒于1744年之前。
2.曹雪芹年青时着有<<金瓶梅>>式小说<<风月宝监>>。
3.1745年左右,曹雪芹对<<石头记>>开始从事『披阅十载,增删五次,纂成目录,
分出章回』的工作。
4.当中的三次增删过程已难明确刻划,但所作何事基本上可以描述。
(1).把<<风月宝监>>6-16回和63-69回情节,分别插入<<红楼梦>>第一稿的前后。
小部份保留在21回。
(2).借省亲写南巡,创造元春;扩建大观园,为宝玉及诸钗提供理想场所。
(3).贾政、赵姨娘、妙玉也在这几次增删中加强。
(4).<<红楼梦>>第10.11.22.33.53回也在这几次增删中添入或大加修改。
以上增删的结果是计划中的110回<<红楼梦>>,但只初步写好前半部,并由脂砚初
评。
5.第五次增删中曹雪芹重新安排小说结构,增添神话色彩,大部份用梦用幻情节在
此时添入,扩大小说的背景,而有关贾府之外的情节也在此时增补。
6.丙子三阅本和己卯、庚辰四阅本均为八十回本,仍称<<脂砚斋重评石头记>>。内
缺第64.67回,有少数情节和诗词谜语待补,第17.18回待分,更多回目联语待定。
7.壬午或癸未雪芹逝世,书未成,前八十回残缺,后四十回未定稿,部份被借阅迷
失,脂砚及畸笏续评,后出雪芹原稿的第64回和改写过的第67回,并补写第22回谜
语。唯仍留下人物年龄及时序等部份矛盾。
8.雪芹亲友搜集尚存的各种书稿陆续加工成<<乾隆抄本百廿回红楼梦稿>>。
9.梦觉主人辈获得传抄本的前八十回,于1784年出了甲辰本。
10.1790年完整的120回抄本完成,并流传到社会上,程伟元搜集到全书,约高鹗协
助完成镌版的工作。
除了以上的推论外,他还推测谁写<<红楼梦>>、曹雪芹和<<红楼梦>>、书名、南北
语言、年龄时序、版本、贾政形象、避讳、主线、结局、元春与省亲、第64.67回
诸问题,也设想到未来种种论难的解说,如用字频率的差异是否因为作者的不同?
这47个字是否经得起推敲?用的统计指标是否最好?如何说明与前人用统计结果的
矛盾等等。(5)
对于这篇文章所下功夫之深入以及研究方法之精细,可说压倒以前数篇,可是由于
作者之企图心太大,推论过头,因此对不能说话的两幅图表(正视图与聚类图)作了
过份的诠释,又乏深入的论证相辅相成,于是引来孙逊、孙菊园教授如下的批评:
1.首要的一个关键问题,即这四十七个虚字是否具有点型性,它们的使用频率是否
足以说明不同作者的写作风格?且不说这四十七个虚字中的许多虚字都是作文所必
用的,如:之、其、亦、呀、吗、呢、著、了、的、很、再、就之类,似乎是每个
作家都必用的,很难根据它们的使用频率来区别作家的不同风格;就算能区分,同
一个作家,在同一部长篇小说中根据所写的内容不同,在前后各回中使用上述虚字
的频率也自然不同;能根据这种不同就断定前后各回出自不同的作者之手么?』
2.笔者并不反对把数学方法引入红学研究,在古老的人文科学领域引入定量方法和
其它近代科学所创造出来的方法,只要运用得当,也许确会给研究带来新的生机,
并减少原始手工操作的种种币病。但是任何一种方法总有它的适合范畴和对象,有
它的不足和局限。数学方法在进行某种定量分析和统计时自有它的长处,这种定量
分析和统计的结果也不是不可以用来在某个领域创立新说。<新说>作者在这方面所
作所为的尝试是难能可贵的。但若过高地估计和夸大了这种方法的作用,以为它真
是万能的,据此就能有重大发现,就能创立新的理论,就要改写全部的红学著作,
就能振兴红学的危机,这就未免偏执和自信了。事实上,要真正解决诸如著作权和
成书过程等问题,最根本的还得靠考证的方法,靠文献资料的发现,数学方法在此
是相对力不从心的。不同的作者用词遣字的习惯确会因人而异,但同一个作者使用
虚字的频率也会因时因地而异;我们也许可以通过统计大致判断出这是出自两位不
同作者之手的作品,但要具体说出是谁却无能为力,如同<新说>作者所说:『统计
方法的优点是纵览全局,利于发现大块的构造。
对于局部结构,它就无能为力,精雕细刻的工作还得让位于考证方法。』(6)
孙教授第一点的批评是对于数理统计语言学的不够了解和没有信心,因为李先生的
图表已足以说明各回间的差异和相互关系,其间也非个别字的问题偶然统计,而是
47字的整体分布,如果说没有预设立场的电脑图表不能分辨其间差别,那是人脑的
程式设计的问题,而非归结于研究方法。但是其指出『过高地估计和夸大了这种方
法的作用....就能创立新的理论』的确是李先生最大的弊病所在。
肆、电脑之检索系统
运用电脑检索<<红楼梦>>的构思在潘师石禅参与资讯策进会国字整理小组时即已萌
芽,并且也曾以第六、四十、九十六等回尝试性的输入电脑检索,并分析其用字及
人名的的统计数据,初步取得成功,后来却因工作重点和时间、经费等问题,未再
继续。不过这次的试验证明电脑辅助研究的可能性。至于真正作到<<红楼梦>>全文
的输入,并作成数据库及检索系统则必需等到以下系统的开发才算完成。
(一)、江苏省镇江市科委与南京工学院『<<红楼梦>>数据库系统』(7)
本系统乃于1983年11月初步开发完成,并由彭昆仑先生在南京<<红楼梦>>讨论会上
正式发表,对外发行则需等待到1987年1 月由镇江市科技开发中心印行<<用户手
册>>以后。
其数据库贮存120回原著及有关专家研究成果,提供多种查询。只要在CCDOS操作系
统C--DBASEIII及高级BASIC语言的支持下,以及IBM/PC-XT 和相容机具有相关设备
即可运作。
至于其所提供知系统功能凡四:
(1)、原著检索:具有人物、物品、风景、事件、结构和综合检索方式,既可显示,
也可列印,极为方便用户之需求。人物检索又可从何人、特徵、回数等方面查询,
其它检索又各列有细目。
(2)、人物档案:建有525名人物的全部档案,供用户随机查询。又分性别、年龄、
籍贯、别名、关系、身份、官衔、职业、月钱、回目及综合项目等。
(3)、统计表格:包括<<红楼梦>>人物关系总表、<<红楼梦>>主要人物主仆关系一览
表、<<红楼梦>>故事年表等24张统计表格。如哭、笑、梦、俗语、戏曲、首饰、药
品外国商品.....。
(4)、图形显示:形像的显示出荣国府和大观园的平面示意图,并动态的演示黛玉入
都和刘姥姥进大观园等十条路径。
(二)、深□大学『<<红楼梦>>多功能检索系统』(8)
此套系统乃由深□大学1990年初开发完成,其检索语言仍然在CCDOS操作系统上、
C-DBASEIII及高级BASIC语言以及IBM/PC-XT和相容机具等有关设备下运作,并有语
言、文学、古代文化三种专题索引目录,亦有单字检索和用字统计。
1.统计或检索某字在<<红楼梦>>中一特定范围出现的次数及列印原文。
2.鸟瞰『红楼文学』修辞手法、爱情描写、心理描写、外貌描写、诗词等五景。
3.『红楼文化』大观,凡分戏曲音乐绘画、对联迷语酒令、古代典籍、教育、服
装、饮食、室内陈设、园林艺术、生活用具、珍奇好玩、医药保健、神鬼巫术职
官、人名索引等共十四类。既可依类寻检内容,也可查其所在原文。
此套正式对外发售,因此配有『WPS』转换磁片,转大陆简体为繁体,但也自暴其
短,使简体字在电脑上运作的种种毛病一览无遗。
由于以上两套系统未全使用过,其程式也没解读,因此速度和流程无法评估,但是
既然以C-DBASEIII及高级BASIC语言设计,则其在近百万字的资料库中运作,速度
绝对不可能太快,因此,这两套系统距离商业发行的真正条件还早,只能在PC系统
上从事检索,还上不了网路系统。再者,除了全文检索尚可勉强一用外,分类只便
利初学者的了解,对于研究者而言,整个系统仍然存有不少缺失。何况研究者需待
探索的是大家所未道及和不曾研创的概念,真正案研究者的篇章分类或按类分别后
的概念材料,反因带有主观的色彩,失去客观的依据,成为出主入奴,处处受到拘
束乃是不言而喻。尤其两个系统在设计时全没考虑到将检索得到的材料存入暂存档
中,以备撰写文章时引用,避免于重新誊录一次,节省人力,这点缺失恐怕是设计
时候大陆电脑尚未普及的关系罢!
伍、电脑运用的边际效用和极限
从<红楼梦>>研究与电脑科技结合的过程,我们可看出电脑之运用于文学研究乃是
未来不可避免之事,若依笔者之意见可以从事如下数种工作:
1.烦琐文献资料的检索和查证:
中国历史悠久,人口众多,其历代累积的文献往往使学者穷其一生也无法遍阅,而
在知识爆发的今天,知古而不知今,知中而不知外者,悉被摈斥于通人之外。研究
者对于所研究的问题要求全面材料之掌握,进行有组织与逻辑性之判断,若无辅助
工具无异缘木求鱼,如今随着中文电脑软硬体设备的改进,已使中文学者有了莫大
的助益。不再徒凭记忆,也不再援用烦琐、花成本与占据空间的卡片制作。不管是
硬碟或软碟,其存量与经济皆远在旧法之上。更重要的是检索速度之快,远非穿孔
的卡片可以比拟。
以陈郁夫先生设计的龙泉三号十三经检索系统,其在百万字中寻检资料,不过五秒
即可瞬间过滤出自己想要的资料,在时间即金钱的今天,诚非其它引得与卡片可相
比拟。纵使程式设计技术较差的人,以今日软硬体的速度改进,也不需太长的实间
即可寻检到想要的材料,而且也是人人可作之事,如果能够做到资源共享,则中国
文学研究的未来进步是可以预期的。
当然其最大的缺点是造成大家死守着电脑,不再从事蠹鱼的工作,对于原典既乏相
当的熟悉度下,想要找什么资料则是一片空白。再者,找出的资料太多后,是否会
产生边际效用问题,从信息量的负□作用而论,有用的信息却因为过多的信息量反
成累赘,且无效用。
2.查对文献资料的正误
事实上,电脑具有的宽容性和客观性使它能忠实的反映任何使用者想要的材料,不
会屈从权威,也不会蒙蔽初学,更不会谄媚讨好任何使用者。因此,只要有了一套
良好的设计检验程式,布林运算子即能告诉文献资料的正与误,从不隐瞒什么。彭
昆仑先生对于的<关于<<红楼梦>>时间进程和人物年龄组织的探讨----兼论电子计
算机在红学研究中的初步运用>即是一篇很好的范例文章,他说:
笔者统计,按『六岁论』计,宝玉及『十二钗』的平均年龄为15.4岁;『九岁论』
计为18.4岁;『十三岁论』计为22.4岁。显见,如果平均年龄过低,林黛玉辈便成
了一群无知的小孩,或成了一群过早谈情说爱的病态女性,还谈得上什么『反封建
主题』呢?这也就是持『六岁论』者的致命弱点。若平均年龄过高,爱情描写成了
多余,生活失去了色彩,与书中故事情景也必然不合,这些便成了『十三岁论』者
的结(绝)症。看来,『九岁论』是最符合生活和文学逻辑的。
足见凭靠人脑或如大某山民姚燮般的精细统计还是抵不过电脑的明确和客观,更不
具有它的宽容性。
3.信息量的分析足以预作提示和发明新说:
文学是语言的艺术,如果文本的表意可从语言文字的解读中得到其信息量,则分析
其文字语汇之频率,从中探索其想要表达的东西和所讳谈之事物,往往可以提供学
者既熟悉的概念,也能提供大家所常忽略的一般问题。过去原典的诠释和新说之发
明全靠研究学者的解读,并随着文献的性质设计与改进研究方法发明新说,而不能
生吞硬套。为此,『八方风雨』式的读书设计在今日看来是苦了些,如果能够从字
词的统计频率上加以分析,应可窥见作品中大大小小无数的信息量,而知作者的喜
好厌恶。如此,既可设计出研究取向的切入角度,并可因材料信息的提供而设计一
套别出心裁的研究方法。
4.无关情节文字的统计
频率的统计是电脑最为擅长的工作,面对数十万字的用字和语汇,其在全书出现的
次数对人工而言往往视为畏途,但是电脑可以忠实且不厌其烦的帮我们作一详实可
靠的计算,只要根据计算结果来看作者的表义和意图。计量史学早已成为史学研究
方法之一,文学何尝不可以计量,随着电脑软硬体的发展,学者的亟力运用,计量
文学的来到当然可以预期,尤其面对长久以来存有争论的古籍或文学作品,从其用
字频率之比较应该可以作为参考判断。陈大康文章和李贤平二位先生的文章就是很
好的一篇范例。
5.信息论、控制论、语言风格学、符号学、主题学等研究方法上的配合开发
语言乃是一种表意的符号,该符号代表的概念即是一种信息,而作者所要表述的意
志与概念总合,毫无疑义几近成为作品中的整个信息。因此无论从概率信息论来
看,或从模糊信息论而言,如果能够运用数理统计方法了解信息之处理以及信息之
传递,从作者出发之形成文本,到作品在各个特定时空环境下的媒介质及读者接收
到讯息的整个过程,探讨从白箱到黑箱运作的整个过程,电脑的计量绘图皆大有可
为的地方。
不论对同一作者的两本书,或前后不同作者的一本书,以及各时代的单一作品或各
个作品,用电脑计量其信息乃较人工的计量简单可行。如果从语言风格学和主题学
的研究方法上而论,信息频率是一个足以作为参考的客观数据。至于其运作犹待大
家的关注和人脑程式的开发设计才能有成。
陆、结论
总而言之,只要在电脑中输入完整的信息,电脑即能完全忠实不烦的答覆和工作,
对于问题复杂的逻辑运算、数字、数据的统计和绘图及需大量记忆的工作也强过人
脑,以其具有忠实性、宽容性、明确性、可追踪性、客观性、具延展性和有时效性
等特点,对研究者而言有其积极意义。但是电脑的信息来自人工的输入和提供,而
其程式设计也是随着人脑的激汤与开发而演进,其功能有其极限和边际效用,不应
过份的夸大而作过头的诠释。其运算及推论需以研究者之研究成果为前提,客观解
决已经存在的争论问题,因此,它目前只是一种验证的工作和提供研究材料及研究
方法的很好的参考辅助机器,研究之时有其临界,而非永无止境。最后,笔者想要
援引郭豫适先生之言以作总结:
电子计算机可以容纳成千累万甚至十亿、百亿个数据信息,可以进行极其庞大复杂
的天文数字运算,可以比人工快十万、几百万倍地进行这种运算,这是它的优点。
就这方面说,有时候,一百个人、一千个人也抵不过一部电子计算机。但是,电子
计算机毕竟是一种人造的机器,它没有感情和生命,在涉及文学研究中的感情活动
和美学欣赏时,它就无能为力了。在这种情况下,一百部、一千部电子计算机也无
济于事。说到底,『机器人』毕竟是一种人造的机器,是人的一种工具。
人所造出来的机器,可能会有越来越多的功能和作用,但它需要人来研究、改进、
发展和运用。电子计算机是人类科学知识和智慧的产物,它的发展也是以人的科学
技术的发展为前提的。亿万斯年之后,我想情况也还是如此。(9)
[注释]
(1).高本汉(BernhardKarlgren)"NewExcursionsin
ChineseGrammar",in
BulletinoftheMuseumofFarEasternAntiquities(
Stockholm)1952,
No.24,PP.51-80.
(2).赵冈、陈钟毅,<<红楼梦新探>>(香港:文艺书屋,1970)下篇第二节<前八十回与后
四十回用字之比较>,第356--368页。该书又于民国六十年四月由台湾晨钟出版社
发行,文字全同。其后该书改为<<红楼梦新编>>(联经出版事业公司,民国64年12
月),下篇第二节仍然保留这一部份的文字(311-320页)。又赵先生单独具名的论
文集<<漫谈红楼梦>>(经世书局,民国70年6月初版)也再收录于第125-138页中,足
见赵先生认为这篇可以代表其专长学科运用在<<红楼梦>>研究上的典范文章。
(3).陈先生与会论文乃以英文撰述,因此并未收入周策纵先生主编的<<首届国际红楼
梦研讨会论文集>>(香港、中文大学出版社出版),后来以中文改写为<从字汇上的
统计论红楼梦作者问题>(<<中报月刊>>、1982年4月第27期,第46-51页)。另有<
从『电脑红学』说起>(<<中报月刊>>、1983年2月,第59-61页)及<电脑在文学上
的应用--<<红楼梦>>与<<儿女英雄传>>两书作者用词的比较>(<<中报月刊>>、19
86年1月,第87-92页),皆为此篇的回响答辩和延续性研究的文章。至于针对本篇
报导或批评者凡有<计算机闯入『红学』研究园地>、"CHINACOMPUTERWORLD"(1
980年10月28日),周稼骏、于小丽撰写的<电子计算机闯入『大观园』>,快人<『
电脑红学』>、<<快报>>(1982年11月2日),其它相关文章则随文再论。
(4).陈大康,<从数理语言学看后四十回的作者----与陈炳藻先生商榷>,<<红楼梦学刊
>>(文化艺术出版社,1987年4月)第31期,第293-318页。
(5).李贤平,<<<红楼梦>>成书新说>,<<复旦学报(社会科学版)>>(上海复旦大学,1987
年)第5期,第3--17页。
(6).孙逊、孙菊园,<用数学方法解决不了<<红楼梦>>的作者和成书问题>,<<明清小说
丛稿>>(中国文化大学华冈出版社,1992年9月),第346-360页。
(7).江苏省镇江市科委、南京工学院联合研制,<<『<<红楼梦>>数据库系统』用户手
册>>(镇江市科技开发中心印,1987年1月)第1-58页。案此套系统初步开发完成时
,开发人员曾经在1983年11月的南京<<红楼梦>>讨论会发表如下三篇文章:
彭昆仑<关于<<红楼梦>>时间进程和人物年龄组织的探讨----兼论电子计算机
在红学研究中的初步运用>姚颂平<运用电子计算机参与本课题程序编制的几点说明
徐小健<关于『<<红楼梦>>时间进程和人物年龄问题』程序移植和实现汉字显
示的有关说明>
(8).深□大学研制,『<<全唐诗>>、<<红楼梦>>电脑检索系统手册简介』(新学识文教
出版中心,1992年4月)第18-35页。
(9).郭豫适,<电子计算机和<<红楼梦>>研究>,原收录在<<中国古代小说论集>>(上海
古籍出版社,1985年),其后又收录在<<论<<红楼梦>>及其研究>>(上海古籍出版社
,1992年)第415-423页。
犀鸟文艺
返回