作家们最爱用的词是“后座”！ | 刘铮

2019-01-20 文化观察

无论如何，班·布莱特的书还是向普通的文学爱好者展现了数据研究的魅力，哪怕只是知道了纳博科夫的“肉桂词”是“藕荷色”也不错。

刘铮

1

利用数据来考察文学文本，并不是互联网兴起之后才有的事。太远的例子我一时想不起来，唐代的孔颖达（574年—648年）等撰《毛诗正义》，倒确实统计过《诗经》的一些文字数据。比如，《诗经》中最短的句子是两个字的，“即‘祈父’、‘肇禋’之类也。三字者，‘绥万邦，娄丰年’之类也……七字者，‘如彼筑室于道谋’、‘尚之以琼华乎而’之类也。八字者，‘十月蟋蟀入我床下’、‘我不敢效我友自逸’是也。其外更不见九字、十字者”。《正义》还指出，《诗经》中一章最少有两个句子，而“其多者，《载芟》三十一句，《閟宫》之三章三十八句”（按，《閟宫》之分章存争议，兹不赘；成伯玙《毛诗指说》有类似考论，但有个别错误，故不及《正义》）。

从《毛诗正义》这个例子，我们或许可以试着推定早期文学文本数据研究的一些特征：首先，研究对象几乎必然是经典，否则就不值得花那么大功夫进行人工统计；第二，文本须有相对可控的固定边界，比如某一经典或某种经典组合（如十三经），通常说来，过大的文字量会使人工统计变得不现实；第三，处理数据的手法是相对原始、机械的，比如只是数一数一句里有几个字、一章里有几个句子，无法再进一步加以综合、提炼、分析。

事实上，西方的文学数据研究，一直到上世纪八十年代初，也还没有超出《毛诗正义》这个水平多少。1987年，约翰·巴罗斯（John Burrows）对简·奥斯丁小说进行全面数据考察的专著《计算进入文学批评》（Computation in Criticism: A Study of Jane Austen's Novels and an Experiment in Method）出版，才算正式拉开了文学研究的精确数据时代的帷幕。但我们看巴罗斯的进路，也依然是“经典、小样本、手法简单”的，只不过，样本的文字量略有增加，手法更精细了些而已。

2017年，并非专业文学学者的班·布莱特（Ben Blatt）在美国出版了《纳博科夫最爱用的词是藕荷色：数字揭示的经典、畅销书和我们自己写作的真相》（Nabokov's Favorite Word Is Mauve: What the Numbers Reveal about the Classics, Bestsellers, and Our Own Writing）一书，2018年，台湾推出了该书的译本，改题《文学大数据》，大概想搭“大数据”的车。《文学大数据》号称处理的文本有1500部之多，这个数字自然远远超过人工统计所能达到的极限：比如，班·布莱特统计了100部英文经典小说中“他”（He）、“她”（She）的使用量，其中仅托尔金的《霍比特人》一书就使用“他”将近1900次，试想让一个人一页一页地去数小说里有多少个“他”，他可能要疯掉的，更别提100部了（当然，要让他去统计《霍比特人》里的“她”字使用量，或许就容易得多了：作者只在全书开头部分使用过一次“她”，后来这个字再也没有在小说里出现过）。

纳博科夫和他的蝴蝶标本。资料图片

2

挺多时候，班·布莱特处理数据的手法显得有点“简单粗暴”，比如分别统计作品中第三人称代词的阴阳性数量，从这个数据出发，就得出结论说，某位作家对男性的关注更多或较少，这个方法正确吗？精确吗？精确肯定谈不上，但假如你只要求得到一个定性的、含糊的结论，那这个方法就不能说一无是处。就像上面谈到的，《霍比特人》使用了近1900次“他”而只用了一次“她”，于是，我们认为托尔金是个对男性关注比对女性关注更多的作家，这个结论有问题吗？似乎没什么问题。但这一模型设计的缺陷也的确明显，让我们假设有一位男作家写了一部以女性为主角的小说，采用的是人物自述的叙事方式，通篇出现的代词都是“我”，那么班·布莱特设计的统计模型对它就完全失效了。假如有哪个小说家爱直呼角色的名字，不爱用代词，那班·布莱特的模型也须加矫正。不过，班·布莱特自己未尝不明白这一点，所以他下的结论通常并不绝对，也很少跟我们的直觉判断冲突，比如，他说，男性撰写的经典文学作品都与男性有关，且偏重明显（50部中有44部用“他”多过“她”），而女性撰写的经典文学作品关注女性略多于男性，但差距甚微（50部中有29部用“她”多过“他”）。这个结论，就算我们没去实打实地统计，感觉上也是如此吧。

《文学大数据》带给我们新鲜刺激感受的，肯定不在作者的性别、地域这些方面，而在作家们对词汇的具体使用方面。例如，该书的英文书名“纳博科夫最爱用的词是藕荷色”，就揭示了一个我们意想不到的事实。小说《华氏451》的作者雷·布拉德伯里说，他最偏爱的词是“肉桂”（cinnamon），于是，班·布莱特就把作家们个人钟爱而一般人少用的词称为“肉桂词”。根据班·布莱特的数据统计，纳博科夫的“肉桂词”前三名（数据来自纳博科夫的8部小说）分别是“藕荷色”（mauve）“平庸”（banal）“双关语”（pun）。像这样的结果，你是很难依凭个人的阅读经验总结出来的，哪怕你是个纳博科夫迷——甚至纳博科夫本人，也难排出这前三名的顺序，毕竟数据才是最客观的。雷·布拉德伯里以为自己偏爱“肉桂”，但事实上他用的“绿薄荷”（spear-mint）比“肉桂”要多。那么，我问问你，丹·布朗四本“兰登教授”小说的“肉桂词”前三名是什么呢？答案是：圣杯（grail）、共济会的（masonic）、金字塔（pyramid）。哈哈，跟我想得差不多嘛——我猜你多半会这么说。

还有一些词，是作家们不知不觉用了很多的。畅销小说家迈克尔·康奈利就说，自己的小说里有许多“点头”（nod）。据班·布莱特统计，康奈利的小说里每10万个词里会出现109个“点头”（每三四页就有一个），是美国近当代英语语料库该词出现频率的15倍。班·布莱特把这类作家不自觉反复使用的词称为“点头词”，那么，你猜猜看，简·奥斯丁的“点头词”前三名会是什么？答案：她自己（herself）、亲爱的（dear）、女士（lady）。那么托尔金的呢？答案：戒指（ring）、黑暗（darkness）、路（road）。哈！我说什么来着——我猜你多半会这么说。

班·布莱特列出了整整50位作家（其中既有詹姆斯·乔伊斯这样的文学巨匠，也包括《暮光之城》这样的通俗小说作者）的“肉桂词”和“点头词”，我仔仔细细、来来回回地看，你猜我发现了什么？我发现这50位作家“共同”的“肉桂词”居然是——后座（backseat），有4位作家的“肉桂词”前三名里都有它：杰弗里·尤金尼德斯、珍妮·伊凡诺维奇、卡勒德·胡塞尼、恰克·帕拉尼克。原来当代作家们最爱用的词是“后座”！这个事实就像一辆横冲直撞的汽车，把我的文学认知撞翻了。

乔伊斯在巴黎街头。资料图片

再看看各位作家的“肉桂词”，我发现，有两个作家的“词汇气质”居然异常接近：斯蒂芬·金与汤姆·沃尔夫。斯蒂芬·金的“肉桂词”：见鬼（goddam）、废话（blah）、该死（fucking）；汤姆·沃尔夫的“肉桂词”：该死（fucking）、呃（haw）、见鬼（goddamned）。不知这一相似有没有得到当代美国文学研究者的充分注意，要是有人写出一篇论文，论证斯蒂芬·金和汤姆·沃尔夫的作品事实上是同一个人写出来的，我是不会觉得意外的。

3

班·布莱特在书中还检验了一些文体学研究者以及写作辅导书作者提出的所谓“金规玉律”，比如，“别用副词”，尤其是别用以“地”（-ly）结尾的副词，还有“别用惊叹号”。那么，这种“金科玉律”真的不容触犯吗？班·布莱特的统计数据显示，经典作家用的副词的确比普通写手要少，经典名作中出现的副词通常也比同一作家写的不那么受好评的作品中的少。不过，我对此类判断总是心存疑惑，比如我从詹姆斯·乔伊斯的小说《一个青年艺术家的画像》引一节：

Cranly pointed his long forefinger at him.

“Look at him!” he said with scorn to the others. “Look at Ireland's hope!”

They laughed at his words and gesture. Temple turned on him bravely, saying:

“Cranly, you're always sneering at me. I can see that. But I am as good as you any day. Do you know what I think about you now as compared with myself?”

“My dear man,” said Cranly urbanely, “you are incapable, do you know, absolutely incapable of thinking.”

这里面，光带“-ly”的副词就有三个：bravely、urbanely、absolutely，还不用提事实上起到副词作用的with scorn。这一节，“-ly”结尾的副词出现率为3.6%，比《格雷的五十道阴影》的作者写的小说的副词出现率1.55%还高出一倍多呢。这么说，乔伊斯的写作水平还不如一位情色小说家吗？

再看“别用惊叹号”这一条，数据就更令人吃惊了：在班·布莱特统计的作家中，最不爱用惊叹号的是通俗小说家埃尔默·莱昂纳德，每一万词只用4.9个惊叹号，而在用惊叹号最多的作家那一端，你又会遇到一个熟悉的名字，没错，就是他——詹姆斯·乔伊斯！每一万词他会用110个惊叹号！假若爱用惊叹号是不懂写作艺术的标志，那么詹姆斯·乔伊斯就是名作家里最不懂写作的！这个结论，你同意不同意？

尽管班·布莱特在书中处理的文本数据是远超人们以往所能想像的数量的，但从总量上看，这些数据并没有超出一台PC机的处理能力。因此，我还是倾向于将班·布莱特这本书视为约翰·巴罗斯著作延长线上的产物，他使用数据进行的是传统文体学所作的工作，同时，样本量虽然有所提升，但提升幅度仍有限，而处理手法之粗放，显然还达不到对文学批评、文学史专业研究者的要求。文学史家莫莱蒂（Franco Moretti）曾提出，19世纪的英国小说总数有两三万部左右，一个学者勤勤恳恳地攻读两百部经典小说已经很了不起，但比起总量来终是九牛一毫（见Graphs, Maps, Trees, p.3-4）。如果真的以《文学大数据》这个书名来衡量班·布莱特的书，那好像应该叫《文学小数据》才准确——假若不是《文学微数据》的话。在真正的大数据文学研究方面，建议大家去读乔克斯（Matthew L. Jockers）写的《宏观分析：数字方法与文学史》（Macroanalysis: Digital Methods and Literary History），那种波澜壮阔，不是几百本书的统计者所能想像的。

《文学大数据》，（美）班·布莱特著，林凯雄译，创意市集2018年4月第一版。作者供图

不过，无论如何，班·布莱特的书还是向普通的文学爱好者展现了数据研究的魅力，哪怕只是知道了纳博科夫的“肉桂词”是“藕荷色”也不错。顺便问一句，你知道我的“肉桂词”是什么吗？答案：事实上。在文中出现过四次，找找看吧。至于惊叹号，则在文中出现了五次，你指责我像乔伊斯一样不懂写作艺术，我也只能认了。

（作者刘铮，笔名乔纳森，编辑、书评人。毕业于清华大学，现任职于《南方都市报》。著有《始有集》，编有《日本读书论》。）

（来源：《289艺术风尚》2018/9-10月合刊）

网络编辑：温翠玲

文学大数据作家

作家们最爱用的词是“后座”！ | 刘铮

1

2

3

相关文章

陈思和：大家都说“佛系青年”，今天的文学里有没有？

谈清宫戏很亲切，谈鲁迅反而很遥远？一堂课里的中国现当代文学

金庸：武侠造梦者与他的文学江湖

王佐良的一段历史

《霍比特人》之后，他终于又出手了

作家们最爱用的词 是“后座”！ | 刘铮

1

2

3

作家们最爱用的词是“后座”！ | 刘铮