为了响应教育部跨学科人才培养战略,118免费彩色印刷图历史系本学期组织数字人文系列演讲。2022年3月24日,祝平次教授做《文本VS资料库:朱子语类的研究》报告,此次报告也是新文科“数字人文与民间历史文献学研究”的系列活动之一。
祝平次于哈佛大学东亚系取得博士学位,现任新竹清华大学中文系教授,致力于明代理学与数字人文研究。
祝平次先用四个简单的案例,分别是“《离骚》中的第一人称代词与行动、心智活动之关系探索”、“由碑志文的请铭与撰铭关系论周必大的人际网络组成”、“木心散文风格初探”、“无灵性亦可为诗:新诗字、词频使用习惯分析与新诗创作尝试”为我们讲述了数字人文工具在词频分析、文本勘探和社会关系网络分析等方面的应用。紧接着便引出今晚的授课重点,如何对有阶层的文本进行处理?
所谓《朱子语类》,即朱熹在与弟子授课过程中的语录及问答被记载和汇编成册,是朱熹思想的集成之作,共140卷。相较于传统的文本研究多是在Excel表格中进行整理,《朱子语类》是一种存在文字阶层的文本,因而进行细致化的架构分析是必须的。将传统文本转化成资料单,为了达到更好的效能,是一定要将其与数字工具进行结合,数字人文科技的进步使我们能够在宏观和微观资料之间快速移动,转换不同类型的资料,并将资料进行串联,通过工具效能的累积,发现目视所不能发现的资料。对于《朱子语类》,通过转化文本并加以数字利用,可以探究记录者在文本中的作用、人际网络关系等多种议题。同时从宏观上来说,应用数字人文研究要遵循三个重要步骤:1.善用既有资源。观察资料的特征,获取数位文本。2.善于利用合适的数字工具达成目标。3.进行统计、资料串联以及资料的整理与拓展,最终得到资料的加值。
在授课过程中,祝平次亲自为我们演示了《朱子语类》文本转化的实际操作,包括先从近代汉语标记语料库获得标记文本,再将文本转入Ctext中进行处理,并利用正则表达式的方法去进行标记和选择,最后在Existdb上进行导出和处理分析的操作全过程。
讲授之余,祝平次也积极与在场师生进行互动。在选择文本过程中,黄向春提问,“如何选择不同版本的数字文本?”祝平次回答道:“对于数位版本的选择实际上和传统的版本学是一样的,我们可以根据自己的需求去进行常识性的判断。”高晨焜提问,“对于资料处理中暂时用不到的讯息如何处理?以及这样的处理是否会对之后的深入研究产生影响?”祝平次回答道:“对于资料的处理我们常常需要遵循两个原则,一个是备份原则,另一个是资料更新的原则。在进行文本标记和资料处理的时候要注意不必要信息的影响。但是作为丰富的信息亦可以在后续研究作为保留栏位。”
通过此次祝平次关于《朱子语类》文本的数字工具操作演示,同学们对于复杂文本的类型转换有了更切实的了解。而演示过程中相对复杂的正则表达式的应用,也激起同学们挑战数字文本分析的学习斗志。
撰稿人&碩士研究生盧映輝