2023年8月8日至9日,bat365教师常丹丹赴北京参加外研社第9期暑期研修班研修班。本期研修班以《语料库在外语教学与研究中的应用》为主题,特邀北京外国语大学许家金教授、刘鼎甲博士主讲,通过实操演练介绍了语料库在外语教学和研究中的使用。
两位专家介绍了语料库研究的大背景和已取得的研究成果,并强调语料库研究具有广阔的学科视野,大有可为。刘鼎甲博士介绍了经典时代语料库研究中的基本术语,并阐述了与词相关的语料库统计方法以及语料库操作相关概念。
许家金教授指出,在实际的教学和研究中,可使用已建成的语料库。许教授介绍了COCA、BNC等大型主流语料库及其获取方式,展示了由北外语料库团队创建的多语种、多用途在线语料库集群(BFSU CQPweb)。许教授指出,在选择某个语料库之前,研究者应详细了解该语料库的库容、所含语料文体等基本信息。
除已建成的语料库外,也可自建语料库。
创建语料库的第一步是采集语料。许教授讲解了采集语料的基本操作,重点介绍了几种网页自动爬取方式,演示了如何运用idiom search网站确定检索关键词,并使用BootCat工具自动爬取网页文本。第二步是文本编辑和清洗,常用文本编辑工具为:EditPlus。第三步为文本标注,刘博士介绍了不同类型语料库的标记规范,以新闻文本为例,示范了语料文本元信息标记的方法,并指导参班教师制作元信息表头。刘博士强调,在进行标注前,熟悉词性标注集是非常重要的,并详细介绍了UCREL CLAWS5和Penn Treebank P.O.S.等常用标注集。在此基础上,刘博士使用Tree Tagger和CorpusWordParser两种典型标注工具分别对英文和汉语语料进行分词和词性标注,并引导参班教师进行实际操练。
语料库创建后,进入分析语料阶段。许教授介绍了语料库文本检索分析工具AntConc的具体功能,还讲解了如何利用Syntactic Complexity Analyzer、Readability Analyzer等工具来分析语料文本的词汇难度和句法复杂度。刘博士介绍了R语言的特点以及RStudio的界面功能,详细示范了数据的可视化操作,并解读了统计分析结果。
在小组实践活动中,六组教师利用ChatGPT等大语言模型开展外语教学或研究设计,并在全班进行了教学分享。在研修的最后阶段,两位专家分别结合具体教学或研究实例,讲述了语料库的辅助作用。许教授重点讲述了语料库在词汇表编写、词典编纂、教材编写、教学大纲制定、教学设计等方面的运用。刘博士分享了语料库在翻译教学和研究中的应用案例。
两天的研修紧张而充实,参班教师收获颇丰,课程内容实用,信息量大,后续经过不断消化和实践,定能学为所用,发挥语料库在教学和研究中的积极作用。