基本信息
文件名称:《自然语言处理技术及应用》教案 项目2 构建语料库.docx
文件大小:8.1 MB
总页数:8 页
更新时间:2025-05-26
总字数:约8.75千字
文档摘要

PAGE8

PAGE8

PAGE7

PAGE7

课题

构建语料库

课时

6课时(270min)

教学目标

知识目标:

(1)了解语料库及语料库的特点

(2)了解语料库的类型及其构建原则

(3)掌握获取NLTK中的语料库与网络在线语料库的基本方法

(4)掌握正则表达式中常用的函数和元字符

技能目标:

(1)能够编写程序,构建本地语料库

(2)能够使用正则表达式进行字符过滤

素养目标:

(1)夯实基础,培养一丝不苟的工作态度,增强积极主动寻求解决方法的意识

(2)增强创新意识,提高选择合适方法解决不同问题的能力

教学重难点

教学重点:语料库及语料库的特点,语料库的类型及其构建原则,获取NLTK中的语料库与网络在线语料库的基本方法,正则表达式中常用的函数和元字符

教学难点:能够编写程序,构建本地语料库;能够使用正则表达式进行字符过滤

教学方法

案例分析法、问答法、讨论法、讲授法

教学用具

电脑、投影仪、多媒体课件、教材

教学过程

主要教学内容及步骤

课前任务

【教师】布置课前任务,和学生负责人取得联系,让其提醒同学通过APP或其他学习软件,收集构建语料库的相关知识,并进行了解

【学生】提前上网观看相关资料,熟悉教材

考勤

【教师】使用APP进行签到

【学生】按照老师要求签到

问题导入

【教师】播放“语料库的用途”视频,并提出以下问题:

问题1:什么是语料库?

问题2:简述语料库在自然语言处理中的用途。

【学生】观看、思考、讨论、回答

传授新知

【教师】通过学生的回答,引入新知,讲解语料库及语料库的特点,语料库的类型及其构建原则,获取NLTK中的语料库与网络在线语料库的基本方法,正则表达式中常用的函数和元字符等知识

2.1语料库基础

2.1.1语料库简介

语料库的实质是经过科学取样和加工的大规模电子文本库,是为某一个或多个应用目标而专门收集的,有一定结构和代表性且可被计算机程序检索的,具有一定规模的,标注了语法、语义、语音和语用等语言信息的语料(语料指语言材料)集合。

语料库具备以下?3?个特点:

①语料库中存放的语言材料在语言的实际使用过程中真实出现过;

②语料库是以计算机为载体,承载语言知识的基础资源;

③语料库是对真实语料进行加工、分析和处理的资源。

2.1.2语料库的类型

根据不同的划分标准,语料库可分为不同的类型。按照语料的结构进行划分,可将语料库分为平衡结构语料库和自然随机结构语料库;按照语料库的用途进行划分,可将语料库分为通用语料库和专用语料库;按照语料选取的时间进行划分,可将语料库分为共时语料库和历时语料库。

1.平衡结构语料库与自然随机结构语料库

平衡结构语料库是按照某种预先定义好的规则(定义语料库中语料的类型和每种类型所占的比例)采集语料构成的语料库。例如,历史上第一个机读语料库——布朗语料库就是一个平衡结构语料库,它的语料按3层分类,严格设计了每类语料所占的比例。

……(详见教材)

2.通用语料库与专用语料库

通用语料库与专用语料库是一对相对概念。通用语料库是按照特定标准,综合考虑时间、地点、语种、行业、领域等多方面因素,将所需的文本统一归类的语料库。构建通用语料库时,通常需要预先设计好各语言变体在整个语料库中所占的比例,以达到客观描述语言全貌的目的。通用语料库容量庞大,往往可以过滤出特定属性的文本,形成多个具有专门用途的子语料库。

……(详见教材)

3.共时语料库与历时语料库

共时语料库与历时语料库是相对而言的。为了对语言进行共时研究,由同一时代的语料构成的语料库称为共时语料库;基于不同时代的语料所建成的多个共时语料库可以构成一个历时语料库。例如,古汉语语料库中的上古汉语、中古汉语(含大藏经)和近代汉语这?3?个语料库即可看成是3个共时语料库,而古汉语语料库本身就可以看成是一个历时语料库。

2.1.3语料库的构建原则

语料库为语言研究和自然语言处理提供了大量的资料来源,人们也逐渐认识到了语料库的重要性。目前,国内外很多研究机构致力于各种语料库的构建,并且正朝着不断扩大库容量、深化加工和不断扩展新领域等方向发展。构建语料库一般要遵循以下4个原则。

(1)代表性。语料库中的语料是通过一定的抽样框架采集而来的,采集语料时应尽可能多地反映真实语言现象和特点,即采集的语料样本要具有代表性和普遍性。

(2)结构性。语料库中的语料必须以计算机可读的电子文本形式保存,并且保存的语料要具有一定的结构性。语料的结构主要包含元数据项、数据类型、数据宽度、取值范围和完整性约束等。

(3)平衡性。平衡性是指采集语料时要考虑不同内容或指标的平衡性。一般在构建语料库时,需要根据实际情况选取一个或几个指标作为平衡因子,根据这些平衡因子采集语料,常见的平衡因子有学科、年代和地域等。

(4)规模性。构建语