授课教师:xxx自然语言处理技术及应用
搭建自然语言处理开发环境项目1构建语料库项目2词法分析项目3关键词提取项目4文本向量化项目5句法分析项目6全课导航
语义分析项目7情感分析项目8智能问答机器人的设计与实现项目9全课导航
构建语料库2
项目目标了解语料库及语料库的特点。了解语料库的类型及其构建原则。掌握获取NLTK中的语料库与网络在线语料库的基本方法。掌握正则表达式中常用的函数和元字符。项目目标知识目标
项目目标能够编写程序,构建本地语料库。能够使用正则表达式进行字符过滤。夯实基础,培养一丝不苟的工作态度,增强积极主动寻求解决方法的意识。增强创新意识,提高选择合适方法解决不同问题的能力。项目目标技能目标素养目标
项目描述20?世纪?60?年代以来,随着计算机应用技术的不断发展,世界上的主要语言都建立了许多不同规模、不同类型的语料库,这些语料库在自然语言处理领域发挥着越来越重要的作用。目前,语料库已经成为自然语言处理的基础资源,是各种自然语言处理算法得以实现的基础。学习自然语言处理需要先学习语料库,为后续完成自然语言处理任务打下坚实的基础。小旌也认识到了这一点,因此,他决定先学习语料库的相关知识,然后构建一个语料库。
项目描述小旌构建的语料库是“金庸作品语料库”,使用的数据是金庸先生的部分小说作品,包含《倚天屠龙记》《书剑恩仇录》《神雕侠侣》《天龙八部》《雪山飞狐》等,每个作品都是以书名命名的“txt”文件。小旌打算先使用这些作品构建一个语料库,然后对语料库进行分析,最后使用正则表达式对作品《倚天屠龙记》中的字符进行过滤。
按照项目要求,“金庸作品语料库”的构建与使用具体步骤分解如下。第?1?步:构建并分析语料库。实例化PlaintextCorpusReader类的对象,加载本地文本文件构建“金庸作品语料库”,并定义?for?循环遍历语料库中的所有文件,输出每个文件的文本长度、总词汇数量和词表长度。第?2?步:过滤《倚天屠龙记》字符。查看《倚天屠龙记》部分文本,然后使用正则表达式过滤英文特殊字符、英文标点符号、英文字母、中文特殊字符、中文标点符号和数字,并输出过滤后文本的部分内容。项目分析
项目分析构建语料库之前,需要先学习语料库的基础知识。本项目将对相关内容进行介绍,包含语料库的概念和类型,语料库的构建原则,获取?NLTK?语料库和网络在线语料库的基本方法,以及自然语言处理中的正则表达式。
项目准备全班学生以?3~5?人为一组进行分组,各组选出组长,组长组织组员扫码观看“语料库的用途”视频,讨论并回答下列问题。问题1:什么是语料库?问题2:简述语料库在自然语言处理中的用途。语料库的用途
010203目录
CONTENT语料库基础获取语料库自然语言处理中的正则表达式
语料库基础第01节语料库简介语料库的类型语料库的构建原则
视频导入
2.1.1语料库简介语料库中存放的语言材料在语言的实际使用过程中真实出现过;01语料库的实质是经过科学取样和加工的大规模电子文本库,是为某一个或多个应用目标而专门收集的,有一定结构和代表性且可被计算机程序检索的,具有一定规模的,标注了语法、语义、语音和语用等语言信息的语料(语料指语言材料)集合。语料库具备以下?3?个特点:语料库是以计算机为载体,承载语言知识的基础资源;02语料库是对真实语料进行加工、分析和处理的资源。03
2.1.2语料库的类型预料库类型按照语料的结构进行划分1平衡结构语料库自然随机结构语料库按照语料库的用途进行划分2通用语料库专用语料库按照语料选取的时间进行划分3共时语料库历时语料库
2.1.2语料库的类型1.平衡结构语料库与自然随机结构语料库平衡结构语料库是按照某种预先定义好的规则(定义语料库中语料的类型和每种类型所占的比例)采集语料构成的语料库。例如,历史上第一个机读语料库——布朗语料库就是一个平衡结构语料库,它的语料按3层分类,严格设计了每类语料所占的比例。自然随机结构语料库是按照某个原则随机采集语料构成的语料库,如北京大学开发的《人民日报》语料库就是一个自然随机结构语料库。
2.1.2语料库的类型2.通用语料库与专用语料库通用语料库是按照特定标准,综合考虑时间、地点、语种、行业、领域等多方面因素,将所需的文本统一归类的语料库。通用语料库容量庞大,往往可以过滤出特定属性的文本,形成多个具有专门用途的子语料库。专用语料库通常是为了某种专门的目的,只采集某一特定领域、特定地区、特定时间和特定类型的语料构成的语料库。例如,新闻语料库、科技语料库和中小学语料库等都属于专用语料库。
2.1.2语料库的类型3.共时语料库与历时语料库为了对语言进行共时研究,由同一时代的语料构成的语料库称为共时语料库;基于不同时代的语料所建成的多个共时语料库可以构成一个历时语料库。