实验3句法分析
一、实验目的
1.熟悉中文句法分析的基本原理。
2.能够使用常用的中文句法分析工具,进行中文句法分析
二、、实验内容
1.算法原理
1.1基本描述
句法分析是自然语言处理中的关键技术之一,其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。句法分析主要包括两方面的内容,一是确定语言的语法体系,即对语言中合法的句子的语法结构给与形式化的定义;另一方面是句法分析技术,即根据给定的语法体系,自动推导出句子的句法结构,分析句子所包含的句法单位和这些句法单位之间的关系。主流的统计句法分析一般分为两大类别——生成式和判决式。本实验用handlp工具包去进行句法分析。
1.2专业术语
1)生成式句法分析
生成式就是生成一系列句法树,从里面挑选出概率最大的那一棵作为输出。在具体实现的时候,可以选择最大熵等模型计算单条依存边的概率,利用最大生成树算法来挑选最佳句法树。
这种算法的优点是效果好,但开销大。训练的时候常常要用一份巨大的特征模板,得到的模型中含有大量复杂的特征函数。在解码的时候,这些特征函数的储存和运算成本很高。由于是全局最优,所以可以取得较高的准确率,还可以很方便地处理非投射的句法树。不过也由于搜索的全局性和特征函数的复杂度,模型常常会过拟合,在训练集和测试集上的准确率差别很大。
2)判决式句法分析
判决式一般是基于动作(或称转移)和一个分类器实现的,仿照人类从左到右的阅读顺序,判决式句法分析器不断地读入单词,根据该单词和已构建的句法子树等信息建立分类模型,分类模型输出当前状态下的最佳动作,然后判决式分析器根据最佳动作“拼装”句法树。
3)HanLP句法分析
HanLP是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用。
HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点;提供词法分析(中文分词、词性标注、命名实体识别)、句法分析、文本分类和情感分析等功能。
HanLP句法分析可以帮助我们去理解文本含义,语法分析(句法分析)是理解语言的重要一环,如果一个人只背单词而不学语法,看到长句子时依然无法理解语义,机器系统也是一样的道理。语法分析目标是分析句子的语法结构并将其表示为容易理解的结构,通常是树形结构。而依存句法理论认为词与词之间存在主从关系,在一个句子中如果一个词修饰另外一个词,称修饰词为从属词,被修饰的词称为支配词,两者之间的语法关系成为依存关系。
2.功能设计
2.1功能描述
AiNLP人工智能轻量化应用框架是一款面向于人工智能自然语言应用的开发框架,采用统一模型调用、统一硬件接口、统一算法封装和统一应用模板的设计模式,实现了嵌入式边缘计算环境下进行快速的应用开发和项目实施。
AiNLP为模型算法的调用提供RESTful调用接口,实时返回自然语言算法处理结果,同时通过物联网云平台的应用接口,实现与硬件的连接和互动,最终形成各色智联网产业应用。
AiNLP框架如下图所示:
三、实验步骤
1.工程部署
1.1硬件部署
1)准备人工智能边缘应用平台,给边缘计算网关正确连接Wi-Fi天线、电源。
2)按下电源开关上电启动边缘计算网关,将启动ubuntu操作系统。
3)系统启动后,连接局域网内的Wi-Fi网络,记录边缘计算网关的IP地址
1.2工程部署
1)运行MobaXterm工具,通过SSH登录到边缘计算网关(参考附录2)。
2)在SSH终端创建实验工作目录:
3)通过SSH将本实验工程代码和ainlp工程包(DISK-AILab\02-软件资料\02-综合应用\ainlp.zip)
上传到~/ainlp-exp目录下(文件的上传参考附录2)。
4)在SSH终端输入以下命令解压缩实验工程:
2.工程运行
1)通过MobaXterm工具创建的SSH连接,将修改好的文件上传到边缘计算网关(参考附录2)。
2)在SSH终端输入以下命令运行实验工程:
3.句法分析
1)点击应用左侧的菜单选择“HandLP句法分析”,进入到实验页面。
2)在实验交互部分,下面的文本框为需要句法分析的文本内容,填写好后点击“发送”按钮将会调用算法进行计算,并在上方的窗口显示返回应用需要的结果内容,同时在右边的实验结果部分会显示算法返回的所有内容(注意:本算法执行预计需要10~30秒左右,超过60秒会报错,重新点击“发送”即可)
3)修改需要句法分析的文本内容,查看算法返回的结果。