基本信息
文件名称:藏文文本自动分类.ppt
文件大小:2.29 MB
总页数:32 页
更新时间:2025-10-21
总字数:约4.53千字
文档摘要

第1页,共32页,星期日,2025年,2月5日一、选题意义二、国内、外研究现状三、本课题研究的目标、内容及重点、难点和创新点四、研究的技术路线五、本课题的研究方法六、论文工作计划七、论文总体框架八、主要参考文献及出处目录第2页,共32页,星期日,2025年,2月5日一、选题意义随着科学技术的迅速发展和因特网的快速普及,网上信息就如一个浩瀚的信息大海。但用户往往只需要其中的很少一部分,从而加剧了信息获取的困难。当人们游览一个藏文网站查找信息时,如果藏文网页凌乱的堆积在一起没有类别供人们查找,会使人们很难找到自己所需要的信息。因此如何要科学有效的管理和分类这些资料是不可回避而又意义深重的一个问题。资料管理的一个比较传统的方法就是对它们进行系统地分类。用人工对文本材料进行分类的过程一般就是通过读取所有文章后再对它们进行归类保存,然而这需要许多具有很高学识的专业人士做大量的工作才能完成。该过程具有周期长、费用高、效率低的特点。在这个网络信息爆炸的今天,要人工完成信息分类的工作却是一个不可思议的事情。因此,如何运用计算机进行文本自动分类,成了许多人的研究方向。第3页,共32页,星期日,2025年,2月5日文本自动分类系统是信息处理的重要研究方向。它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。目前,藏文网页和藏文图书馆的逐渐增多,要人工完成藏文网页和藏文图书等分类工作却是一个很困难的事情。因此,用计算机代替人工进行藏文文本的自动分类,尽可能地满足人们所期望的各类藏文文本分类应用需求具有很大研究意义和重要的实现意义。第4页,共32页,星期日,2025年,2月5日藏文文本的分类和其他文本分类一样,也关注的是文本的类型。藏文文本自动分类的研究对藏文搜索引擎、藏文数字图书馆、藏语语料库的建设以及藏文出版等领域具有广泛的应用前景和很重要的现实意义。目前已经出现了很多有效的汉英文文本分类算法,若K近邻算法(KNN)、贝叶斯算法、支持向量算法等。由于藏文语法结构的特殊性,已有的这些分类算法不能直接使用到藏文文本分类中,需要依藏文文法的特性创新一种符合藏文结构特征的分类算法。因此,研究该课题具有创新意义。另外,文本分类技术对推动社会的发展,方便人们的学习与生活,促进人们的工作效率和生活质量的提高有重要的意义。第5页,共32页,星期日,2025年,2月5日二、国内、外研究现状1、国外研究现状2、国内研究现状第6页,共32页,星期日,2025年,2月5日1、国外研究现状国外对于文本自动分类的研究较早,50年代末,H.P.Luhn在这个领域进行了开创性的研究,提出了基于词频统计思想的文本自动分类方法。1960年,Maron发表了关于自动分类算法的第一篇论文,随后许多学者也在这一领域进行了很有成效的研究工作。从20世纪60年代直到20世纪80年代末,这期间最有效的文本分类系统一直是专家人工构建的基于知识工程技术的分类系统。其典型的有卡内基集团为路透社开发的Construe系统,它主要是由专业人员编写一些分类规则来指导分类,它的关键不能缺少知识工程师和领域专家。到90年代初期,基于机器学习的分类技术开始取代基于知识工程的方法成为文本分类的主流技术。这种分类方法不再需要知识工程师和领域专家的介入,节约了大量的专家人力资源,同时加快了分类系统的速度。其后国外研究者们结合机器学习方第7页,共32页,星期日,2025年,2月5日法和人工智能技术进行了探讨,提出了多种分类算法和分类模型,如基于向量空间模型的分类器及其一系列算法,K近邻算法(KNN)、贝叶斯算法、支持向量算法、神经网络等等。这些算法在英文以及欧洲语种文本自动分类上有广泛的研究,均取得了不错的效果。1997年,德国Dortmund大学计算机系的Torsten等人研究了基于向量空间模型的自动分类系统、1999年,美国Massachusetts大学计算机系专门针对文本库开发了自动分类系统、美国IBM和Oracle公司为推广电子商务而研制了基于文本内容的电子邮件自动分类系统、Microsoft公司也为浏览器开发了基于内容属性分类的插件。目前,国外的文本分类研究已经从实验性阶段进入到了实用化阶段,并在邮件分类,电子会议等方法取得了广泛的应用。第8页,共32页,星期日,2025年,2月5日2、国内研究现状国内对汉文文本自动分类的研究起步较晚,1981年,侯汉清教授对计算机在文本分类工作中应用作了探讨和阐述。此后,我国陆续研究产生了一些文本分类系统,其中具有代表性的有广东省中山图书馆的莫少强开发的计算机辅助图书分类系统、清华大学吴军研制的自动分类系统、