1500字范文,内容丰富有趣,写作好帮手!
1500字范文 > 计算机应用技术计算问题 汉语组块计算的若干分析-计算机应用技术专业论文.docx...

计算机应用技术计算问题 汉语组块计算的若干分析-计算机应用技术专业论文.docx...

时间:2020-08-03 10:26:49

相关推荐

计算机应用技术计算问题 汉语组块计算的若干分析-计算机应用技术专业论文.docx...

堡堕垒竺生墨塑董士竺塑二_j塑墨—————————————————一摘要

堡堕垒竺生墨塑董士竺塑二_j塑墨—————————————————一

摘要

组块的概念最初是在认知心理学中提出的,并在信息处理理论和通用智能系统中得 到应用。它又被推广到计算语言学领域中,用“分而治之”的策略来解决问题,对自然 语言进行组块计算。本文中对组块的计算,不仅包括组块分析,还涉及到对组块相似度 计算的研究。

完全的句法分析是当前自然语占处理中的一个难点和重点。一方面我们既要达到语 法分析的目的,另一方面还要降低分析过程中的难度。因此针对这种局面,进行部分的 句法分析,即组块分析。本文的目标就是在这种背景下,从理论、算法和应用三个方面 来讨论汉语组抉及其分析方法和技术。

本文范琵指出当前语法分析的困难,而组块分析是一条解决问题的途径。f并介绍了

组块分析的研究现状,以及组块分析的两条技术路线。提出了汉语组块分析任务的重要

性和可行性。

随后总结了界定组块的各种方法,在前人工作的基础上对汉语组块进行了定义。同 时组块库的获取和收集也是一项迫切的任务,由于不易直接获取具有组块标注的语料, 当前大多组块语料库是通过转化现有树库获得。本文实验所用的组块库是从宾州大学中 文树库中抽取而来的。根据组块定义,结合现有语料的实际,本文定义了12种汉语组 块类型,和分析过程中所用到的组块标注符号。

我们实现组块分析的系统是采用统计与规则相结合的路线。统计方法首次采用了成 熟的数学模型——最大熵模型进行汉语组块的识别和划分。最大熵模型具有简洁、通用 性和可移植性等特点,能灵活地选取特征,同时可以把计算模型和语言模型作为独立的 模块处理,而不必关心语言内部的细节。规则方法采用了有限自动机来完成组块分析的 任务,有限自动机实现简单、效率高,也具有较高的组块标注正确率。在两种方法并用 的基础上,加入了错误驱动的基于转换的机器学习方法,根据系统标注语料和正确标注 语料相比较的结果,不断学习和反馈,生成转换规则集合,用于基于混合模型的标注系 统中。

特征集合的选取是最大熵模型的关键问题所在,它选取合适与否决定了组块标注结 果的好坏。因此在本文中针对汉语组块的划分和识别,提出了词、词性标注、语法标注 和词音节数是构成组块划分的主要影响因素,并根据这几种因素来确定最大熵模型的特 征空间,从中自动获取组块分析的有效特征集合。

我们所采用的基于混合模型的组块分析方法,不仅利用了现有的技术,而且有效地

结合了两种方法的优势,达到较为满意的组块划分和识别效果。文中给出了各种模型的

汉语组块计算的若干研究于已有的汉语语义资源——同义词词林和知网,引入了义原问相似度和相关度的计算公

汉语组块计算的若干研究

于已有的汉语语义资源——同义词词林和知网,引入了义原问相似度和相关度的计算公 式。I同时根据义原构成词语、词语组成组块的关系,逐步计算出词语问的相似度和相关 度,最后得到组块问的相似度。对于英汉双语组块,本文提出了同时利用wjrdNet,得

到双语组块的相似度,该相似度计算的实现将有利于改进双语组块对齐的效果,乃至改 进机器翻译系统的性能。

本文的研究成果可以应用到信息检索、信息抽取、文本分类/聚类、机器翻译等自然

语言处理系统中去。、/一一、

卅飞

关键词:自然语言处理,语法分析,组块分析,最大熵定理,有限自动机

n

堡堕垄堡生簦塑董±堕茎!』坐坚竺————————————————一A

堡堕垄堡生簦塑董±堕茎!』坐坚竺————————————————一

A Study on the Computation of Chinese Chunks Li sujian(Applied Computer Tec}lIlology) Directed By Bai Shuo

The concept of‘‘chunk’’was proposed in the science of cognitiVe psychology,which was la【er applied in the field of info门nation processing theory and systems of general intelligence. Now it was spread to the field of Compuational Linguistics,using the“diVide—and—conquer” stmtegy to conduct chullking. In this p印er,t11e computation of chunks not only includes chunk parSing,but also refers to t11e computation of similar

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。