MBA论文代写|MPA论文代写|工程硕士论文|经济管理论文|国际贸易论文代写|医学护理论文|文学论文|项目管理论文|建筑工程论文|教育教学论文|农业推广论文|法学论文代写|体育论文|工商管理论文|公共管理论文|艺术论文|会计论文|环境论文|计算机论文代写|财务管理论文|物流管理论文|新闻传播论文|应用文类市场营销论文|人力资源论文代写|心理学论文|化工论文|机械论文代写|石油工程论文代写|水利工程|哲学论文|英语论文|电气工程论文|对外汉语论文|金融学论文思政论文|通信工程论文代写

天天论文代写网可提供代写毕业论文,代写职称论文,代写硕士论文,代写代发表等服务

在线客服

于老师 点击这里给我发送消息 177872916
电 话:13838208225
王老师 点击这里给我发送消息 177872915
电 话:13503820014
当前位置:首页 > 论文代写技巧
论文代写技巧
代写毕业论文关键词自动提取方法【基于Scopus检索和TFIDF】
作者:天天论文网 日期:2018/6/20 15:10:46 点击:

随着学术研究的国际化及跨学科发展,科研文献的数量迅速增长,研究人员需要花费大量时间从海量文献中搜索有价值的信息.作者或文献数据库给出的关键词有助于缩小文献索引的范围,但人工选取关键词耗时并且带有较多的主观性,因此,将代写毕业论文关键词自动提取技术应用于科研文献中具有重要意义[1].

目前,关键词提取主要分为监督方法和非监督方法.Turney[2]提出的监督方法使用人工标注的语料库对分类器进行训练,来判断候选词是否为关键词.之后,Franketal[3]使用朴素贝叶斯学习算法,Jiangetal[4]提出支持向量机排序的监督方法,均提高了关键词提取性能.监督方法中另一个较为广泛使用的是特征加权法,主要使用 TFIDF、词长、位置、词性等文档内部特征[2-3,5]与语料库、WordNet等外部链接特征[6-7]对候选词进行加权.非监督方法有基于图的排序法[8]、基于主题的分类法[9]、基于维基百科的聚类法[10]等.基于图的排序法使用文档内词语同现的分布情况与网页排名计算候选词的重要性[8];在此基础上,基于主题的分类方法对不同主题的候选词进行排序[9];基于维基百科的方法将语义相似的候选词进行聚类,再从集群中选择中心词作为关键词[10].监督方法依赖于已标注的语料库,由于人工标注成本较高,训练集的样本信息较为有限.非监督方法可以充分利用未标注的预料库,但训练时间较长.

Nguyen and Kan[5] 利 用  TFIDF (TermFrequency-Inverse Document Frequency)、文档结构、词性等特征,将关键词提取应用于科研文献中.本文提出结合 TFIDF、位置特征加权与Scopus数据库检索的方法,从英文科研文献中自动提取关键词.Scopus提供了广泛的科技绍本文方法中关键词在摘要中的位置特征权值的计算,并引入两类停用词库过滤干扰词,最后介绍 Scopus 的自动检索.本 文采用  NguyenandKan[5]方法中使用的结构、词性、词形等特征,使用 Scopus 数据库代替人工标注的语料库.通过准确率、召回率与F1 值对方法进行评估,实验结果证明该方法较 NguyenandKan[5]的方法具有较好的性能.

代写毕业论文

1 相关理论

1.1   关键词的定义与词性标注     关键词通常用于表示文本主题,概 括文本的主要内容.

Turney[2]首次提出有别于单词级关键字(Key-word)的定义,将短语级关键词(Keyphrase)定义为由若干个关键字组成的短序列.在之后的相关研究中,英文关键词的提取主要分为单词级[7]与短语级[11-12].此外,Turney[2]考虑词性与单词后缀特征,规定单词级关键字不能是动词与形容词,短语级关键词可包含形容词,但不能以形容词为结尾.在此定义上,NguyenandKan[5]和 KimandKan[13]使用了词性标签来标注候选关键词的词性.

词性 标 注 属 于 自 然 语 言 处 理 (NaturalLanguageProcessing,NLP)中的词法分析,是将语句中的每个词语分类并标记为名词、动词、形容词等,Santorini[14]给出了这些词类标签的缩写及相关定义.斯坦福大学自然语言处理研究组提供的开源包是目前较为常用的 NLP 工具之一,其中的词性标注工具(Part-of-SpeechTagger)[15]能够给单词分配词性标签.

1.2   TFIDF   TFIDF[16]是关键词提取监督方法中最为常用的特征之一.对于给定的待提取关键词的文本 d,候 选词t 与语料库 D ,其

TFIDF 特征值 Wt,D 的计算公式为:

文献文摘及索引,不同于普通的网络文档语料库,Scopus的文献数据与分类索引更专业、统一.此外,Scopus提供应用程序接口(API),方便研究人员收集数据.本文首先介绍关键词的定义、传统 TFIDF 计算方法及优缺点、位置特征在关键词提取中的应用等相关理论,接着介TF 为t 的词频,ft,d 表示t 在d 中出现的次数,|d|为文本总词数.IDF 为d 的反转频率,

ft,D 为D 中出现t 的文本数,|D|为语料库的文本数.在单文档中频率高、在语料库中频率低的候选词拥有较高的权重.

传统 TFIDF 的计算原理简单,应用较广,但该方法依赖于专业领域语料库的建立.语料库文档数量级不够或各类别所占比不均衡会导致 TFIDF 权值的偏差[17],在 大型语料库下

IDF 的计算效率也会降低.

1.3   文献摘要中关键词的分布加权     候选词的位置权重也是重要的特征.在科技文献中,关键词通常出现在摘要、引 言等开头处[13].

NguyenandKan[5]使用14 个常用词来标记候选词在文献中的位置并给予相应的权重,摘要、引言、方法等部分权重较大,实验结果部分权重较小.摘要通常包含引言 (I)、背景 (B)、目的(P)、方法(M)、结果(R)或讨论(D)内容,目前有IMRAD[18]和 BPMRD[19]等摘要结构,其中最常见的元素是背景、方法和结果[20-21].本文方法将结合关键词在摘要中的分布,用常用词作为特征[23]确定摘要各元素并标记候选词在摘要中出现的位置,根据位置分配权重.

2   基于TFIDF加权统计与Scopus检索的短语级关键词自动提取方法

本文从摘要提取候选词,结合其在摘要中的分布与基于全文统计的 TF,通 过 ScopusAPI[24]在数据库自动检索候选词,检索结果作为式(1)中的ft,D .候选词从摘要而非全文中提取的原因有两个:第一,摘要表述文档主要内容,其 用 词 更 为 精 简、准 确[22];第 二,由 于ScopusAPI 提 供 的 检 索 限 制 在 每 周 10000次[25],而基于全文提取候选词的冗余词量大,不利于处理工作的高效进行.本方法的优点在于不需要人工建立和标记语料库,且Scopus庞大的文档数量级与丰富的类别可以有效避免权值偏差.

本文提出的关键词提取方法流程如图 1所示.

2.1    提取候选词     首先使用 Stanford POS

Tagger标注词性,并提取候选词.本文采取关键词的短语级定义,短语长度由 POS Tagger

  

图1   基于TFIDF加权统计与Scopus检索的关键词提取方法流程图

Fig.1       Flow  chart  of the  proposed  keyphrases extraction method based on TFIDF weightedstatistics andScopusdatabaseretrieval 

的标注结果而定,并且不包含特殊符号和标记.其形式包括:

(1)仅由若干个名词组成的短语,如radar,

azimuthdirection,radiofrequencysignal.

(2)仅 由形容词与名词组成的短语,如

high resolution,two-dimensional frequency spectrum.

(3)由形容词、名词和连词 and 组成的短

语.由于“and”在检索中可能会带来干扰,这类短语需要被拆分成两个短语,拆分规则有以下两种:

①形如“形容词+ 名词 A+and+ 名词 B”的短语应被拆成“形容词 + 名词 A”和 “形 容词+名词B”;

②形如“形容词 A+and+ 形容词 B+ 名词”的短语应被拆成“形容词 A+名词”和“形容词B+名词”.

2.2   去除干扰词    在提取的候选词中,用于写 作的修饰性形容词(如 proposed,well-known)及单独出现时不包含关键信息的常用词 (如 effectiveness,algorithm ) 应  被  去  除. Liu

etal[26]建立了停用词库来过滤这些干扰,为了提高方法的准确率,在此基础上扩展了停用词库.附录附表1中的修饰性形容词作为提取短

语中的第一个单词时应被去除,附表2 中的单词或词语作为候选词单独出现时也将被去除.

2.3   分配位置权重     在科研文献全文的关键词权值分配中,结果部分的权值最低,相应地,摘要分为结果与非结果部 分.Kanoksilapa-

tham[23]指 出摘要结果部分通常使用 show,

find等词的现在或过去式,我们建立标记结果部分的语言特征词(见表1),来判断候选词第一次出现的位置是否在摘要的结果部分,并将通过实验统计关键词的分布情况,确定位置权重的大小.

表1 用于标记摘要结果部分的特征词

Table1   Characterizationsinthesentenceastheresultpartsofabstracts asresult;comparativeexperiments;comparisonexperiments;conclusion:;conclusions:;evaluationexperiments; evaluationshow;experimentaldatashows;experimentalresults;experimentalstudy;experimentsdemonstrate; experimentson;experimentsreveal;experimentsshow;finalconclusion;findings- ;findings:;findingsindicate; forevaluation;forevaluation;inexperiment;inexperiments;insum;isevaluated;ourexperiment;ourresult; performexperiments;promisingresult;result:;resultachieved;resultindicatesthat;resultproves;results:; resultsarecomparedto;resultsdemonstrate;resultsprovide;resultsshow;resultsshowthat;resultsshowed that;results suggest;shows comparable performance;the experiment;toillustrate;testshowed that;was

  performed;wastested;wedemonstrate;weevaluate;weperform;wereperformed;whencomparedto           

2.4   检索并计算结果    本文将Scopus数据库视为语料库,通过ScopusAPI返回摘要包含候选词的文献数目.Scopus中有完全匹配与近似匹配[27]两种检索规则.完全匹配按短语原样检索,包含短语中的空格、标点等;近似匹配检索忽略标点,结果包含短语的单复数形式.采取近似匹配检索来减少单词的不同形式带来的干扰.特别地,缩略词(如 NLP)在单独检索时易产生歧义,应采用其全称进行检索.

使用式(2)计算候选词t 的最终权值,它考虑了候选词的位置权重 Wpos :

Wt,D =TF×IDF×Wpos =

N1 表示本文方法提取的正确的关键词数,N2表示方法提取的关键词总数,N3  表示提供的作者关键词或索引关键词总数.F1  值综合考虑准确率与召回率的影响,其值越大,分类性能越好[18].

3 实验结果与分析

实验对象为 2015 年出版的关键词包含

“signal processing”和  “radar”的 文 献.在

Scopus中检索到1063 篇,排除未提供作者关键词或索引关键词、无全文下载权限的文献,最终采用596篇文献全文.这些文献的作者关键


本文方法通过调查统计决定候选词在摘要

ft,D 表 示 语 料 库 D  中 出 现t 的 文 本 数,即

Scopus检索的结果.截至检索进行时,Scopus

约有4300万文献,故|D|为43000000.

2.5   评     估     采用准确率(P)、召回率(R)和

F1 值对本文提出的方法进行评估,其 定义如下:

P   N1                             (3)

N2

R=                  (4)中的位置权重 Wpos .在Scopus中检索2016 年出版、关键词包含“signalprocessing”和“radar”的文献,根据表1 的特征词统计关键词在摘要的位置.包含特征词的有314 篇,共1355 个作者关键词在摘要中出现,其中312 个在特征词

位置之后(即结果部分),占23.0%;共3381 个索引关键词在摘要中出现,其中812 个在结果

部分,占24.0%.统计结果相似,因此本文实验中将出现在结果部分的候选词权重         定为

N3

2×P×R

Wpos

0.23,非结果部分 Wpos 定为0.77.

F1=

(5)

P+R

对实验对象中的文献,方法自动提取候选

词共8622 个,每篇 m 个 Wt,d 最大的候选词作为代写毕业论文关键词(若候选词少于 m 个则全部输出),分别与作者关键词和索引关键词进行对比,准确率、召回率和F1 值如表2 和表3 所示.由于作者关键词平均不足每篇5 个,增加候选词的输出个数对准确率的影响较大,故当 m =15 时仅与索引关键词对比.

Nguyenand Kan[5] 使用  Google 下载的

120篇科学会议论文作为实验数据并人工分配关键词,输出10 个候选词时准确率为32.5%.经对比,本文方法在提取索引关键词的准确率高于 NguyenandKan 的方法.实验结果显示,提取索引关键词与作者关键词的准确率均随着

m 的增加而降低,召回率随着 m 的增加而增加.总的效果是在实验所取的 m 值范围内,F1值随着 m 的增加而增加.由于作者关键词较少,本文方法对作者关键词的提取性能在 m =

10时较好;考虑到每篇提取的候选词不宜过

多,如果以索引关键词为参考标准,当 m =15

时方法的性能较好.

表2   不同输出个数下与作者关键词对比的结果 Table2    Evaluationresultsunderdifferentnumberof outputs(comparedwiththeauthors’keyphrases)每篇输出前 m 个候选词       P          R          F1 m =5          32.25% 29.12% 30.60%

m =8          27.97% 38.54% 32.42%

m =10         26.08% 43.08% 32.49%

 

表3   不同输出个数下与索引关键词对比的结果 Table3    Evaluationresultsunderdifferentnumberof outputs(comparedwiththeindexkeyphrases)每篇输出前 m 个候选词       P          R          F1 m =5          51.55% 12.55% 20.19%

m =8          49.41% 18.58% 27.01%

m =10         48.21% 21.99% 30.20%

m =15         46.60% 29.70% 36.27%

 

4 结 语

本文结合全文的 TFIDF 与数据库检索的方法从英文科研文献的摘要中自动提取关键词.该 方 法 不 需 要 人 工 建 立 语 料 库,依 靠Scopus数据库丰富的数据量可以有效避免传统 TFIDF 方法的数据集偏斜和类内、类间分布偏差[17].通过对关键词在摘要中出现位置的统计,该方法使用了位置特征对候选词进行加权.此外,本文还扩展了修饰性形容词与写作常用词停用词库,并应用于过滤干扰词.实验结果表明该方法在提取索引关键词时准确率与 F1值较高,有较好的分类性能.但该方法仍有不足之处.首先,虽然使用短文本能够减少处理时间,但由于摘要信息量有限,该方法的性能受摘要质量的影响较大.一些文本错误、拼写错误会导致词性标注错误,进而影响提取结果.其次,一些作者用特殊方式或同义词表达常用词也是实验的主要误差来源,这样的词语通常不能作为关键词,但因为用词特殊,在数据库中检索出的次数较低,导致IDF 偏高,方法错误地将其作为关键词.在未来的研究工作中,将引入引文信息特征与同义词特征来减少以上两个问题带来的干扰,此外还将尝试使用深度神经网络,引入基于文献全文的上下文语义信息,结 合分布特征与基于Scopus数据库检索的 TFIDF,面向全文对给定的关键词进行训练.


热门论文:


快速准确搞定参考文献格式(毕业论文、职称论文)


论文代写修改四种技巧分享


论文代写网站如何保证代写论文质量



论文资源 | 期刊资源 | 论文模板资源 | 论文代写技巧 | 站内资讯 | 代写论文交易流程 | 代写论文业务范围 | 联系我们 |
收缩
  • 电话咨询

  • 13838208225
  • 13503820014