«上一篇/Previous Article|本期目录/Table of Contents|下一篇/Next Article»

HTML)

分享到：

《武汉工程大学学报》[ISSN:1674-2869/CN:42-1779/TQ]

卷:: 37
期数:: 2015年11期

页码:: 47-51

栏目:: 机电与信息工程

出版日期:: 2015-12-30

文章信息/Info

Title:: Ｅｘｔｒａｃｔｉｏｎ of administrative division of Chinese address ｂａｓｅｄｏｎｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄｓ

文章编号:: 1674-2869（2015）11-0047-05

作者:: 段艳会１; ２; 李晓林１; ２*; 黄　爽１; ２; 1.智能机器人湖北省重点实验室（武汉工程大学），湖北武汉４３０２０５；2.武汉工程大学计算机科学与工程学院，湖北武汉４３０２０５

Author(s):: ＤＵＡＮＹａｎ－ｈｕｉ１; ２; ＬＩＸｉａｏ－ｌｉｎ１; ２; ＨＵＡＮＧＳｈｕａｎｇ１; ２; １．ＨｕｂｅｉＫｅｙＬａｂｏｒａｔｏｒｙｏｆＩｎｔｅｌｌｉｇｅｎｔＲｏｂｏｔ（ＷｕｈａｎＩｎｓｔｉｔｕｔｅｏｆＴｅｃｈｎｏｌｏｇｙ），Ｗｕｈａｎ４３０２０５，Ｃｈｉｎａ；２．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＥｎｇｉｎｅｅｒｉｎｇ，ＷｕｈａｎＩｎｓｔｉｔｕｔｅｏｆＴｅｃｈｎｏｌｏｇｙ，Ｗｕｈａｎ４３０２０５，Ｃｈｉｎａ

关键词:: 位置信息解析; 条件随机场; 训练语料

Keywords:: ｌｏｃａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎｐａｒｓｉｎｇ; ｃｏｎｄｉｔｉｏｎｒａｎｄｏｍｆｉｅｌｄｓ; ｔｒａｉｎｉｎｇｃｏｒｐｕｓ

分类号:: ＴＰ３９１.４１

DOI:: 10. 3969/j. issn. 1674-2869. 2015. 1１. 010

文献标志码:: A

摘要:: 为了在非规范中文地址中有效的提取行政区划信息，提出了一种基于条件随机场的方法. 该方法根据中文地址中行政区划的表达特点和特征，采用判别式概率模型，在观测序列已知的基础上对目标序列建模，通过构建语料训练集和建立相应的特征模板，得到行政区划的表达模型，然后使用该模型对测试集进行测试，并与标注好的测试数据进行比对，验证模型的性能. 实验表明，与最大熵模型相比，条件随机场模型总的性能指标在其之上，地址信息解析的准确率能达到８９．９３％.

Abstract:: Ｔｏｅｘｔｒａｃｔｔｈｅｉｎｆｏｒｍａｔｉｏｎｏｆａｄｍｉｎｉｓｔｒａｔｉｖｅｄｉｖｉｓｉｏｎｅｆｆｅｃｔｉｖｅｌｙ from ｔｈｅｎｏｎ－ｓｔａｎｄａｒｄＣｈｉｎｅｓｅａｄｄｒｅｓｓ，ａｍｅｔｈｏｄｂａｓｅｄｏｎｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄｓｗａｓｐｒｏｐｏｓｅｄ．Ａｃｃｏｒｄｉｎｇｔｏｔｈｅｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆａｄｍｉｎｉｓｔｒａｔｉｖｅｄｉｖｉｓｉｏｎ，ｔｈｅｍｏｄｅｌｏｆｔｈｅｔａｒｇｅｔｓｅｑｕｅｎｃｅｗａｓｃｏｎｓｔｒｕｃｔｅｄｏｎｔｈｅｂａｓｉｓｏｆｔｈｅｏｂｓｅｒｖａｔｉｏｎｓｅｑｕｅｎｃｅｂｙｕｓｉｎｇｔｈｅｄｉｓｃｒｉｍｉｎａｔｉｖｅｐｒｏｂａｂｉｌｉｔｙｍｏｄｅｌ．Ｔｈｅｎ，ｔｈｅｅｘｐｒｅｓｓｉｏｎｍｏｄｅｌｏｆｔｈｅａｄｍｉｎｉｓｔｒａｔｉｖｅｄｉｖｉｓｉｏｎｗａｓｏｂｔａｉｎｅｄｂｙｃｏｎｓｔｒｕｃｔｉｎｇｔｈｅｃｏｒｐｕｓｔｒａｉｎｉｎｇｓｅｔａｎｄｔｈｅｃｏｒｒｅｓｐｏｎｄｉｎｇｆｅａｔｕｒｅｔｅｍｐｌａｔｅ．Ｆｉｎａｌｌｙ，ｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｔｈｅｍｏｄｅｌｗａｓｖｅｒｉｆｉｅｄｂｙｔｅｓｔｉｎｇｔｈｅｔｅｓｔｓｅｔａｎｄｃｏｍｐａｒｉｎｇｉｔｓｒｅｓｕｌｔｓｗｉｔｈｔｈｅｍａｒｋｅｄｔｅｓｔｄａｔａ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｔｈｅｍｏｄｅｌｉｓｂｅｔｔｅｒｔｈａｎｔｈａｔｏｆｔｈｅｍａｘｉｍｕｍｅｎｔｒｏｐｙｍｏｄｅｌ，ａｎｄｔｈｅａｃｃｕｒａｃｙｒａｔｅｏｆａｎａｌｙｓｉｓｏｆａｄｄｒｅｓｓｉｎｆｏｒｍａｔｉｏｎｒｅａｃｈｅｓ８９．９３％．

参考文献/References:

［１］　朱俊．中文标准地址库构建关键技术研究［Ｄ］．南京：南京师范大学，２０１３．ＺＨＵＪｕｎ．ＲｅａｓｅａｒｃｈｏｎＫｅｙＴｅｃｈｎｉｑｕｅｓｏｆｃｏｎｓｔｒｕｃｔｉｎｇＣｈｉｎｅｓｅｓｔａｎｄａｒｄａｄｄｒｅｓｓｄａｔａｂａｓｅ［Ｄ］．Ｎａｎｊｉｎｇ：ＮａｎｊｉｎｇＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，２０１３．（ｉｎＣｈｉｎｅｓｅ）［２］　ＬＡＷＲＥＮＣＥＲ，ＲＡＢＯＭＥＲ．Ａｔｕｔｏｒｉａｌｏｎｈｉｄｄｅｎｍａｒｋｏｖｍｏｄｅｌｓａｎｄｓｅｌｅｃｔｅｄａｐｐｌｉｃａｔｉｏｎｓｉｎｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．Ｐｒｏｃｅｅｄｉｎｇｓ oｆｔｈｅＩＥＥＥ，１９８９，７７（２）：２５７-２８６．［３］　申彦．大规模数据集高效数据挖掘算法研究［Ｄ］．镇江：江苏大学，２０１３．ＳＨＥＮＧＹａｎ．Ｒｅｓｅａｒｃｈｏｎｅｆｆｉｃｉｅｎｔｄａｔａｍｉｎｉｎｇａｌｇｏｒｉｔｈｍｆｏｒｌａｒｇｅｓｃａｌｅｄａｔａｓｅｔｓ［Ｄ］. Zhengjiang：ＪｉａｎｇｓｕＵｎｉｖｅｒｓｉｔｙ，２０１３．（ｉｎＣｈｉｎｅｓｅ）［４］　周鑫．半监督算法在自然语言处理中应用的研究［Ｄ］．哈尔滨：哈尔滨工业大学，２０１４．ＺＨＯＵＸｉｎ．ＲｅｓｅａｒｃｈｏｎＡｐｐｌｉｃａｔｉｏｎｏｆｓｅｍｉｓｕｐｅｒｖｉｓｅｄａｌｇｏｒｉｔｈｍｉｎｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ［Ｄ］．Ｈａｒｂｉｎ：ＨａｒｂｉｎＩｎｓｔｉｔｕｔｅｏｆＴｅｃｈｎｏｌｏｇｙ，２０１４（ｉｎＣｈｉｎｅｓｅ）［５］　ＭＣＣＡＬＬＵＭＡ，ＦＲＥＩＴＡＧＤ，ＰＥＲＥＩＲＡＦ．ＭａｘｉｍｕｍＥｎｔｒｏｐｙＭａｒｋｏｖＭｏｄｅｌｓｆｏｒＩｎｆｏｒｍａｔｉｏｎＥｘｔｒａｃｔｉｏｎａｎｄＳｅｇｍｅｎｔａｔｉｏｎ［Ｃ］//ＰｒｏｃＪｃＭＬ，２０００：５９１－５９８．［６］　ＰEARL Ｊ．Ｐｒｏｂａｂｉｌｉｓｔｉｃｒｅａｓｏｎｉｎｇｉｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ：ｎｅｔｗｏｒｋｓｏｆｐｌａｕｓｉｂｌｅｉｎｆｅｒｅｎｃｅ［Ｃ］//１ｔｈｅｄ，ＳａｎＭａｔｅｏ，ＣＡ：ＭｏｒｇａｎＫａｕｆｍａｎｎ，１９８８：１１７－１３３．［７］　ＬＡＦＦＥＲＴＹＪ，ＭＣＣＡＩＬＵＭＡ，ＰＥＲＥＩＲＡＦ．Ｃｏｎｄｉ－ｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄｓ：ＰｒｏｂａｂｉｌｉｓｔｉｃＭｏｄｅｌｓｆｏｒＳｅｇｍｅｎｔｉｎｇａｎｄＬａｂｅｌｉｎｇＳｅｑｕｅｎｃｅＤａｔａ［Ｃ］//ＰｒｏｃＩＣＭＬ，２００１．［８］　ＴＨＯＭＰＳＯＮＪＤ，ＨＩＧＧＩＮＳＤＧ，ＧＩＢＳＯＮＴＪ，et al. Iｍｐｒｏｖｉｎｇｔｈｅｓｅｎｓｉｔｉｖｉｔｙｏｆｐｒｏｇｒｅ－ｓｓｉｖｅｍｕｌｔｉｐｌｅｓｅｑｕｅｎｃｅａｌｉｇｎｍｅｎｔｔｈｒｏｕｇｈｓｅｑｕｅｎｃｅｗｅｉｇｈｔｉｎｇ，ｐｏｓｉｔｉｏｎｓｐｅｃｉｆｉｃｇａｐｐｅｎａｌｔｉｅｓａｎｄｗｅｉｇｈｔｍａｔｒｉｘｃｈｏｉｃｅ［Ｊ］．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓｅａｒｃｈ，１９９４，２２（２２）：４６７３－４６８０．［９］　ＪＩＡＹＩＺｈａｏ，ＸＩＰＥＮＧＱｉｕ，ＳＨＵＺｈａｎｇ．Ｐａｒｔ－ｏｆ－ＳｐｅｅｃｈＴａｇｇｉｎｇｆｏｒＣｈｉｎｅｓｅ－ＥｎｇｌｉｓｈＭｉｘｅｄＴｅｘｔｓｗｉｔｈＤｙｎａｍｉｃＦｅａｔｕｒｅｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔａｔｉｏｎａｌＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓ（ＪＣＩＳ），２０１２：１３７９－１３８８．［１０］　田昕辉，李成基．带有短语切分的中文文本分类方法［Ｊ］．计算机技术与发展，２０１０，２０（１）：９－１３．ＴＩＡＮＸｉｎ－ｈｕｉ，ＬＩＣｈｅｎｇ－ｊｉ．Ｃｈｉｎｅｓｅｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎｍｅｔｈｏｄｗｉｔｈｐｈｒａｓｅｓｅｇｍｅｎｔａｔｉｏｎ［Ｊ］．ＣｏｍｐｕｔｅｒＴｅｃｈｎｏｌｏｇｙａｎｄＤｅｖｅｌｏｐｍｅｎｔ，２０１０，２０（１）：９－１３．（ｉｎＣｈｉｎｅｓｅ）［１１］　ＳＵＮＸＬ，ＪＩＡＬＭ，ＤＯＮＧＨＨ，ｅｔａｌ．Ｕｒｂａｎｅｘｐｒｅｓｓｗａｙｔｒａｆｆｉｃｓｔａｔｅｆｏｒｅｃａｓｔｉｎｇｂａｓｅｄｏｎｍｕｌｔｉｍｏｄｅｍａｘｉｍｕｍｅｎｔｒｏｐｙｍｏｄｅｌ［Ｊ］．ＳｃｉｅｎｃｅＣｈｉｎａＴｅｃｈｎｏｌｏｇｉｃａｌＳｃｉｅｎｃｅｓ，２０１０，５３（１０）：２８０８－２８１６．

相似文献/References:

备注/Memo

备注/Memo:: 收稿日期:2015-10-13基金项目:国家863 项目(2013AA12A202);武汉工程大学研究生教育创新基金项目(CX2014090)作者简介:段艳会(1993-),女,湖北公安人,硕士研究生.研究方向:数据挖掘尧机器学习.* 通信联系人

更新日期/Last Update: 2015-12-12

《武汉工程大学学报》[ISSN:1674-2869/CN:42-1779/TQ]

文章信息/Info

参考文献/References:

相似文献/References:

备注/Memo

常用功能

导航/Navigate

工具/Tools

统计/Statistics