首页 >> 语言学 >> 现代汉语
基于大数据的汉语表达智能模型及其理论基础
2015年03月24日 16:11 来源:《首都师范大学学报:社会科学版》(京)2014年5期 作者:周建设 彭琰 张跃 字号

内容摘要:内容提要:本文基于大数据的“基因”储存性、规律蕴涵性和趋势可预测性三大特性,构建汉语表达智能模型,提出建立用于汉语机器表达的专门语料库的设想,并讨论了该模型的理论基础。汉语表达智能模型有两个子系统,一是词项—语句语义网络系统,二是语句—语篇语义网络系统。后者的基本任务是实现自然语言语篇的自动生成,即以词项—语句语义网络系统生成的单个语句为原始语句或前提语句为基础,分析并提取前提语句蕴涵的语义,再结合事件情景词项语义系统中与前提语句提取的语义要素的关系,选择可能进入新语句的词项(论元)。语义类型库给汉语智能表达提供话语论域,以便将话题限定在特定语义领域内布局谋篇、组织语句,避免让机器写出来的话语偏离主题。

关键词:语义;语句;语言;短语;语料库;汉语表达;智能模型;图像;基因;谓词

作者简介:

  作者简介:周建设,男,湖南株洲人,首都师范大学语言智能协同研究院教授,博士生导师,哲学博士;彭琰,女,河南郑州人,首都师范大学文学院博士研究生;张跃,男,江苏扬州人,北京语言智能协同研究院研究员(北京 100089)。

  内容提要:本文基于大数据的“基因”储存性、规律蕴涵性和趋势可预测性三大特性,构建汉语表达智能模型,提出建立用于汉语机器表达的专门语料库的设想,并讨论了该模型的理论基础。

  关 键 词:大数据/汉语表达/智能模型/语料库/理论基础

 

  大数据使语言智能化成为可能。依据大数据、云计算,紧紧围绕中国人学外语、外国人学汉语这两个重大的公益性问题和国际文化战略问题,研究出具有国际领先水平的智能化语言产品,为人才培养和社会生活提供优质服务,是时代赋予国人的使命。目前,英语作文智能批改已经让我国数百万学生体验到语言智能化对于减轻学习负担提高英语书面表达能力的强大魅力。但是,汉语表达与作文批改的智能化,目前少有成熟的系统研究。让机器“写”汉语以及批改汉语作文,其智能化要求极高。本文拟对汉语表达智能模型与专门数据资源库的建立及其理论基础做些探讨。

  一、大数据与汉语表达智能模型

  大数据具有三个重要特性。第一,“基因”的储存性。每一个数据都是事物属性的记录。体温数据储存着是否发烧的“基因”,考试成绩储存着知识或技能的“基因”,降雨量储存着地区旱涝“基因”,等等。第二,规律的蕴涵性。当数据积累到一定量级之后,其事物变化规律则可以从数据变化中显示出来。长期记录一个人说话,可以按其声音分贝发现其声高与情感表达的关系,长时间关注汽车动力的声响,可以从中了解车况,等等。第三,趋势的预测性。大数据储存的事物“基因”反映事物的变化规律。因此,根据基因变化规律,可以预测事物未来的发展趋势。例如:谷歌公司曾经把5000万条美国人频繁检索的词条和美国疾病控制中心在2003年至2008年间流感传播的数据进行了比较,考察流感在时间和空间上的传播关系,总共处理了4.5亿个数学模型。预测结果与2007年、2008年美国官方记录的实际流感病例数据的相关性高达97%。2009年甲型H1N1流感爆发时,谷歌数据成了及时有效的监测指标。[1]

分享到: 0 转载请注明来源:中国社会科学网 (责编:隋萌萌)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们