自然语言处理的“前世今生”

上传人 :曼孚科技
时间 :2021年12月14日

自然语言处理的“前世今生”

自然语言处理(NLP)是指让机器理解并解释人类写作、说话方式的能力,该技术旨在弥补人与计算机之间用自然语言进行有效通信的障碍。国际知名科学家周海中先生曾指出:“自然语言处理是极有吸引力的研究领域,它具有重大的理论意义和实用价值。”

自然语言处理早在计算机发展初期就一直存在,它是计算机科学的重要分支,在机器学习兴起之前自然语言还是处于基础发展阶段,这一时期利用的方法为符号法和随机法,主要应用于语音识别系统中。在后期,基于逻辑的系统方法被提出,该方法利用谓词逻辑为语义表达式,增加更多的语义知识,使语法规则扩展到语义理解,将其指向更高级的解析使用方式,拓宽了自然语言处理的使用层面。

在机器学习兴起后,监督机器学习成为解决传统语义问题的主要部分。得益于深度学习技术的发展及用户需求的不断增加,语言和语义处理技术逐渐应用到了商业层面,在这一时期,循环神经网络(RNN)成为主流的网络模型,其试图让模型更有针对性的对待全部字符,旨在加强对任务执行中有帮助的信息的重视度。但该模型无法将两项计算同步进行,因此在实际应用中仍有局限性。

近年来,无人监督的统计方法开始重新得到关注,预训练模型成为自然语言处理效果最佳的模型,该模型可以理解为预先训练一个模型,后期再根据具体的任务调整模型。预训练的两个模式为自回归预训练和自编码预训练,其主要应用的场景为一词多义方面如对未注释的单独数据进行机器翻译。