作为人工智能的一个分支,自然语言处理帮助计算机理解人类语言从而更加智能。现如今,自然语言处理具体工作都包括哪些呢?
虽然自然语言处理存在一些算法(主要包括机器学习、深度学习和神经网络),但每种语言任务都需要不同的方法,这些方法的集合可以分为两大类:句法和语义。
一.句法:
词形还原:作为自然语言处理中用于数据预处理的关键技术之一,词形还原本质上是将单词简化为根词,也称为引理。与词干提取不同,在词形还原中,词尾减少不一定是字母级别的,这意味着算法可以根据含义判断词汇。以英文中的不规则比较级和最高级为例。词形还原算法可以识别
less 的根是 little。
词干提取:相比之下,词干提取虽然与词形还原具有相同的定义,支持相同的减词逻辑,但不会发现 less 和 little
之间的联系。它只会一次切掉一个字母,而不会触及单词的本质。
形态分割:通过将词汇分解成更小的词素,形态分割目前已应用扩展到语音识别、数据检索、机器翻译等。
词性标注:处理句法结构,词性标注是指分析和解释单词的语法含义,如名词、动词、副词等。
标记化:通过将句子分成更小的部分或设置句子边界,以便于解析。
二.语义
尽管数量有限,但语义方法对自然语言处理同样重要。
命名实体识别:此方法允许将部分文本标记为相关组,例如名称、位置对象等,Google翻译就是使用命名实体识别作为自然语言处理的一部分来理解文本数据.
词义消歧:词义消歧通常是人类在无意识的时候完成的。有些词尽管没有单一的含义,却仍能毫不费力地融入上下文,因此机器必须能够识别出给定上下文中触发了单词的哪个“意义”或含义。