自然语言处理之文本标注

时间:

2022-11-29

分享到:

自然语言处理之文本标注

机器学习技术的拓进推动了人工智能的发展,以监督学习为例,自然语言处理愈加受到大众欢迎。如今,自然语言处理已在社会各方面深入应用,如语言翻译、信息检索、文本分类等。本文将简要讲述文本标注。

 

文本标注是利用专业的标注平台,将不同文字框选出来并附上语义标签的过程。


文本标注类型

 

文本标注共有四大类,分别为属性、关系、类别、序列标注。

 

属性标注:属性标注是文档中句子各种属性标注的过程,如情感标注就是典型的属性标注,主要包括媒体、娱乐、分类等。

 

类别标注:类别标注是文本标注最常见的标注方法,是对文本进行类别的区分,常用于阅读理解中。

 

序列标注:序列标注是涵盖最广的标注类型,是自然语言最基本的标注类型之一。如词、句、意等都囊括其中。

 

关系标注:关系标注是指将文段中的实体关系分辨的方法。

 

文本数据标注流程


文本数据的标注流程常包含:预处理、文本标注、质检、验收、处理与交付六大步骤。


文本标注预处理:是初步的筛查,根据标注数据规范,对数据进行的初步审查。


文本标注:将数据上传至标注平台中,并附上对文档语句的标签。


质检:拟定专门的质检人员,将完成标注的数据进行的进一步审查。


验收:验收是指对已经审查合格的数据等比例的抽检。


数据处理:是指最后的数据格式,如JSON、Excel等。


数据交付:标注后的数据需加密处理才能交付。