进行文本标注时,需要从前到后依次扫描句子中的每一个字符,利用获取到的实体词来构建词表,并通过这个词表继续进行标注,直到完成任务。由于序列标注问题在国内起步较晚,加上国内研究大环境的缺乏,智能数据标注中汉语的序列标注问题相较于英语存在着多方面的难点。
1、词性标注集定义划分不一致
不同行业的中文标注习惯以及标注方式较为不同,不像英文一样有比较规范、确切、统一的词性标注集。此外训练语料库缺失较大,英文在序列标注的各个子任务中已经有标注好的语料库供研究者使用。而国内起步较晚,加之中文的序列标注与英文相比难度较大,标注过程会耗费大量的人力、物力等,使得国内语料库的资源较为匮乏。
2、一词多义、兼类词的出现
由于中华文化博大精深,在语料库标注的过程中,许多标注人员也无法确定该词在这个语境下到底是什么词性、什么含义。比如,名词和动名词的区分等。英文构词较中文来说比较简单,且英文每个单词之间都有明显的空格做分隔符,这一点在分词方面中文是完全比不的。
此外,大量无法识别的未登录词也是主因之一,中文的未登录词远远大于英文。随着网络发展,会出现众多流行词,这些词可能是人名、地名等等。由于语料库没有记载,所以智能数据标注在识别上经常困难重重,虽然可以加上一些干预规则,但是识别率并不会有明显改善。
综上所述,中文序列标注在智能数据标注中面临诸多挑战。标注习惯和标注方式的不一致、词性标注集规范的混乱,以及训练语料库的缺失,都给中文序列标注带来了困难。虽然可以借助一些干预规则提高识别率,但依然难以完全解决这些问题。因此,中文序列标注技术仍然需要更多的努力,以提高标注质量,进一步推动智能数据标注的发展。