标签 语言模型 下的文章

尽管NLP路上任重而道远,但仍然有迹可循,很多时候我们可以将具体的NLP问题拆分为一些基础任务的组合,所以现在我们来介绍深度学习中常见的任务。所谓基础任务,就是完成一些上层的、复杂的任务所必须经过的步骤,因此把这些步骤分别提取出来,作为单独的任务来研究。这些任务也是NLP中被研究已久、相对成熟的部分。这些任务包括(但不限于)以下任务:

1、中文分词。中文跟英文的明显差别是,英文行文以空格作为天然的分隔符,基本组成单位是一个个词,而中文词语之间没有分隔,基本组成单位是字。为了让模型更好地分析中文,中文NLP任务第一步通常要做的是分词,如“结婚的和尚未结婚的”划分为“结婚/的/和/尚未/结婚/的”。事实上,分词这一操作也不限于中文,在英文中如果要做短语挖掘,那就类似中文分词的任务了。

2、词性标注。词性标注是分词后的一个常用操作,其主要目的无外乎有两个:一是根据词性对词语进行过滤,如关键词提取任务中可以只保留动词和名词,从而减少候选词语;二是根据词性对词语进行简单的消歧,比如“一打啤酒”和“打篮球”中的“打”词性不同,词义也不同。

- 阅读剩余部分 -