分类 NLP的基本内容 下的文章

NLP即自然语言处理(Natural Language Processing),是计算机科学领域与人工智能领域中的一个重要方向,其最终目的是希望人可以通过人的语言来与机器交流,是实现完整的人工智能必经的一步。

自然语言处理大体包括了“自然语言理解”和“自然语言生成”两个部分,前者意味着要使计算机既能理解自然语言文本的意义,后者意味着以自然语言文本来表达给定的意图、思想等。本教程主要集中在“自然语言理解”这部分内容。

- 阅读剩余部分 -

前面所说的NLP的基础任务,其实被人们研究已久,相关的论文、成果也有很多。尽管如此,每一个任务仍有很大的学习和提升空间。以中文分词为例,中文分词系统中对新词的识别依旧是一个未能很好解决的问题,如何使得分词系统更好地适应特定的领域,仍然是很多企业目前还在头疼的问题。因此,尽管对这些任务已经有诸多研究,但我们可以做的事情还有很多很多。

- 阅读剩余部分 -

NLP极具挑战性,其中的原因之一语言的“不可理喻”,比如某年《重庆晨报》刊登停电通知,上面赫然印着“停电范围包括沙坪坝区的犀牛屙屎和犀牛屙屎抽水”,其中“犀牛屙屎”和“犀牛屙屎抽水”都是地名!可以想象,要有多么强大的模型才能正确识别这种地名!!

此外,还有使用上的灵活性,如下面两个场景:


帮我将空调调到25度。

麻烦将冷气调高一点。

空调不要太冷。

空调太冷啦!

空调能热一点吗?

- 阅读剩余部分 -

尽管NLP路上任重而道远,但仍然有迹可循,很多时候我们可以将具体的NLP问题拆分为一些基础任务的组合,所以现在我们来介绍深度学习中常见的任务。所谓基础任务,就是完成一些上层的、复杂的任务所必须经过的步骤,因此把这些步骤分别提取出来,作为单独的任务来研究。这些任务也是NLP中被研究已久、相对成熟的部分。这些任务包括(但不限于)以下任务:

1、中文分词。中文跟英文的明显差别是,英文行文以空格作为天然的分隔符,基本组成单位是一个个词,而中文词语之间没有分隔,基本组成单位是字。为了让模型更好地分析中文,中文NLP任务第一步通常要做的是分词,如“结婚的和尚未结婚的”划分为“结婚/的/和/尚未/结婚/的”。事实上,分词这一操作也不限于中文,在英文中如果要做短语挖掘,那就类似中文分词的任务了。

2、词性标注。词性标注是分词后的一个常用操作,其主要目的无外乎有两个:一是根据词性对词语进行过滤,如关键词提取任务中可以只保留动词和名词,从而减少候选词语;二是根据词性对词语进行简单的消歧,比如“一打啤酒”和“打篮球”中的“打”词性不同,词义也不同。

- 阅读剩余部分 -

相对于综合任务而言,前面所说的基础任务其实就是一些“准备工作”,在这些准备工作之上,衍生出了很多复杂的任务,尤其是随着深度学习的发展,很多代表着目前人工智能最高水平的工作都在推进中,如信息抽取、阅读理解甚至通用型的智能问答等。下面对这些任务进行简单的介绍。

- 阅读剩余部分 -