前面所说的NLP的基础任务,其实被人们研究已久,相关的论文、成果也有很多。尽管如此,每一个任务仍有很大的学习和提升空间。以中文分词为例,中文分词系统中对新词的识别依旧是一个未能很好解决的问题,如何使得分词系统更好地适应特定的领域,仍然是很多企业目前还在头疼的问题。因此,尽管对这些任务已经有诸多研究,但我们可以做的事情还有很多很多。

近年来,随着硬件和软件的发展,深度学习技术也遍地开花,结合深度学习来做自然语言处理,成为了目前的主流研究热点。深度学习指的是以神经网络为基础的一系列模型,它能够实现端到端的建模,大大简化流程,提高了精准度,而且还实现了很多传统模型无法实现的任务。当前(2017年),“深度学习+NLP”的主要研究热点集中在机器翻译、问答系统、聊天机器人、阅读理解、自动摘要等问题中,很显然,这些任务都是要不是传统模型难以实现的,要不就是需要加大量的人工规则才能实现。如果前几年就用过Google翻译的读者,应该可以对比发现,几年前的Google翻译结果还需要人工做很多调整才能用,目前的Google翻译基本上不需要太多的人工调整了,这也得益于NLP与深度学习的结合。

因此,除了对任务的基本原理进行清晰的介绍外,本教程在实现上,尽量选择可操作的、端到端的深度学习方案,使得教程的内容与前沿技术的距离少一些。

当然,读者可能会怀疑:我连传统的算法都没有看过,直接上深度学习,靠谱吗?事实上,深度学习并非特别高深的理论,入门不需要太多的基础知识。而我们在讲述每个章节时,都会尽量补充所需要的知识,尽量使得本教程能够自足。

标签: 深度学习, 中文分词

添加新评论