自然语言处理 (Natural Language Processing,NLP):计算机科学领域和人工智能领域中的一个重要方向。它研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法,涉及所有用计算机对自然语言进行的操作。
NLP的技术应用日益广泛。例如:收集和手持电脑对输入法联想提示和手写识别的支持;网络搜索引擎能够搜索到非结构化文本中的信息;机器翻译能把中文文本翻译成西班牙文。通过提供更自然的人机界面和获取存储信息的高级手段,语言处理正在这个多语种的信息社会中扮演着更核心的角色。
Python的安装
之前介绍过安装步骤,这里先略过。详情戳这里: Python学习总结之一--基础篇
NLTK的安装
NLTK:Natural Language Toolkit(自然语言工具包)。我们可以从 http://www.nltk.org 上免费下载符合自己操作系统的版本。下载完成后,跟着步骤直接安装 。
Python版本要求
然后我们在Python解释器里输入代码,下载我们后面学习时需要的数据。
首先,我们输入import nltk成功时就说明我们的nltk安装成功。但是很遗憾,这TM是个问题啊,自己下午搞了很久,下载了好几次都没有成功,我也不知道是怎么回事,网上查找到了一些资源,大家可以在 这个博客 里找到下载数据的地方。然后自行解压corpora文件里的压缩文件即可。
当你输入代码可以出现上图所示的text1到text9内容的时候,说明你的nltk_data下载成功。