从网上获取数据 我们讨论过访问单个文件,如RSS订阅、搜索引擎的结果。 1、有的时候,还需要大量的WEB文本。最简单的方法是获得出版的网页文本的文集。在维护的有一个资源列表。 2、使用网络爬虫。 从字处理器文件获取数据 例11-1 . 将MicrosoftWord创建的HT
从网上获取数据
我们讨论过访问单个文件,香港服务器,如RSS订阅、搜索引擎的结果。
1、有的时候,免备案空间,香港服务器租用,还需要大量的WEB文本。最简单的方法是获得出版的网页文本的文集。在维护的有一个资源列表。
2、使用网络爬虫。
从字处理器文件获取数据
例11-1. 将MicrosoftWord创建的HTML转换成CSV def lexical_data(html_file): SEP= html = open(html_file).read() html = re.sub(r, SEP+ , html) text = nltk.clean_html(html) text = ' '.join(text.split()) for entry in text.split(SEP): if entry.count(' ') > 2: yield entry.split(' ', 3) >>>import csv >>>writer= csv.writer(open(,)) >>>writer.writerows(lexical_data())