鸿 网 互 联 www.68idc.cn

当前位置 : 服务器租用 > 编程语言开发 > python > >

【语言处理与Python】11.3数据采集

来源:互联网 作者:佚名 时间:2013-06-08 11:48
从网上获取数据 我们讨论过访问单个文件,如RSS订阅、搜索引擎的结果。 1、有的时候,还需要大量的WEB文本。最简单的方法是获得出版的网页文本的文集。在维护的有一个资源列表。 2、使用网络爬虫。 从字处理器文件获取数据 例11-1 . 将MicrosoftWord创建的HT

从网上获取数据

我们讨论过访问单个文件,香港服务器,如RSS订阅、搜索引擎的结果。

1、有的时候,免备案空间香港服务器租用,还需要大量的WEB文本。最简单的方法是获得出版的网页文本的文集。在维护的有一个资源列表。

2、使用网络爬虫。

从字处理器文件获取数据

例11-1. 将MicrosoftWord创建的HTML转换成CSV def lexical_data(html_file): SEP= html = open(html_file).read() html = re.sub(r, SEP+ , html) text = nltk.clean_html(html) text = ' '.join(text.split()) for entry in text.split(SEP): if entry.count(' ') > 2: yield entry.split(' ', 3) >>>import csv >>>writer= csv.writer(open(,)) >>>writer.writerows(lexical_data())

网友评论
<