创建爬虫蜘蛛项目(1)python Scrapy教程1.51以上版本
在本教程中,我们假设您的系统上已经安装了Scrapy。如果不是这种情况,请参阅安装指南。
我们将刮掉quotes.toscrape.com,这是一个列出着名作家引用的网站。
本教程将指导您完成以下任务:
- 创建一个新的Scrapy项目
- 编写蜘蛛来抓取网站并提取数据
- 使用命令行导出已删除的数据
- 改变蜘蛛以递归方式跟随链接
- 使用蜘蛛参数
Scrapy是用Python编写的。如果您不熟悉该语言,您可能需要先了解语言是什么样的,以便充分利用Scrapy。
如果您已经熟悉其他语言,并希望快速学习Python,我们建议您阅读Dive Into Python 3。或者,您可以按照Python教程进行操作。
如果您不熟悉编程并希望从Python开始,那么您可能会发现有用的在线书籍Learn Python The Hard Way。您还可以查看非程序员的Python资源列表。
创建项目
在开始抓取之前,您必须设置一个新的Scrapy项目。输入您要存储代码的目录并运行:
scrapy startproject tutorial
tutorial/ scrapy.cfg # deploy configuration file tutorial/ # project's Python module, you'll import your code from here __init__.py items.py # project items definition file middlewares.py # project middlewares file pipelines.py # project pipelines file settings.py # project settings file spiders/ # a directory where you'll later put your spiders __init__.py
本站所发布的一切资源仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如果侵犯你的利益,请发送邮箱到 [email protected],我们会很快的为您处理。