创建爬虫蜘蛛项目(1)python Scrapy教程1.51以上版本

在本教程中,我们假设您的系统上已经安装了Scrapy。如果不是这种情况,请参阅安装指南。

我们将刮掉quotes.toscrape.com,这是一个列出着名作家引用的网站。

本教程将指导您完成以下任务:

  1. 创建一个新的Scrapy项目
  2. 编写蜘蛛来抓取网站并提取数据
  3. 使用命令行导出已删除的数据
  4. 改变蜘蛛以递归方式跟随链接
  5. 使用蜘蛛参数

Scrapy是用Python编写的。如果您不熟悉该语言,您可能需要先了解语言是什么样的,以便充分利用Scrapy。

如果您已经熟悉其他语言,并希望快速学习Python,我们建议您阅读Dive Into Python 3。或者,您可以按照Python教程进行操作。

如果您不熟悉编程并希望从Python开始,那么您可能会发现有用的在线书籍Learn Python The Hard Way。您还可以查看非程序员的Python资源列表。

创建项目

在开始抓取之前,您必须设置一个新的Scrapy项目。输入您要存储代码的目录并运行:

scrapy startproject tutorial  
tutorial/      scrapy.cfg            # deploy configuration file        tutorial/             # project's Python module, you'll import your code from here          __init__.py            items.py          # project items definition file            middlewares.py    # project middlewares file            pipelines.py      # project pipelines file            settings.py       # project settings file            spiders/          # a directory where you'll later put your spiders              __init__.py  

 

 

 

本站所发布的一切资源仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如果侵犯你的利益,请发送邮箱到 [email protected],我们会很快的为您处理。
超哥软件库 » 创建爬虫蜘蛛项目(1)python Scrapy教程1.51以上版本