爬虫蜘蛛项目导出器Feed Exports之存储URI参数Storage URI parameters(31)python SCRAPY最新教程1.51以上版本

使用Feed导出时,您可以使用URI (通过FEED_URI设置)定义存储Feed的位置。Feed导出支持多种存储后端类型,这些类型由URI方案定义。

支持开箱即用的存储后端是:

  • 本地文件系统
  • FTP
  • S3(需要 botocore或 boto)
  • 标准输出

如果所需的外部库不可用,则某些存储后端可能不可用。例如,S3后端仅在安装了botocore 或boto库时才可用(Scrapy 仅在Python 2上支持boto)。

 

存储URI参数

存储URI还可以包含在创建订阅源时替换的参数。这些参数是:

  • %(time)s – 在创建订阅源时,将替换为时间戳
  • %(name)s – 被蜘蛛名称取代

任何其他命名参数都会被同名的spider属性替换。例如, 在创建订阅源的那一刻,%(site_id)s它将被spider.site_id属性替换。

以下是一些示例:

  • 使用每个蜘蛛一个目录存储在FTP中:
  • 使用每个蜘蛛一个目录存储在S3中:
    • s3://mybucket/scraping/feeds/%(name)s/%(time)s.json
本站所发布的一切资源仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如果侵犯你的利益,请发送邮箱到 [email protected],我们会很快的为您处理。
超哥软件库 » 爬虫蜘蛛项目导出器Feed Exports之存储URI参数Storage URI parameters(31)python SCRAPY最新教程1.51以上版本