爬虫蜘蛛项目导出器Feed Exports之存储URI参数Storage URI parameters(31)python SCRAPY最新教程1.51以上版本
使用Feed导出时,您可以使用URI (通过FEED_URI
设置)定义存储Feed的位置。Feed导出支持多种存储后端类型,这些类型由URI方案定义。
支持开箱即用的存储后端是:
- 本地文件系统
- FTP
- S3(需要 botocore或 boto)
- 标准输出
如果所需的外部库不可用,则某些存储后端可能不可用。例如,S3后端仅在安装了botocore 或boto库时才可用(Scrapy 仅在Python 2上支持boto)。
存储URI参数
存储URI还可以包含在创建订阅源时替换的参数。这些参数是:
%(time)s
– 在创建订阅源时,将替换为时间戳%(name)s
– 被蜘蛛名称取代
任何其他命名参数都会被同名的spider属性替换。例如, 在创建订阅源的那一刻,%(site_id)s
它将被spider.site_id
属性替换。
以下是一些示例:
- 使用每个蜘蛛一个目录存储在FTP中:
ftp://user:[email protected]/scraping/feeds/%(name)s/%(time)s.json
- 使用每个蜘蛛一个目录存储在S3中:
s3://mybucket/scraping/feeds/%(name)s/%(time)s.json
本站所发布的一切资源仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如果侵犯你的利益,请发送邮箱到 [email protected],我们会很快的为您处理。
超哥软件库 » 爬虫蜘蛛项目导出器Feed Exports之存储URI参数Storage URI parameters(31)python SCRAPY最新教程1.51以上版本
超哥软件库 » 爬虫蜘蛛项目导出器Feed Exports之存储URI参数Storage URI parameters(31)python SCRAPY最新教程1.51以上版本