爬虫蜘蛛项目导出器Feed Exports之序列化格式(30)python SCRAPY最新教程1.51以上版本

实现刮刀时最常需要的功能之一是能够正确存储刮削数据,并且通常,这意味着生成带有刮削数据(通常称为“导出进给”)的“导出文件”,供其他系统使用。

Scrapy通过Feed Exports提供开箱即用的功能,允许您使用多种序列化格式和存储后端生成带有已删除项目的Feed。

序列化格式

对于序列化已删除的数据,Feed导出使用项目导出器。开箱即用支持这些格式:

  • JSON
  • JSON行
  • CSV
  • XML

但您也可以通过FEED_EXPORTERS设置扩展支持的格式 。

JSON 

  • FEED_FORMAT: json
  • 出口商使用: JsonItemExporter
  • 如果您将JSON与大型Feed一起使用,请参阅此警告。

JSON行

  • FEED_FORMAT: jsonlines
  • 出口商使用: JsonLinesItemExporter

CSV 

  • FEED_FORMAT: csv
  • 出口商使用: CsvItemExporter
  • 指定要导出的列及其使用顺序 FEED_EXPORT_FIELDS。其他Feed导出器也可以使用此选项,但它对CSV很重要,因为与许多其他导出格式不同,CSV使用固定标头。

XML 

  • FEED_FORMAT: xml
  • 出口商使用: XmlItemExporter

泡菜

  • FEED_FORMAT: pickle
  • 出口商使用: PickleItemExporter

元帅

  • FEED_FORMAT: marshal
  • 出口商使用: MarshalItemExporter

本站所发布的一切资源仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如果侵犯你的利益,请发送邮箱到 [email protected],我们会很快的为您处理。
超哥软件库 » 爬虫蜘蛛项目导出器Feed Exports之序列化格式(30)python SCRAPY最新教程1.51以上版本