安装

pip install scrapy

会安装大量依赖包,其中包含

  • pyOpenSSL: 用于支持 SSL的包
  • cryptography:用于加密
  • CFFI: 用于调用C的接口库
  • zepto.interface: 为缺少接口而提供扩展的库
  • lxml: 处理 XML、HTML文档的库
  • cssselect: 用于处理 CSS 选择器的包
  • Twisted: 提供基于事件驱动的网络引擎包

创建 Scrapy 项目

scrapy startproject ITFunSpider
  • scrapy.cfg:项目总配置文件,通常无需修改
  • ITFunSpider:项目的 Python 模块,程序从此导入 Python 代码
  • ITFunSpider/items.py:用于定义项目用到的 Item 类。
  • ITFunSpider/pipelines.py:管道文件,负责处理爬取到的信息
  • ITFunSpider/settings.py:项目的配置文件,需要进行相关配置
  • ITFunSpider/spiders:蜘蛛,负责从下载数据中提取有效信息。提取到后由 Scrapy 引擎以 Item 对象形式转交给 pipeline

使用 Scrapy,主要就是开发: 蜘蛛Pipeline