Scrapy 安装及创建
1. 下载Anaconda脚本
1 | wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.0.1-Linux-x86_64.sh |
2. 执行脚本
1 | sh Anaconda3-5.0.1-Linux-x86_64.sh |
3. 添加环境变量
1 | echo 'export PATH="~/anaconda3/bin:$PATH"' >> ~/.bashrc |
4. 添加Anaconda Python 免费仓库
1 | conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ |
5. 使用conda安装scrapy
1 | conda install scrapy |
6. 给python3设置软连接
1 | ln -s /root/anaconda3/bin/python3 /usr/bin/python3 |
7. 创建爬虫项目
1 | scrapy startproject 项目名 [项目存放地址] |
8. scrapy项目的目录结构
- spiders
爬虫的 package。创建的爬虫文件都会自动生成在该 package 下
- items.py
用来存放Item类的文件,Item类可以理解为数据的中转类,爬取网页后需要解析数据,并将解析后的数据进行存储分析。为了便于数据的迁移存储,我们可以将数据封装为一个Item类。对Item类进行操作,这样可以避免很多不必要的错误。
- middlewares.py
中间层文件,Scrapy自带的middleware分为spiler middleware和downloader middleware两类,我们也可以自定义middleware类。我们爬取网页的网络请求和响应都会经过middleware进行处理,因此可以在这里做一些个性化的操作,比如设置用户代理,设置代理IP等。
- piplines.py
用来处理保存数据的模块,我们爬取网页后解析生成的Item类会被传递到这里,进行存储解析等操作。Scrapy提供了许多有用的pipline类来处理数据,我们也可以自定义pipline类来处理数据。
- settings.py
Scrapy项目的配置文件,对整个项目进行设置。比如设置请求和响应的中间层,指定操作数据的Pipline类等。
点关注,不迷路
好了各位,以上就是这篇文章的全部内容了,能看到这里的人呀,都是人才。
白嫖不好,创作不易。各位的支持和认可,就是我创作的最大动力,我们下篇文章见!
如果本篇博客有任何错误,请批评指教,不胜感激 !
原文作者: create17
原文链接: https://841809077.github.io/2018/05/26/Scrapy/Scrapy-安装及创建.html
版权声明: 转载请注明出处(码字不易,请保留作者署名及链接,谢谢配合!)