1. 下载Anaconda脚本

1
wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.0.1-Linux-x86_64.sh

2. 执行脚本

1
sh Anaconda3-5.0.1-Linux-x86_64.sh

3. 添加环境变量

1
2
echo 'export PATH="~/anaconda3/bin:$PATH"' >> ~/.bashrc
source ~/.bashrc

4. 添加Anaconda Python 免费仓库

1
2
3
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes

5. 使用conda安装scrapy

1
conda install scrapy

6. 给python3设置软连接

1
ln -s /root/anaconda3/bin/python3  /usr/bin/python3

7. 创建爬虫项目

1
scrapy startproject 项目名 [项目存放地址]

8. scrapy项目的目录结构

  • spiders

爬虫的 package。创建的爬虫文件都会自动生成在该 package 下

  • items.py

用来存放Item类的文件,Item类可以理解为数据的中转类,爬取网页后需要解析数据,并将解析后的数据进行存储分析。为了便于数据的迁移存储,我们可以将数据封装为一个Item类。对Item类进行操作,这样可以避免很多不必要的错误。

  • middlewares.py

中间层文件,Scrapy自带的middleware分为spiler middleware和downloader middleware两类,我们也可以自定义middleware类。我们爬取网页的网络请求和响应都会经过middleware进行处理,因此可以在这里做一些个性化的操作,比如设置用户代理,设置代理IP等。

  • piplines.py

用来处理保存数据的模块,我们爬取网页后解析生成的Item类会被传递到这里,进行存储解析等操作。Scrapy提供了许多有用的pipline类来处理数据,我们也可以自定义pipline类来处理数据。

  • settings.py

Scrapy项目的配置文件,对整个项目进行设置。比如设置请求和响应的中间层,指定操作数据的Pipline类等。