Python爬虫教程
  • 分布式爬虫从零开始
  • 引言
  • 爬虫预备知识
  • 请求分析
  • 网络请求模块的使用
  • 数据提取概念和数据的分类
  • JSON数据提取
  • 正则表达式 提取数据
  • 01-豆瓣电影
  • 02-百度贴吧
  • 03-百度翻译
  • HTTP请求头列表
  • HTTP 响应头列表
Powered by GitBook
On this page
  • 豆瓣电影
  • 1. 分析

Was this helpful?

01-豆瓣电影

Previous正则表达式 提取数据Next02-百度贴吧

Last updated 5 years ago

Was this helpful?

豆瓣电影

1. 分析

分析流程图

分析结果

  • 结果概要

分析目标

分析结果

请求URL分析

请求方式分析

GET

请求参数分析

上图中所示请求参数

请求头分析

上图中请求头

  • 注意:

请求头一般都是先放User-Agent,如果爬取失败再补Referer,还是失败就再补Cookie,如果喜欢稳一点的,可以每次都加上

  • 请求参数分析

参数KEY

分析结果

type

movie(固定值不变)

tag

热门(固定值不变)

sort

recommend(固定值不变)

page_limit

20(固定值不变,表示每页数量)

page_start

0(每次请求发生变化,每20页进行叠加,表示数据的偏移量)

代码实现流程分析

  1. 先完成一次请求的抓取

  2. 再完成多次请求的爬取

  3. 总结:

循序渐进养成良好的习惯

具体代码

查看代码请点击此处
https://movie.douban.com/j/search_subjects
豆瓣电影
1. 分析
分析流程图
分析结果
代码实现流程分析
具体代码