第3天-爬虫实践篇
学习目的:
培养解决问题的思路
编码解码的理解
解决问题的思路?
如何判断需求数据在哪?
A) 静态数据,可通过查看网页源代码
B) 定位具体哪一个url请求,抓包,在Fidder里面找,怎么快速定位我要的数据呢?(通过Body大小,除了图片之外的Http请求)
判断是什么请求方式?Get还是Post
在Composer raw 模拟发送数据
A) 删除Header信息(为什么删除?代码简介美观、易于理解)
B) 如果做翻页,最好拿第二三页做测试,不要用首页(因为什么?有时候第二页是Post请求,而第一也是静态Get请求;并且拿第二页测试的时候返回的是第一页,容易错误还不自知)
参考案例Get、Post案例
写python程序
确认返回数据是什么格式的,返回json还是html
A) 那如果是json呢,格式化数据,应该做存储; B) 那如果是html呢,提取数据,使用XPath、CSS选择器、正则表达式
Get和Post
右键查看源代码和 F12 Elements区别 右键查看源代码:实质是一个Get请求 F12 Elements是整个页面 所有的请求url 加载完成的页面
GET 和Post区别的方法 为什么拉钩用的Post,不是表单提交密码,原因是Post用户体验更好;局部加载