Web抓取

    xiaoxiao2024-04-21  16

    Web抓取 (定向)à 格式化àDB

    OSI协议  

    http 无会话的,明文传输的,

    https 在登录时的作用,在传输层是加密的,全栈实行加密,有加密和解密的过程,

     

    http1.0—每个会话建立一次请求

    http1.1—

    协议头,协议体

    Get没有消息头

    Post有消息头和消息体

    304重定向

    404资源不存在

    500tomacat

    Gzip二进制编码需要制定长度

     

    抓网站做结构分析:所关心的内容、结构,web版和手机版的,可以找容易的解析

     

    理论上:http,html

     

    1.    整个网站总体结构分析

    最需要的内容---寻找最简单的入口,遍历的模式啊

    2.一个页面的请求页,eg:network上GET

     

    3,内容页:网页内分析dom对象

    Firebug 里面的 右键复制常用选项  xpath,html,innerHtml

    /html/body/div[1]

    Tittle: /html/body/div[8]/div[2]

    Body后的Div节点1开始的

     

    Desc: /html/…

    抓定向的内容,可以参考浏览器的地址后面的参数,最需要的内容---最简单的入口

     

    下一页有否的判断,循环

    4Htmlparse把html解析成dom对象

    通过id 来判断上次抓取到哪,下次从那里开始抓

    微博的ID与其对应的图片关联

    流量控制:1秒几条,防被封杀,用threadsleep来停下,实现流量控制

    Cookied内容定义成静态常量,可以再次访问

    alt+左箭头,返回上一次操作的地方

     

    总结问题:登录问题(免登录选项),流量问题,保存问题(定义数据库结构),reffer问题(伪造refer)

    转载请注明原文地址: https://ju.6miu.com/read-1288209.html
    最新回复(0)