避免被ban

    xiaoxiao2021-03-25  103

    有些的网站实现一些特定的机制,以一些手段来避免被爬取,那么作为攻城狮的我们就需要和这些做斗争,,下面就要介绍一些技巧,来破解他们这些技术

    攻城狮技巧一:

    使用user agent池,轮流选择之一作为user agent  。池中包含常见的浏览器user agent    (网上有很多的  亲)

    攻城狮技巧二:

    禁止cookies  ,有些站点会使用cookies来发现爬虫的轨迹

    攻城狮技巧三:

    设置下载延迟,2或是更高,参考  DOWNLOAD_DELAY A设置

    攻城狮技巧四:

    如果可行的话 可以使用Google cache  来爬取数据,而不是直接的访问站点

    攻城狮技巧五:

    使用IP池,例如免费的Tor项目,或者是付费的服务

    攻城狮技巧六:

    使用高度分布式的下载器来绕过ban,您只要专注的分析页面

    转载请注明原文地址: https://ju.6miu.com/read-14291.html

    最新回复(0)