有些的网站实现一些特定的机制,以一些手段来避免被爬取,那么作为攻城狮的我们就需要和这些做斗争,,下面就要介绍一些技巧,来破解他们这些技术
攻城狮技巧一:
使用user agent池,轮流选择之一作为user agent 。池中包含常见的浏览器user agent (网上有很多的 亲)
攻城狮技巧二:
禁止cookies ,有些站点会使用cookies来发现爬虫的轨迹
攻城狮技巧三:
设置下载延迟,2或是更高,参考 DOWNLOAD_DELAY A设置
攻城狮技巧四:
如果可行的话 可以使用Google cache 来爬取数据,而不是直接的访问站点
攻城狮技巧五:
使用IP池,例如免费的Tor项目,或者是付费的服务
攻城狮技巧六:
使用高度分布式的下载器来绕过ban,您只要专注的分析页面
转载请注明原文地址: https://ju.6miu.com/read-14291.html