Web系统与技术--使用Markdown

xiaoxiao2021-03-25 84

5分钟上手Python爬虫

5分钟上手Python爬虫准备分析目标开始抓取完整代码部分说明结束

准备

Python基础语法（学会列表即可）浏览器Python库 pyquery

分析目标

打开浏览器，进入目标网站（此处以百度百家·人物为例）打开开发者模式（F12）通过浏览器自带的工具查看页面html结构工具：结果：发现标题在h3标签下的a标签中

开始抓取

完整代码

from pyquery import PyQuery url = 'http://baijia.baidu.com/?tn=listarticle&labelid=101' html = PyQuery(url, encoding='utf8') tags_a = html('h3').find('a') for a in tags_a.items(): print(a.text())

部分说明

# 使用encoding来制定编码方式，不指定可能导致中文乱码 html = PyQuery(url, encoding='utf8') # tags_a 不是列表对象而是htmlEelment集合对象， # 所以需要使用.items()获取里面单独的a标签对象 for a in tags_a.items():

结束

以上就是一个简单的用来获取网络信息的爬虫，但是一只完备的爬虫往往会考虑更多的东西。相信大家在学习的过程中也发现了，代码是非常简单的（Java、.NET等也是如此），所以爬虫难度往往来自对网页请求的分析（包括反爬措施）和项目的结构组织。

转载请注明原文地址: https://ju.6miu.com/read-27589.html

技术

最新回复(0)