最近想用Python爬虫搞搞百度贴吧的操作,所以我得把原来申请的小号找出来用。有一个小号我忘了具体ID,只记得其中几个字母以及某个加入的贴吧。所以今天就用爬虫来获取C语言贴吧的所有成员。
计划很简单,爬百度贴吧的会员页面,把结果存到MySQL数据库中,等到所有会员都爬完之后。我就可以使用简单的SQL语句查询账号名了。由于C语言贴吧会员有50多万,所以我还需要在合适的时候(例如插入数据库失败)把错误信息打印到日志文件中。由于我是Python新手,所以就不弄什么多线程得了,直接一个脚本用到黑。
看着很简单,实际也很简单。写完了我看了一下,用到的知识只有最基础的SQL操作、BeautifulSoup解析。
首先第一步就是看一下这个吧的信息页有多少页,关键代码如下。踩了两天坑,总算感觉对BeautifulSoup熟悉了一点。代码也很简单,按照class名查找到总页数这个标签,然后用正则表达式匹配到页数数字。这里要说一下,正则表达式的分组真好用。以前偷懒只学了一点正则表达式,发现没啥作用,只有配合分组才能比较精确的查找字符。
html = request.urlopen(base_url).read().decode(encoding) soup = BeautifulSoup(html, 'lxml') page_span = soup.find('span', class_='tbui_total_page') p = re.compile(r'共(\d+)页') result = p.match(page_span.string) global total_pages total_pages = int(result.group(1)) logger.info(f'会员共{total_pages}页')有了总页数,我们就可以遍历页面了,代码如下。写的虽然比较脏,但是能用就行了,大家嫌难看就难看吧。这里做的事情就很简单了,从第一页开始遍历,一直遍历到最后一页。把每一页的用户名字提取出来,然后用_insert_table(connection, name)函数存到MySQL中。
因为我为了省事,直接把百度用户名当做主键了。但是保不齐贴吧有什么bug,导致用户名重复之类的问题,导致插入失败。所以我用try把保存这一块包起来。有异常的话就打印到日志中,方便排查。日志分成两种级别的,INFO级别输出到控制台,ERROR级别输出到文件。
def _find_all_users(): global connection for i in range(start_page, total_pages + 1): target_url = f'{base_url}&pn={i}' logger.info(f'正在分析第{i}页') html = request.urlopen(target_url).read().decode(encoding) soup = BeautifulSoup(html, 'lxml') outer_div = soup.find('div', class_='forum_info_section member_wrap clearfix bawu-info') inner_spans = outer_div.find_all('span', class_='member') for index, span in enumerate(inner_spans): name_link = span.find('a', class_='user_name') name = name_link.string logger.info(f'已找到 {name}') try: _insert_table(connection, name) except: logger.error(f'第{i}页{index}第个用户 {name} 发生异常')完整的代码见下。
""" Python写的百度贴吧工具 """ import pymysql host = 'localhost' db_name = 'tieba' username = 'root' password = '12345678' def _get_connection(host, username, password, db_name): return pymysql.connect(host=host, user=username, password=password, charset='utf8mb4', db=db_name) def _create_table(connection): create_table_sql = """ CREATE TABLE tieba_member( username CHAR(255) PRIMARY KEY ) """ with connection.cursor() as cursor: cursor.execute(create_table_sql) connection.commit() def _insert_table(connection, username): insert_table_sql = """ INSERT INTO tieba_member VALUES(%s)""" with connection.cursor() as cursor: cursor.execute(insert_table_sql, (username,)) connection.commit() import urllib.request as request from bs4 import BeautifulSoup import re import tieba.log_config import logging logger = logging.getLogger() encoding = 'GBK' base_url = 'http://tieba.baidu.com/bawu2/platform/listMemberInfo?word=c