170312-python爬虫 steam愿望单打折商品

    xiaoxiao2021-03-25  72

    1625-5 王子昂 总结《2017年3月12日》 【连续第162天总结】

    A.Python爬虫

    B.因为平常总是收到steam愿望单商品打折的邮件,但是又懒得去打开,所以在想练习爬虫的时候马上就想到了爬它

    本来以为需要网页登录steam,这样就需要考虑登录和header的信息,就麻烦很多了

    结果看了一下,愿望单和个人资料页面一样,原来不需要登录就能看的……(似乎送礼就很方便了

    在熟悉正则的机制以后,按照格式操作就格外简单了,因为难题基本都解决过了嘛~

    利用多个分组把需要的信息捕获,然后用可读性更高的格式进行格式化输出即可

    中间遇到一个编码问题:steam源码中的¥似乎不是UTF-8编码的,爬下来显示为\xc2\xa5。然后可以通过不捕获这个符号,自己添加来解决

    利用pyinstall插件将它生成一个exe,发现在cmd环境下会出现乱码;查询后发现cmd默认支持的是简体中文(GB2312)码。

    CHCP是MD DOS中的命令,用来显示或设置活动代码页编号的。用法是:

    CHCP [nnn]

    默认GB2312为936,而UTF-8为65001。输入chcp 65001即可。

    这样就可以每天开一次看看剁什么手了呢~

    等等我好像做出了什么恐怖的东西OTZ

    #encoding:utf-8 import urllib2 import re url='http://steamcommunity.com/id/whklhh/wishlist' request=urllib2.Request(url) response=urllib2.urlopen(request) data=response.read() reg= r'<div class="discount_block discount_block_inline">.+?\n.+?>(-\d+%)(?:.+?\n.+?){2}¥ (\d+).+?\n.+?¥ (\d+)'+\ r'(?:.+?\n.+?){4}href="(.+?)"(?:.+?\n.+?){6}>(.+?)<' imgre=re.compile(reg) imglist=re.findall(imgre,data) for pro in imglist: print ("%s\n\t现价:%s,原价:%s,折扣:%s,商品页面:%s,")%(pro[4],pro[2],pro[1],pro[0],pro[3]) C. 明日计划

    cmd会出现编码上的问题让人很烦0.0明天做一个GUI的程序吧!

    python 完善爬虫

    转载请注明原文地址: https://ju.6miu.com/read-36127.html

    最新回复(0)