拉勾网爬虫

    xiaoxiao2024-07-25  9

    源代码:https://github.com/carlblocking/xxw-for-public/tree/master/LaGouSpider

    前几天写了一个知乎网的爬虫并爬取了一些数据,然而新鲜感消失的很快。于是,大概2天前开始试着爬取拉勾网上的数据。

    在解析数据的过程中,知乎爬虫主要通过正则表达式来解析网页,而这次则通过jsoup来解析。在运行的过程中,能明显感受到二者的区别。

    首先是使用正则表达式:优点:代码简洁。缺点:正则表达式较为复杂,初学者理解有难度。

    其次是使用jsoup解析网页:优点:代码简洁,上手容易,而且运行速度一流,程序效率有了大幅度的提升。

    /**该代码用于存储职位详情链接*/

    public static List<String> getUserUrl(String string){ List<String> userUrls=new ArrayList<String>(); try { Document document=Jsoup.connect(string).get(); Elements hrefs=document.getElementsByClass("position_link"); for(Element element:hrefs){ userUrls.add(element.attr("href").replace("//", "")); } return userUrls; } catch (IOException e) { // TODO: handle exception e.printStackTrace(); return null; } }

    /**该代码主要用于解析网页*/

    Document document=Jsoup.connect(url).get(); Element element=document.select("meta[name]").get(2); /*获得含有工作名称、公司名称的字符串,之后可以进行进一步的解析*/ String content=element.attr("content"); jobName=getJobName(content); jobCompany=getJobComapany(content); /*获得工资字符串*/ salary=document.getElementsByTag("span").get(3).text(); /*获得最大、最小字符串*/ String[] salarys=salary.split("[-]"); try { minSalary=salarys[0]; maxSalary=salarys[1]; } catch (ArrayIndexOutOfBoundsException e) { minSalary=null; maxSalary=null; } /*获得公司地址*/ jobAddress=document.getElementsByTag("span").get(4).text(); /*获得工作经验*/ experience=document.getElementsByTag("span").get(5).text(); /*获得学历要求*/ education=document.getElementsByTag("span").get(6).text(); /*查找领域、融资情况*/ Elements results=document.select(".c_feature").select("li"); /*领域*/ industry=results.get(0).text().replace("领域 ", ""); /*融资*/ growth=results.get(3).text().replace("目前阶段 ", "");

    转载请注明原文地址: https://ju.6miu.com/read-1291025.html
    最新回复(0)