网络爬虫学习笔记———网页源码下载之get方法

    xiaoxiao2021-11-03  58

    请求网页的方式主体有两种,一种是get方法,一种是post方法。正如这两个单词明面上的意思,一个是单纯地从网页中获取源码,另一种需要传递正确的参数后才能返回正确的源码。如图所示,我们可以利用F12观察的方法来查看具体是哪种请求。

     

    下面是post方法。

     

     

    怎样通过程序去模拟这个过程呢,Apache给我们提供了一系列的方法。http://hc.apache.org/网址下提供了我们需要的主体的架包,网站上也包含了其他很有用的工具,可以根据需要选择使用。主体使用的架包为:

     

     

    下面写一个简单get方法实现的请求。

     

    import java.io.IOException; import org.apache.http.HttpEntity; import org.apache.http.HttpResponse; import org.apache.http.ParseException; import org.apache.http.client.ClientProtocolException; import org.apache.http.client.methods.HttpGet; import org.apache.http.impl.client.CloseableHttpClient; import org.apache.http.impl.client.HttpClients; import org.apache.http.util.EntityUtils; /****** * * @author luffy * @deprecated 简单的get请求方法 */ public class Test { public static void main(String[] args){ CloseableHttpClient httpClient=HttpClients.createDefault();//类似于浏览器核心的工具,是获取源码的主要工具 HttpGet getmethod = new HttpGet("http://www.csdn.net/");//定义获取的GET方法 HttpResponse httpresponse = null; try { httpresponse = httpClient.execute(getmethod);//开始获取源码,返回的结果除了源码外,还有其他一些信息 } catch (ClientProtocolException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } HttpEntity entity = httpresponse.getEntity();//从结果中获取源码的实体 String out = ""; try { out = EntityUtils.toString(entity);//将源码实体转化为字符串 } catch (ParseException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } System.out.print(out); } }

    转载请注明原文地址: https://ju.6miu.com/read-677959.html

    最新回复(0)