Jsoup讲解

    xiaoxiao2025-05-03  14

    Jsoup讲解

    jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

    一、jsoup的主要功能:

    从一个 URL,文件或字符串中解析 HTML;

    使用 DOM 或 CSS 选择器来查找、取出数据;

    可操作 HTML 元素、属性、文本;

    二、案例:

    直接从字符串中解析 String html = “< html >< head>< title> 武汉麦达< /title>< /head>”

    “< body>< p> 这里是 jsoup 项目的相关文章 < /p>< /body>< /html>”; Document doc = Jsoup.parse(html);

    从 URL 直接加载 HTML 文档 (1)get请求 Document doc = Jsoup.connect(“http://www.metadata.net/“).get(); (post)请求 Document doc = Jsoup.connect(“http://www.oschina.net/“) .data(“query”, “Java”) // 请求参数 .userAgent(“I ’ m jsoup”) // 设置 User-Agent .cookie(“author”, “cookie”) // 设置 cookie .timeout(3*1000) // 设置连接超时时间 .post(); // 使用 POST 方法访问 URL

    三、选择器:

    基本用法 tagname 使用标签名来定位,例如 a ns|tag 使用命名空间的标签定位,例如 fb:name 来查找 < fb:name> 元素 #id 使用元素 id 定位,例如 #logo .class 使用元素的 class 属性定位,例如 .head [attribute] 使用元素的属性进行定位,例如 [href] 表示检索具有 href 属性的所有元素 [^attr] 使用元素的属性名前缀进行定位,例如 [^data-] 用来查找 HTML5 的 dataset 属性 [attr=value] 使用属性值进行定位,例如 [width=500] 定位所有 width 属性值为 500 的元素 [attr^=value], [attr$=value], [attr*=value] 这三个语法分别代表,属性以 value 开头、结尾以及包含 [attr~=regex] 使用正则表达式进行属性值的过滤,例如 img[src~=(?i)\.(png|jpeg)] * 定位所有元素

    组合用法 el#id 定位 id 值某个元素,例如 a#logo ->< a id=logo href= … > el.class 定位 class 为指定值的元素,例如 div.head -> < div class=head>xxxx< /div> el[attr] 定位所有定义了某属性的元素,例如 a[href] 以上三个任意组合 例如 a[href]#logo 、a[name].outerlink ancestor child 这五种都是元素之间组合关系的选择器语法,其中包括父子关系、合并关系和层次关系。 parent > child siblingA + siblingB siblingA ~ siblingX el, el, el

    表达式 lt(n) 例如 td:lt(3) 表示 小于三列 :gt(n) div p:gt(2) 表示 div 中包含 2 个以上的 p :eq(n) form input:eq(1) 表示只包含一个 input 的表单 :has(seletor) div:has(p) 表示包含了 p 元素的 div :not(selector) div:not(.logo) 表示不包含 class=logo 元素的所有 div 列表 :contains(text) 包含某文本的元素,不区分大小写,例如 p:contains(oschina) :containsOwn(text) 文本信息完全等于指定条件的过滤 :matches(regex) 使用正则表达式进行文本过滤:div:matches((?i)login) :matchesOwn(regex) 使用正则表达式找到自身的文本
    转载请注明原文地址: https://ju.6miu.com/read-1298697.html
    最新回复(0)