欢迎访问 生活随笔!

凯发ag旗舰厅登录网址下载

当前位置: 凯发ag旗舰厅登录网址下载 > 前端技术 > html >内容正文

html

爬数据html解析,jsoup网络爬取数据html解析 -凯发ag旗舰厅登录网址下载

发布时间:2024/10/8 html 31 豆豆
凯发ag旗舰厅登录网址下载 收集整理的这篇文章主要介绍了 爬数据html解析,jsoup网络爬取数据html解析 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

jsoup是一款网络爬取数据的解析器,可以解析html文件中的任何子节点,支持离线html文件、字符型html内容、url的解析。非常方便和实用。

document doc = jsoup.connect("https://www.zhihu.com/").get();

//file f = new file("pathname");

//document doc = jsoup.parse(f, "utf-8", "");//离线文件形式

//document doc = jsoup.parse("html_string");//html格式的字符串

elements links = doc.select("a[href]");

for (element link : links) {

sff.append(link.attr("abs:href")).append(" ").append(link.text()).append(" ");

}

mystring = sff.tostring();

log.i("href:", mystring);

它获取内容的主要方式如下几点:

1.通过标签名来查找

3325

elements elements = doc.select("span");

注:通过标签来查找,直接写 "标签名" 就好,不需要尖括号。

2.通过  id  来查找

36 20

elements elements = doc.select("#myspan");

注:通过id来查找,使用方法跟css指定元素一样,用#

3.通过  class名  来查找

3620

elements elements = doc.select(".myclass");

注:通过id来查找,使用方法跟css指定元素一样,用 .

4.利用标签内  属性名  查找元素

3636

elements elements = doc.select("span[class=class1]span[id=id1]");

注:规则为 标签名【属性名=属性值】,标签名可写可不写,多个属性即多个【】,如上。

5.利用标签内  属性名前缀  查找元素

3622

elements elements = doc.select("span[^cl]");

注:规则为 标签名【^属性名前缀】,标签名可写可不写,多个属性即多个【】。

6.利用标签内 属性名 正则表达式 查找元素

3622

elements elements = doc.select("span[class~=^ab]");

注:规则为 标签名【属性名~=正则表达式】,以上的正则表达式的意思是查找以class值以ab为开头的标签,标签名可写可不写,多个属性即多个【】

7.利用标签 文本包含某些内容 来查找

3622

elements elements = doc.select("span:contains(3)");

注:规则为 标签名:contains(文本值)

8.利用标签 文本包含某些内容 正则表达式 来查找

3622

elements elements = doc.select("span:matchesown(^3)");

总结

以上是凯发ag旗舰厅登录网址下载为你收集整理的爬数据html解析,jsoup网络爬取数据html解析的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得凯发ag旗舰厅登录网址下载网站内容还不错,欢迎将凯发ag旗舰厅登录网址下载推荐给好友。

  • 上一篇:
  • 下一篇:
网站地图