html
爬数据html解析,jsoup网络爬取数据html解析 -凯发ag旗舰厅登录网址下载
jsoup是一款网络爬取数据的解析器,可以解析html文件中的任何子节点,支持离线html文件、字符型html内容、url的解析。非常方便和实用。
document doc = jsoup.connect("https://www.zhihu.com/").get();
//file f = new file("pathname");
//document doc = jsoup.parse(f, "utf-8", "");//离线文件形式
//document doc = jsoup.parse("html_string");//html格式的字符串
elements links = doc.select("a[href]");
for (element link : links) {
sff.append(link.attr("abs:href")).append(" ").append(link.text()).append(" ");
}
mystring = sff.tostring();
log.i("href:", mystring);
它获取内容的主要方式如下几点:
1.通过标签名来查找
3325
elements elements = doc.select("span");
注:通过标签来查找,直接写 "标签名" 就好,不需要尖括号。
2.通过 id 来查找
36 20
elements elements = doc.select("#myspan");
注:通过id来查找,使用方法跟css指定元素一样,用#
3.通过 class名 来查找
3620
elements elements = doc.select(".myclass");
注:通过id来查找,使用方法跟css指定元素一样,用 .
4.利用标签内 属性名 查找元素
3636
elements elements = doc.select("span[class=class1]span[id=id1]");
注:规则为 标签名【属性名=属性值】,标签名可写可不写,多个属性即多个【】,如上。
5.利用标签内 属性名前缀 查找元素
3622
elements elements = doc.select("span[^cl]");
注:规则为 标签名【^属性名前缀】,标签名可写可不写,多个属性即多个【】。
6.利用标签内 属性名 正则表达式 查找元素
3622
elements elements = doc.select("span[class~=^ab]");
注:规则为 标签名【属性名~=正则表达式】,以上的正则表达式的意思是查找以class值以ab为开头的标签,标签名可写可不写,多个属性即多个【】
7.利用标签 文本包含某些内容 来查找
3622
elements elements = doc.select("span:contains(3)");
注:规则为 标签名:contains(文本值)
8.利用标签 文本包含某些内容 正则表达式 来查找
3622
elements elements = doc.select("span:matchesown(^3)");
总结
以上是凯发ag旗舰厅登录网址下载为你收集整理的爬数据html解析,jsoup网络爬取数据html解析的全部内容,希望文章能够帮你解决所遇到的问题。
如果觉得凯发ag旗舰厅登录网址下载网站内容还不错,欢迎将凯发ag旗舰厅登录网址下载推荐给好友。
- 上一篇:
- 下一篇: