`
小网客
  • 浏览: 1218561 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

采用Jsoup解析网络资源

 
阅读更多

Jsoup为一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。

场景如下:

1.获取京东的图书类目

2.以类目id为key,类目名称为value保存到map中

代码如下:

private static Map<String, String> getWareCategory() {
		Connection conn = Jsoup.connect(JDConstants.CATEGORY_URL_FORMAT).userAgent(
		        JDConstants.MOZILLA_AGENT).timeout(JDConstants.TIME_OUT);
		Map<String, String> categoryMap = new HashMap<String, String>();
		Document document = null;
		try {
			Connection.Response response = conn.execute();
			int statusCode = response.statusCode();
			if (statusCode != JDConstants.HTTP_OK_CODE) {
				return categoryMap;
			}
			document = conn.get();
			Elements tmp = document.select("div.left").select("#booksort").first().select(
			        "div.mc ul").first().select("li");
			for (int i = 0; i < tmp.size(); i++) {
				Element e = tmp.get(i);
				String url = e.select("a").attr("href");
				String name = e.select("a").text();
				String categoryId = StringUtils.isNotEmpty(url) ? (url.split("-").length == 3 ? url
				        .split("-")[1] : "") : "";
				categoryMap.put(categoryId, name);
			}
		} catch (Exception e) {
			LOG.error("getCategory response:" + document);
			LOG.error("getCategory error:" + e.getMessage());
		}
		LOG.info("***********categoryMap:" + categoryMap);
		return categoryMap;
	}

 其他常量变量如下:

public abstract class JDConstants {
	public static final int TIME_OUT = 1000 * 60 * 30;
	public static final String MOZILLA_AGENT = "Mozilla";
	public static final int HTTP_OK_CODE = 200;
	public static final String CATEGORY_URL_FORMAT = "http://www.360buy.com/products/1713-3269-000.html";
}

 评价:

操作非常方便

分享到:
评论

相关推荐

    超级课程表 课程格子 教务系统抓取 SQLite Android Studio HttpWatch Jsoup解析网页.zip

    软件开发设计:PHP、QT、...云计算与大数据:数据集、包括云计算平台、大数据分析、人工智能、机器学习等,云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。

    java解析pdf实例

    jsoup解析页面元素,根据url获取网络资源pdf并解析pdf里面的内容。

    基于jsoup及xpath实现Android 系统本地网络小说爬虫软件、网络小说软件+源代码+文档说明+模板

    Android 本地网络小说爬虫,基于 jsoup 与 xpath,通过模版解析网页。 - 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分...

    网络爬虫资源包及使用教程

    Java 程序在解析HTML 文档时,相信大家都接触过...jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

    JAVA网络爬虫

    爬虫的介绍------------02.HttpClient------------03.Jsoup解析------------------------04.爬虫案例------------05.WebMagic------------06.案例实现------------------------07.网页去重------------08.ES回顾 ...

    毕业设计Java网络爬虫(蜘蛛)源码

    - **数据解析**:采用Jsoup、XPath等库解析HTML/XML文档,提取有用信息。 - **持久化存储**:支持将抓取的数据存储到MySQL、MongoDB等数据库,或者保存为本地文件,如CSV、JSON格式。 - **可配置性**:允许用户通过...

    Android代码-JianDou

    &gt; 感谢豆瓣API提供的API接口,部分数据为Jsoup解析HTML获取,原作公司拥有所有权利。本程序仅供测试学习,用于其他用途所造成的纠纷与本人无关。部分图标资源来自网络,如有侵权请联系我删除。 &gt;此程序为本人基于...

    使用Java爬虫Jsoup写的爬取各大小说网站内容。支持多网站小说来源,程序猿划水利器。.zip

    另外,您不会使用资源的话(这种情况不支持退款),也可以找我们帮助(需要追加额外费用) 爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或...

    百度地图开发java源码-Programming-Journey:SomeApplicationhavebeendevelopedby1anc

    加载网络数据,JSoup 解析 Json 数据, Glide 加载图片资源,SQLite 读写本机数据;使用 RecyclerView 加载多种布局,支持下拉刷 新上拉加载;应用支持主题换色、夜间模式、亮度调节。通过此项目掌握了 MVP 设计思想...

    Android代码-韭菜币讯开源App–币多多

    注意:本App资源全部来自网络抓取,数据无版权,不可用于商业用途,只可用于学习 App结构: App包结构: 效果图: 为什么做币多多(Why): 1.掌握的币讯太少,总是错失先机 2.及时有用的币讯,可以让韭菜变得茁壮~ ...

    Java资源包01

    nfs-rpc是一个集成了各种知名通信框架的高性能RPC框架,目前其最好的性能为在采用grizzly作为通信框架,采用pb作为序列化/反序列化时,tps为168k次/秒。 其支持的功能主要为: 1、透明的调用远端服务器提供的功能...

    web-parser-rest:dockerlized Restful API服务器,用于解析来自不同来源的资源

    网络解析器休息 服务器提供宁静的API来解析网站资源。 获取内容的API 我们向服务器添加了全面支持。 启动服务器后,可以从/swagger-ui.html找到API的完整列表。 类型 API 参量 内容 搜索 GET /rest/search/image/...

    基于Java和Python的爬虫项目实战源码.zip

    自己动手写网络爬虫》,并基于Python3和Java实现 为什么采用宽度优先搜索策略? 深度优先遍历可能会在深度上过“深”而陷入“黑洞”; 重要的网页往往距离种子网页比较近,越深的网页的重要性越低; 万维网深度最多...

    基于微服务的车票管理系统源码+项目说明+sql数据库.tar

    + 利用Httpclient调用第三方API,利用FastJSON解析响应 + :star:利用Scheduled开启CompletableFuture任务,利用Jsoup每日定期爬取新闻热搜 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的...

    Java开源的下一代社区平台Symphony.zip

    jsoup:Java HTML 解析器 pegdown:Java Markdown 处理库 Apache Commons:Java 工具库集 Jodd:Java 工具库集 emoji-java:Java Emoji 处理库 User-Agent-Utils:Java User-Agent 解析库 Druid:Java 数据库...

    java开源包2

    nfs-rpc是一个集成了各种知名通信框架的高性能RPC框架,目前其最好的性能为在采用grizzly作为通信框架,采用pb作为序列化/反序列化时,tps为168k次/秒。 其支持的功能主要为: 1、透明的调用远端服务器提供的功能...

    java开源包1

    nfs-rpc是一个集成了各种知名通信框架的高性能RPC框架,目前其最好的性能为在采用grizzly作为通信框架,采用pb作为序列化/反序列化时,tps为168k次/秒。 其支持的功能主要为: 1、透明的调用远端服务器提供的功能...

    java开源包11

    nfs-rpc是一个集成了各种知名通信框架的高性能RPC框架,目前其最好的性能为在采用grizzly作为通信框架,采用pb作为序列化/反序列化时,tps为168k次/秒。 其支持的功能主要为: 1、透明的调用远端服务器提供的功能...

Global site tag (gtag.js) - Google Analytics