采用Jsoup解析网络资源

小网客

浏览: 1218561 次
性别:
来自: 北京

最近访客更多访客>>

aoyouzi

jis117

emaiqi

duguyixiaono1

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Java
Spider

Jsoup为一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。

场景如下：

1.获取京东的图书类目

2.以类目id为key，类目名称为value保存到map中

代码如下：

private static Map<String, String> getWareCategory() {
		Connection conn = Jsoup.connect(JDConstants.CATEGORY_URL_FORMAT).userAgent(
		        JDConstants.MOZILLA_AGENT).timeout(JDConstants.TIME_OUT);
		Map<String, String> categoryMap = new HashMap<String, String>();
		Document document = null;
		try {
			Connection.Response response = conn.execute();
			int statusCode = response.statusCode();
			if (statusCode != JDConstants.HTTP_OK_CODE) {
				return categoryMap;
			}
			document = conn.get();
			Elements tmp = document.select("div.left").select("#booksort").first().select(
			        "div.mc ul").first().select("li");
			for (int i = 0; i < tmp.size(); i++) {
				Element e = tmp.get(i);
				String url = e.select("a").attr("href");
				String name = e.select("a").text();
				String categoryId = StringUtils.isNotEmpty(url) ? (url.split("-").length == 3 ? url
				        .split("-")[1] : "") : "";
				categoryMap.put(categoryId, name);
			}
		} catch (Exception e) {
			LOG.error("getCategory response:" + document);
			LOG.error("getCategory error:" + e.getMessage());
		}
		LOG.info("***********categoryMap:" + categoryMap);
		return categoryMap;
	}

其他常量变量如下：

public abstract class JDConstants {
	public static final int TIME_OUT = 1000 * 60 * 30;
	public static final String MOZILLA_AGENT = "Mozilla";
	public static final int HTTP_OK_CODE = 200;
	public static final String CATEGORY_URL_FORMAT = "http://www.360buy.com/products/1713-3269-000.html";
}

评价：

操作非常方便

分享到：

普通web工程加入Spring任务的支持 | 对DateFormat的操作之joda-time

2013-02-17 14:33
浏览 1374
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

采用Jsoup解析网络资源

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

采用Jsoup解析网络资源

评论

发表评论

相关推荐

Java中的非对称加密算法RSA实现

apache common包的configuration2使用

Java标准库提取URL的域名

Solr之Solrj封装

Solr之IKAnalyzer集成

linux之jdk安装

使用jsoup或者httpclient解析https协议通用方法

javax.mail发email报501 Syntax: HELO hostname

Gson之map解析

jsoup之文本过滤

Java之浮点运算

Java之IO字节流和字符流

apache common之CSV文件操作

poi组件读取xls文件

java检测文本(字节流)的编码方式

fastjson报can not access a member of class with modifiers ""错误

Java HotSpot(TM) 64-Bit Server VM warning: Insufficient space for shared memory

Java以行读写文件

Map之Value排序实现

Java之UncaughtExceptionHandler

最近访客更多访客>>