Jsoup为一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。
场景如下:
1.获取京东的图书类目
2.以类目id为key,类目名称为value保存到map中
代码如下:
private static Map<String, String> getWareCategory() { Connection conn = Jsoup.connect(JDConstants.CATEGORY_URL_FORMAT).userAgent( JDConstants.MOZILLA_AGENT).timeout(JDConstants.TIME_OUT); Map<String, String> categoryMap = new HashMap<String, String>(); Document document = null; try { Connection.Response response = conn.execute(); int statusCode = response.statusCode(); if (statusCode != JDConstants.HTTP_OK_CODE) { return categoryMap; } document = conn.get(); Elements tmp = document.select("div.left").select("#booksort").first().select( "div.mc ul").first().select("li"); for (int i = 0; i < tmp.size(); i++) { Element e = tmp.get(i); String url = e.select("a").attr("href"); String name = e.select("a").text(); String categoryId = StringUtils.isNotEmpty(url) ? (url.split("-").length == 3 ? url .split("-")[1] : "") : ""; categoryMap.put(categoryId, name); } } catch (Exception e) { LOG.error("getCategory response:" + document); LOG.error("getCategory error:" + e.getMessage()); } LOG.info("***********categoryMap:" + categoryMap); return categoryMap; }
其他常量变量如下:
public abstract class JDConstants { public static final int TIME_OUT = 1000 * 60 * 30; public static final String MOZILLA_AGENT = "Mozilla"; public static final int HTTP_OK_CODE = 200; public static final String CATEGORY_URL_FORMAT = "http://www.360buy.com/products/1713-3269-000.html"; }
评价:
操作非常方便
相关推荐
软件开发设计:PHP、QT、...云计算与大数据:数据集、包括云计算平台、大数据分析、人工智能、机器学习等,云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。
jsoup解析页面元素,根据url获取网络资源pdf并解析pdf里面的内容。
Android 本地网络小说爬虫,基于 jsoup 与 xpath,通过模版解析网页。 - 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分...
Java 程序在解析HTML 文档时,相信大家都接触过...jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
爬虫的介绍------------02.HttpClient------------03.Jsoup解析------------------------04.爬虫案例------------05.WebMagic------------06.案例实现------------------------07.网页去重------------08.ES回顾 ...
- **数据解析**:采用Jsoup、XPath等库解析HTML/XML文档,提取有用信息。 - **持久化存储**:支持将抓取的数据存储到MySQL、MongoDB等数据库,或者保存为本地文件,如CSV、JSON格式。 - **可配置性**:允许用户通过...
> 感谢豆瓣API提供的API接口,部分数据为Jsoup解析HTML获取,原作公司拥有所有权利。本程序仅供测试学习,用于其他用途所造成的纠纷与本人无关。部分图标资源来自网络,如有侵权请联系我删除。 >此程序为本人基于...
另外,您不会使用资源的话(这种情况不支持退款),也可以找我们帮助(需要追加额外费用) 爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或...
加载网络数据,JSoup 解析 Json 数据, Glide 加载图片资源,SQLite 读写本机数据;使用 RecyclerView 加载多种布局,支持下拉刷 新上拉加载;应用支持主题换色、夜间模式、亮度调节。通过此项目掌握了 MVP 设计思想...
注意:本App资源全部来自网络抓取,数据无版权,不可用于商业用途,只可用于学习 App结构: App包结构: 效果图: 为什么做币多多(Why): 1.掌握的币讯太少,总是错失先机 2.及时有用的币讯,可以让韭菜变得茁壮~ ...
nfs-rpc是一个集成了各种知名通信框架的高性能RPC框架,目前其最好的性能为在采用grizzly作为通信框架,采用pb作为序列化/反序列化时,tps为168k次/秒。 其支持的功能主要为: 1、透明的调用远端服务器提供的功能...
网络解析器休息 服务器提供宁静的API来解析网站资源。 获取内容的API 我们向服务器添加了全面支持。 启动服务器后,可以从/swagger-ui.html找到API的完整列表。 类型 API 参量 内容 搜索 GET /rest/search/image/...
自己动手写网络爬虫》,并基于Python3和Java实现 为什么采用宽度优先搜索策略? 深度优先遍历可能会在深度上过“深”而陷入“黑洞”; 重要的网页往往距离种子网页比较近,越深的网页的重要性越低; 万维网深度最多...
+ 利用Httpclient调用第三方API,利用FastJSON解析响应 + :star:利用Scheduled开启CompletableFuture任务,利用Jsoup每日定期爬取新闻热搜 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的...
jsoup:Java HTML 解析器 pegdown:Java Markdown 处理库 Apache Commons:Java 工具库集 Jodd:Java 工具库集 emoji-java:Java Emoji 处理库 User-Agent-Utils:Java User-Agent 解析库 Druid:Java 数据库...
nfs-rpc是一个集成了各种知名通信框架的高性能RPC框架,目前其最好的性能为在采用grizzly作为通信框架,采用pb作为序列化/反序列化时,tps为168k次/秒。 其支持的功能主要为: 1、透明的调用远端服务器提供的功能...
nfs-rpc是一个集成了各种知名通信框架的高性能RPC框架,目前其最好的性能为在采用grizzly作为通信框架,采用pb作为序列化/反序列化时,tps为168k次/秒。 其支持的功能主要为: 1、透明的调用远端服务器提供的功能...
nfs-rpc是一个集成了各种知名通信框架的高性能RPC框架,目前其最好的性能为在采用grizzly作为通信框架,采用pb作为序列化/反序列化时,tps为168k次/秒。 其支持的功能主要为: 1、透明的调用远端服务器提供的功能...