文章目录

前言1.引入依赖：2.代码实战：3.代理说明：总结

前言

现在一提到爬虫都是python，类库比较丰富，如果不会java的同学，去学习python爬虫比较靠谱，但是那是不是代表java就不能爬虫呢？肯定不是的，事实上一些场景下，java爬虫使用起来更方便，更好用。

1.引入依赖：

java当中爬虫使用的是jsoup的类库，jsoup提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据，让你请求网页后可以对网页进行dom操作达到爬虫的目的。

 <dependency>            <groupId>org.jsoup</groupId>            <artifactId>jsoup</artifactId>            <version>1.10.3</version>        </dependency>

2.代码实战：

案例一：
爬虫股票的分析结果：

 StockShow stockShow = new StockShow();        String doUrl = String.format("url", stockCode);        Document doc = null;        try {            doc = Jsoup.connect(doUrl).get();            Elements stockName = doc.select("div[class=stockname]");            Elements stockTotal = doc.select("div[class=stocktotal]");            Elements shortStr = doc.select("li[class=short]");            Elements midStr = doc.select("li[class=mid]");            Elements longStr = doc.select("li[class=long]");            Elements stockType = doc.select("div[class=value_bar]").select("span[class=cur]");            stockShow.setStockName(stockName.get(0).text());            stockShow.setStockTotal(stockTotal.get(0).text().split("：")[1]);            stockShow.setShortStr(shortStr.get(0).text().split("：")[1]);            stockShow.setMidStr(midStr.get(0).text().split("：")[1]);            stockShow.setLongStr(longStr.get(0).text().split("：")[1]);            stockShow.setStockType(stockType.get(0).text());        } catch (IOException e) {            log.error("findStockAnalysisByStockCode,{}",e.getMessage());        }

案例2：
抓取学校的信息：

 Campus campus = new Campus();        String doUrl = String.format(url, campusId);        Document doc = null;        if (StringUtils.isEmpty(arg.getIp())){            arg.setIp("transfer.moguproxy.com");            arg.setPort(9001);        }        try {            HttpsUtil.trustEveryone();            Random r = new Random();            int random = r.nextInt(48);            Connection conn = Jsoup.connect(doUrl).proxy(arg.getIp(), arg.getPort());//.timeout(10000)            conn .header("Proxy-Authorization", "Basic "+"V1Vxb2syU29MbUJWTVY2RjpMTHN5TDM0c3ByQlFRM3hw").userAgent(ua[random]).timeout(30000);            doc = conn.get();            Elements names = doc.select("a[class=btn btn-xs btn-primary]");            Elements type = doc.select("a[class=campus_type_fix_b link_now_active]");//            doc.select("ol[class=breadcrumb]").select("li").get(4).text()            Elements campusName = doc.select("ol[class=breadcrumb]").select("li");            Elements addressAndTel = doc.select("div[class=page-header]").select("p");