电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

Java使用httpRequest+Jsoup爬取紅藍球號碼

瀏覽:120日期:2022-08-09 14:38:03
目錄1、Jsoup介紹1.1、簡介1.2、Jsoup的主要功能2、源網站及頁面元素分析2.1、號碼源2.2、dom元素分析3、代碼實現1、Jsoup介紹1.1、簡介

jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API,可通過DOM,CSS以及類似于jQuery的操作方法來取出和操作數據。

1.2、Jsoup的主要功能

1、從一個URL,文件或字符串中解析HTML2、使用DOM或CSS選擇器來查找、取出數據3、可操作HTML元素、屬性、文本注意:jsoup是基于MIT協議發布的,可放心使用于商業項目。

2、源網站及頁面元素分析2.1、號碼源

首先,這里我選擇近年來比較穩定的數據源地址【某網站】截圖如下

Java使用httpRequest+Jsoup爬取紅藍球號碼

2.2、dom元素分析

2.2.1、開獎號碼主體分析

先打開開發者工具,找到每條開獎號碼對應的dom元素

可以看到每一期號碼信息主體在一個<tr>標簽中,其中第一個<td>是開獎日期,第二個<td>是開獎期號,第三個<td>是開獎號碼,每個獎號是單獨的標簽,紅球的class=rr,籃球沒有設置樣式

<tr> <td align='center'>2021-06-13</td> <td align='center'>2021065</td> <td style='padding-left:10px;'> <em class='rr'>01</em> <em class='rr'>04</em> <em class='rr'>08</em> <em class='rr'>19</em> <em class='rr'>29</em> <em class='rr'>33</em> <em>16</em></td> <td><strong>362,527,724</strong></td> <td style='color:#999;'><strong>3</strong></td> <td align='center'><strong class='rc'>82</strong></td> <td align='center'> <a rel='external nofollow' target='_blank'><img src='http://images.zhcw.com/zhcw2010/kaijiang/zhcw/ssqpd_42.jpg' ></a> <a rel='external nofollow' target='_blank'><img src='http://images.zhcw.com/zhcw2010/kaijiang/zhcw/ssqpd_43.jpg' ></a> </td></tr>

2.2.2、頁碼區域分析

由于我們爬取數據的時候,需要進行翻頁操作,所以這里還需要分析翻頁部分的內容,繼續在開發者工具中,定位頁碼區域

Java使用httpRequest+Jsoup爬取紅藍球號碼

可以看到頁碼部分是<tbody>中的最后一個<tr>中,翻頁操作的內容再class=pg的 <p> 標簽中可以拆分為多個<storage>標簽數組,可以分析得出翻頁鏈接的規律。/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=頁碼或/zhcw/html/ssq/list_頁碼.html

元素 含義 0 總頁數 1 總記錄數 2 第一頁的連接 3 上一頁的鏈接 4 下一頁的鏈接 5 最后一頁的連接 6 當前頁數

<tr> <td colspan='7' style='background:#fdf2e3;'><p class='zhu'></p><p class='pg'> 共<strong>136</strong> 頁 /<strong>2709 </strong>條記錄 <strong><a href='http://www.hdgsjgj.cn/zhcw/inc/ssq/ssq_wqhg.jsp' rel='external nofollow' >首頁</a></strong> <strong><a href='http://www.hdgsjgj.cn/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=1' rel='external nofollow' >上一頁</a></strong> <strong><a href='http://www.hdgsjgj.cn/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=2' rel='external nofollow' >下一頁</a></strong> <strong><a href='http://www.hdgsjgj.cn/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=136' rel='external nofollow' >末頁</a></strong> 當前第<strong> 1 </strong>頁</p> </td> </tr>3、代碼實現

maven引用,這里使用的是Jsoup1.13.1版本

<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.13.1</version> </dependency>

這使用的是基于jeecg開發的Job,搭建過程不贅述了,直接看主體代碼。

public void execute(JobExecutionContext arg0) throws JobExecutionException { Integer maxPage=getMaxPage();//獲取總頁數 for(int pageNo=0;pageNo<maxPage;pageNo++){//循環處理每一頁的數據 String url = 'http://kaijiang.zhcw.com/zhcw/html/ssq/list_'+(pageNo+1)+'.html';//拼訪問地址 String strDateFormat = 'yyyy-MM-dd'; SimpleDateFormat sdf = new SimpleDateFormat(strDateFormat); String html = JwtHttpUtil.httpRequest(url, 'GET',null);//訪問對應的頁面 Document doc = Jsoup.parse(html);//用Jsoup解析頁面內容并且解析為Document Document doc1= Jsoup.parse(doc.getElementsByClass('wqhgt').toString());//wqhgt是table標簽的class,這里獲取到開獎號碼的table的內容并且解析為Document Elements trs= doc1.getElementsByTag('tr');//根據tag獲取到所有的tr標簽,這里獲取到的是一個Element數組 logger.info('當前頁碼---'+(pageNo+1)+'----'+trs.size()); for(int i=2;i<trs.size()-1;i++){//這里是根據頁面內容確定開獎內容是從第三個tr開始到倒數第二個tr結束,最后一個tr是翻頁按鈕 try { Elements tds=trs.get(i).getElementsByTag('td'); String kjrq=tds.get(0).text(); String kjqh=tds.get(1).text(); //這里是為了防止重復拉取,所以做了判斷,如果已存在當前期的獎號,就直接跳過 Long count=lotterySsqKjjlService.getCountForJdbc('select count(*) from lottery_ssq_kjjl where SSQ_KJQH=’'+ kjqh + '’'); //下面的內容很容易理解,就是可以對照頁面分析部分內容看,就不贅述了 if(count>0)break; LotterySsqKjjlEntity kjhmEntiry=new LotterySsqKjjlEntity();Elements kjhm=tds.get(2).getElementsByTag('em'); kjhmEntiry.setSsqKjrq(sdf.parse(kjrq)); kjhmEntiry.setSsqKjqh(kjqh);kjhmEntiry.setSsqR1(Integer.parseInt(kjhm.get(0).text()));kjhmEntiry.setSsqR2(Integer.parseInt(kjhm.get(1).text()));kjhmEntiry.setSsqR3(Integer.parseInt(kjhm.get(2).text()));kjhmEntiry.setSsqR4(Integer.parseInt(kjhm.get(3).text()));kjhmEntiry.setSsqR5(Integer.parseInt(kjhm.get(4).text()));kjhmEntiry.setSsqR6(Integer.parseInt(kjhm.get(5).text()));kjhmEntiry.setSsqB1(Integer.parseInt(kjhm.get(6).text()));lotterySsqKjjlService.save(kjhmEntiry); } catch (ParseException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (Exception e) { // TODO Auto-generated catch block e.printStackTrace(); } } } } private Integer getMaxPage(){ String url = 'http://kaijiang.zhcw.com/zhcw/html/ssq/list.html'; String html = JwtHttpUtil.httpRequest(url, 'GET',null); Document doc = Jsoup.parse(html); Document docPageBar= Jsoup.parse(doc.getElementsByClass('pg').toString()); Elements elePageBar = docPageBar.getElementsByTag('strong'); Integer maxPageNo=Integer.parseInt(elePageBar.get(0).text()); return maxPageNo; }

以下是執行完成的部分數據截圖

Java使用httpRequest+Jsoup爬取紅藍球號碼

拉取到基礎數據后,我們可以再寫一個job,去計算出每期開獎號碼的指標,可以進行獎號分析,預測等。這里簡單實現了部分分析指標的計算,以下是主體代碼。

public void run(){ List<LotterySsqKjjlEntity> list= lotterySsqKjjlService.findByQueryString('from LotterySsqKjjlEntity t'); for(int i=0;i<list.size();i++){ LotterySsqKjjlEntity kjjg=list.get(i); logger.info('正在處理:'+kjjg.getSsqKjqh()); kjjg.setSsqMin(kjjg.getSsqR1());//最小號 kjjg.setSsqMax(kjjg.getSsqR6());//最大號 kjjg.setSsqKd(kjjg.getSsqR6()-kjjg.getSsqR1());//號碼跨度 kjjg.setSsqJsCnt(ssqKjjgUtils(kjjg, 'jsCnt'));//奇數個數 kjjg.setSsqOsCnt(ssqKjjgUtils(kjjg, 'osCnt'));//偶數個數 kjjg.setSsqSum(ssqKjjgUtils(kjjg, 'sum'));//號碼和 lotterySsqKjjlService.updateEntitie(kjjg); } logger.info('結果數據條數'+list.size()); } /** * * @param kjjg * @param opType jsgs=奇數個數 * @return */ private Integer ssqKjjgUtils(LotterySsqKjjlEntity kjjg,String opType){ List<Integer> t =new ArrayList<Integer>(); t.add(kjjg.getSsqR1()); t.add(kjjg.getSsqR2()); t.add(kjjg.getSsqR3()); t.add(kjjg.getSsqR4()); t.add(kjjg.getSsqR5()); t.add(kjjg.getSsqR6()); Integer result=0; switch (opType) { case 'jsCnt': case 'osCnt': int jsgs=0; int osgs=0; for(int i=0;i<t.size();i++){ if(t.get(i)%2==0){ osgs++; }else{ jsgs++; } } if('jsCnt'.equals(opType)){ result=jsgs; }else{ result=osgs; } break; case 'sum': int sum=0; for(int i=0;i<t.size();i++){ sum+=t.get(i); } result=sum; break; default: break; } return result; }

至此,這個簡單的爬蟲就寫完了,可以利用爬過來的這些基礎數據,進行一些數據分析,預測。

到此這篇關于Java使用httpRequest+Jsoup爬取紅藍球號碼的文章就介紹到這了,更多相關Java 爬取紅藍球號碼內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: Java
相關文章:
主站蜘蛛池模板: 西安展台设计搭建_西安活动策划公司_西安会议会场布置_西安展厅设计西安旭阳展览展示 | 2025世界机器人大会_IC China_半导体展_集成电路博览会_智能制造展览网 | 垃圾处理设备_餐厨垃圾处理设备_厨余垃圾处理设备_果蔬垃圾处理设备-深圳市三盛环保科技有限公司 | 电磁铁_小型推拉电磁铁_电磁阀厂家-深圳市宗泰电机有限公司 | 东莞办公家具厂家直销-美鑫【免费3D效果图】全国办公桌/会议桌定制 | 超声波焊接机_超音波熔接机_超声波塑焊机十大品牌_塑料超声波焊接设备厂家 | 软瓷_柔性面砖_软瓷砖_柔性石材_MCM软瓷厂家_湖北博悦佳软瓷 | lcd条形屏-液晶长条屏-户外广告屏-条形智能显示屏-深圳市条形智能电子有限公司 | 外贸网站建设-外贸网站设计制作开发公司-外贸独立站建设【企术】 | 通辽信息港 - 免费发布房产、招聘、求职、二手、商铺等信息 www.tlxxg.net | 厂房出租_厂房出售_产业园区招商_工业地产&nbsp;-&nbsp;中工招商网 | 亮化工程,亮化设计,城市亮化工程,亮化资质合作,长沙亮化照明,杰奥思【官网】 | 生物颗粒燃烧机-生物质燃烧机-热风炉-生物颗粒蒸汽发生器-丽水市久凯能源设备有限公司 | 儿童乐园|游乐场|淘气堡招商加盟|室内儿童游乐园配套设备|生产厂家|开心哈乐儿童乐园 | 超声波焊接机,振动摩擦焊接机,激光塑料焊接机,超声波焊接模具工装-德召尼克(常州)焊接科技有限公司 | 成都装修公司-成都装修设计公司推荐-成都朗煜装饰公司 | 营养师网,营养师考试时间,报名入口—网站首页| 科昊仪器超纯水机系统-可成气相液氮罐-美菱超低温冰箱-西安昊兴生物科技有限公司 | 苹果售后维修点查询,苹果iPhone授权售后维修服务中心 – 修果网 拼装地板,悬浮地板厂家,悬浮式拼装运动地板-石家庄博超地板科技有限公司 | 集装箱标准养护室-集装箱移动式养护室-广州璟业试验仪器有限公司 | 车间除尘设备,VOCs废气处理,工业涂装流水线,伸缩式喷漆房,自动喷砂房,沸石转轮浓缩吸附,机器人喷粉线-山东创杰智慧 | 国际线缆连接网 - 连接器_线缆线束加工行业门户网站 | 铝扣板-铝方通-铝格栅-铝条扣板-铝单板幕墙-佳得利吊顶天花厂家 elisa试剂盒价格-酶联免疫试剂盒-猪elisa试剂盒-上海恒远生物科技有限公司 | 科昊仪器超纯水机系统-可成气相液氮罐-美菱超低温冰箱-西安昊兴生物科技有限公司 | 亚洲工业智能制造领域专业门户网站 - 亚洲自动化与机器人网 | 中式装修设计_室内中式装修_【云臻轩】中式设计机构 | 一体式钢筋扫描仪-楼板测厚仪-裂缝检测仪-泰仕特(北京) | 定量包装秤,吨袋包装称,伸缩溜管,全自动包装秤,码垛机器人,无锡市邦尧机械工程有限公司 | 西门子气候补偿器,锅炉气候补偿器-陕西沃信机电工程有限公司 | 螺旋压榨机-刮泥机-潜水搅拌机-电动泥斗-潜水推流器-南京格林兰环保设备有限公司 | 机房监控|动环监控|动力环境监控系统方案产品定制厂家 - 迈世OMARA | 礼至家居-全屋定制家具_一站式全屋整装_免费量房设计报价 | 真空泵维修保养,普发,阿尔卡特,荏原,卡西亚玛,莱宝,爱德华干式螺杆真空泵维修-东莞比其尔真空机电设备有限公司 | 祝融环境-地源热泵多恒系统高新技术企业,舒适生活环境缔造者! | 微动开关厂家-东莞市德沃电子科技有限公司 | 北京开业庆典策划-年会活动策划公司-舞龙舞狮团大鼓表演-北京盛乾龙狮鼓乐礼仪庆典策划公司 | 厦门ISO认证|厦门ISO9001认证|厦门ISO14001认证|厦门ISO45001认证-艾索咨询专注ISO认证行业 | 油漆辅料厂家_阴阳脚线_艺术漆厂家_内外墙涂料施工_乳胶漆专用防霉腻子粉_轻质粉刷石膏-魔法涂涂 | 植筋胶-粘钢胶-碳纤维布-碳纤维板-环氧砂浆-加固材料生产厂家-上海巧力建筑科技有限公司 | 大行程影像测量仪-探针型影像测量仪-增强型影像测量仪|首丰百科 大通天成企业资质代办_承装修试电力设施许可证_增值电信业务经营许可证_无人机运营合格证_广播电视节目制作许可证 | 学叉车培训|叉车证报名|叉车查询|叉车证怎么考-工程机械培训网 |