怎么在Java中利用正则表达式获取网页内容
发表于:2025-12-03 作者:千家信息网编辑
千家信息网最后更新 2025年12月03日,这篇文章将为大家详细讲解有关怎么在Java中利用正则表达式获取网页内容,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。正则表达式,抓取网页并解析HTML
千家信息网最后更新 2025年12月03日怎么在Java中利用正则表达式获取网页内容
这篇文章将为大家详细讲解有关怎么在Java中利用正则表达式获取网页内容,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。
正则表达式,抓取网页并解析HTML部分内容
package com.xiaofeng.picup;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.net.MalformedURLException;import java.net.URL;import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.regex.Matcher;import java.util.regex.Pattern;/** *//**** @抓取页面文章标题及内容(测试) 手动输入网址抓取,可进一步自动抓取整个页面的全部内容**/public class WebContent ...{ /** *//** * 读取一个网页全部内容 */ public String getOneHtml(String htmlurl) throws IOException...{ URL url; String temp; StringBuffer sb = new StringBuffer(); try ...{ url = new URL(htmlurl); BufferedReader in = new BufferedReader(new InputStreamReader(url .openStream(), "utf-8"));// 读取网页全部内容 while ((temp = in.readLine()) != null) ...{ sb.append(temp); } in.close(); }catch(MalformedURLException me)...{ System.out.println("你输入的URL格式有问题!请仔细输入"); me.getMessage(); throw me; }catch (IOException e) ...{ e.printStackTrace(); throw e; } return sb.toString(); } /** *//** * * @param s * @return 获得网页标题 */ public String getTitle(String s) ...{ String regex; String title = ""; List list = new ArrayList(); regex = ".*? "; Pattern pa = Pattern.compile(regex, Pattern.CANON_EQ); Matcher ma = pa.matcher(s); while (ma.find()) ...{ list.add(ma.group()); } for (int i = 0; i < list.size(); i++) ...{ title = title + list.get(i); } return outTag(title); } /** *//** * * @param s * @return 获得链接 */ public List getLink(String s) ...{ String regex; List list = new ArrayList(); regex = "]*href=("([^"]*)"|'([^']*)'|([^s>]*))[^>]*>(.*?)"; Pattern pa = Pattern.compile(regex, Pattern.DOTALL); Matcher ma = pa.matcher(s); while (ma.find()) ...{ list.add(ma.group()); } return list; } /** *//** * * @param s * @return 获得脚本代码 */ public List getScript(String s) ...{ String regex; List list = new ArrayList(); regex = ""; Pattern pa = Pattern.compile(regex, Pattern.DOTALL); Matcher ma = pa.matcher(s); while (ma.find()) ...{ list.add(ma.group()); } return list; } /** *//** * * @param s * @return 获得CSS */ public List getCSS(String s) ...{ String regex; List list = new ArrayList(); regex = ""; Pattern pa = Pattern.compile(regex, Pattern.DOTALL); Matcher ma = pa.matcher(s); while (ma.find()) ...{ list.add(ma.group()); } return list; } /** *//** * * @param s * @return 去掉标记 */ public String outTag(String s) ...{ return s.replaceAll("<.*?>", ""); } 关于怎么在Java中利用正则表达式获取网页内容就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。
内容
网页
正则
表达式
文章
输入
更多
标题
知识
篇文章
页面
不错
代码
手动
标记
格式
网址
脚本
质量
部分
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
建设大数据库安全生产
qt中连接accdb数据库
数据库ctrl c
数据库实现自动循环
如何链接其它表格批量数据库
学校如何维护网络安全
服务器安全诊断服务
我市网络安全宣传周即将
网络安全新发展理念
速达3000数据库配置
dbf怎样修改数据库结构
国家网络安全是什么意思
连接无线网提示网络安全密钥
软件开发需要哪些无形资产
doremi 服务器
常州美涵网络技术有限公司
网络安全工程师编程吗
网络安全及其相关法规的认识
赢征网络技术
软件开发外包公司能去吗
桌面程序数据库集成
网络安全宣传绘画二维码
华为云服务器ip地址在哪里看
重庆汇展网络技术有限公司公章
济南定制软件开发教程
上海东信网络技术有限公司地址
宝塔服务器图片删除
netgear服务器
北极星服务器下载很慢
网络安全法的的规定