过滤html保留br标签java_java 如何过滤html代码

⑴ 用HTMLParser过滤掉html中所有标签,留下标题正文等内容，java

现在的网页，取来title容易，要取到整齐的内源容，就麻烦了。既然是爬虫，又不可能针对每个页面都写一遍。所以，你能解决这问题，是高智商、是值钱的。

<title>和</title>可以认为是标题，用字符串的处理方法即
<content>和</content>不是标准的HTML，不能认为之间的文字就是内容。虽然<body>和</body>是，可之间的内容也太乱了。

⑵ java 如何过滤html代码,只保留中文或英文及基本常用符号

很容易，首先建立一个字符串数组，也就是你需要过滤掉的html标签String[] filterArrays = new String[]{"<html>","</html>","<table>","</table>".....一系列内有关html标签的东西}

当你得到一容个html代码的字符串时你可以循环遍历上面的数组，然后调用String自带的方法replaceAll();
我给你简单的示范一下啊
String str = "dfgdgdfgdgd";//需要过滤的带有HTML标签的代码字符串
for(int i=0;i<filterArrays.length;i++){
if(str.indexOf(filterArrays[i])!=0){
str = str.replaceAll(filterArrays[i],"");//将html标签替换成了空格
}
}

这样就搞定了，主要是你需要在filterArrays中增加你需要过滤的字符串，当然还会有更好的办法，可以不用增加这样的数组，因为出现"<"必然会有">"，或者"/>"这样的标签，但是这样做可能会将一些无关的也过滤掉了，总之两种方法都可以，第一种呢我都给你写了例子！祝你成功啊

⑶ 正则表达式，清除HTML标签，但要保留 <BR>和<IMG>标签，其他的清除

把除了<BR> </BR> <BR/> <IMG> </IMG>的<xxxx>都删除(i表示忽略大小写)：

########### JS ##########
replace(/<(?!\/?BR|\/?IMG)[^<>]*>/ig,'')

########### PERL ##########
s/<(?!\/?BR|\/?IMG)[^<>]*>//ig

疏忽了，有些地方没考虑全，感谢yp2010的提示，以上作了完善，把<IMG XXX> <BR XXX>也保留了。

⑷ 求一个php简单的过滤除<br>,<p>,<style>html标签的正则或方法

针对你这个<a>123</a>的例子的

$a=<<<str
<a>123</a>
str;
$preg ="/<(a)>(.*?)<\/(\1)>/is";
$str = preg_replace($preg, "<a>\\2</a>", $a);
echo $str;

除此之外PHP还有一个过滤标签的函内数你可以看容一下手册

⑸ java正则表达式去除html标签保留指定标签

String reg = "<\\/?html[^>]*>";
String html = "";
html.replaceAll(reg,"");

⑹ java正则表达式过滤html p标签

用JavaScript方法如下，JAVA语言类似：
'你的HTML文本'.replace(/.+>(.+)<.+/,'$1')

⑺ java中如何过滤html的代码

把需要写入数据库的字符通过下面的方法过滤然后内再写入 public static String converthtml(String input) { if (input == null ||容 input.length() == 0) { return input; } StringBuffer buf = new StringBuffer(input.length() + 6); char ch = ' '; for (int i = 0; i < input.length(); i++) { ch = input.charAt(i); if (ch == '&') { buf.append("&"); } else if (ch == '<') { buf.append("<"); } else if (ch == '>') { buf.append(">"); } else if (ch == ' ') { buf.append(""); } else { buf.append(ch); } } return buf.toString(); }

希望采纳

⑻ 在Java截取字符串的时候，如何过滤掉html标签

去除html标签
function
strip_tags($string,
$replace_with_space
=
true)
{
if
($replace_with_space)
{
return
preg_replace('!<[^>]*?>!',
'
',
$string);
}
else
{
return
strip_tags($string);
}
}
截取字符函数（匹配各种编码）
function
truncate($string,
$length
=
80,
$etc
=
'...',
$break_words
=
false,
$middle
=
false){
if
($length
==
0)
return
'';
if
(is_callable('mb_strlen'))
{
if
(mb_detect_encoding($string,
'utf-8,
iso-8859-1')
===
'utf-8')
{
//
$string
has
utf-8
encoding
if
(mb_strlen($string)
>
$length)
{
$length
-=
min($length,
mb_strlen($etc));
if
(!$break_words
&&
!$middle)
{
$string
=
preg_replace('/\s+?(\s+)?$/u',
'',
mb_substr($string,
0,
$length
+
1));
}
if
(!$middle)
{
return
mb_substr($string,
0,
$length)
.
$etc;
}
else
{
return
mb_substr($string,
0,
$length
/
2)
.
$etc
.
mb_substr($string,
-
$length
/
2);
}
}
else
{
return
$string;
}
}
}
//
$string
has
no
utf-8
encoding
if
(strlen($string)
>
$length)
{
$length
-=
min($length,
strlen($etc));
if
(!$break_words
&&
!$middle)
{
$string
=
preg_replace('/\s+?(\s+)?$/',
'',
substr($string,
0,
$length
+
1));
}
if
(!$middle)
{
return
substr($string,
0,
$length)
.
$etc;
}
else
{
return
substr($string,
0,
$length
/
2)
.
$etc
.
substr($string,
-
$length
/
2);
}
}
else
{
return
$string;
}
}
综合就是
$arc=strip_tags($arc);

⑼ java 如何利用正则表达式只保留html里面的<p></p>标签里面的内容

正则表达式：<p.*?>(.*?)</p>
group(1)为正文内容。
输出时加上\n就行了

import java.util.regex.*;
public class Test{
public static void main(String[] args){
String str="<p style=\"font-size:1.3em;font-weight:bold\">No page with that title exists.</p> ";
String regex="<p.*?>(.*?)</p> ";
Pattern p =Pattern.compile(regex);
Matcher m=p.matcher(str);
while(m.find()){
System.out.println(m.group(1));
}
}
}

⑽ java 如何去除html中的一个指定标签和指定标签里的内容

你好，可以用正则表达式。比如想要去除id为test的div标签及其内容：
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Person{
public static void main(String[] args) {
//正则表达专式
Pattern p = Pattern.compile("<div.*id='test'.*</div>");
//测试用的html代码
String str = "<html><body>aa<div id='test'>bb</div></body></html>";
Matcher m = p.matcher(str);
//去除标签属
String result = m.replaceAll("");

System.out.println(result);
}
}

热点内容

三聚氰胺醇酸浸渍漆绝缘快干树脂发布：2025-09-18 18:41:38 浏览：22

威乐士净水机不进水怎么回事发布：2025-09-18 18:14:48 浏览：987

纳滤膜和ro膜滤互换发布：2025-09-18 18:07:27 浏览：977

家用净水机滤瓶漏水怎么回事发布：2025-09-18 18:07:26 浏览：703

反渗透防爆膜装什么位置发布：2025-09-18 18:07:12 浏览：208

污水设计高程是什么发布：2025-09-18 18:02:57 浏览：221

发动机滤芯在什么地方发布：2025-09-18 17:59:34 浏览：473

光敏树脂结构发布：2025-09-18 17:58:04 浏览：805

吉利博越怎么拆空气滤芯发布：2025-09-18 17:50:22 浏览：417

陶氏EDI调试方法发布：2025-09-18 17:50:10 浏览：179

大众嘉旅空调滤芯怎么换视频发布：2025-09-18 17:43:37 浏览：324

a1级防火环氧树脂地坪漆发布：2025-09-18 17:40:32 浏览：891

为什么净水器原水tds值较高发布：2025-09-18 17:38:11 浏览：982

如何降低污水盐分发布：2025-09-18 17:16:39 浏览：126

房子空气净化器大小怎么选发布：2025-09-18 17:16:39 浏览：884

什么滤芯过滤余氯发布：2025-09-18 16:45:54 浏览：394

反渗透膜工作PH 发布：2025-09-18 16:45:10 浏览：894

污水管网编号g什么意思发布：2025-09-18 16:40:38 浏览：689

反渗透膜机械损伤发布：2025-09-18 16:40:37 浏览：976

欲使1000g环氧树脂需要己二胺发布：2025-09-18 16:13:46 浏览：154

导航:首页 > 净水问答 > 过滤html保留br标签java

过滤html保留br标签java

与过滤html保留br标签java相关的资料