java過濾a標簽_java正則去除a標簽 <a>啊實打實的請問</a> 把A標簽中的內容替換成空

A. java正則匹配A標簽

publicclassTestSort
{
	publicstaticvoidmain(String[]args)
	{
		Stringreg="\<a\s*href\s*[\=\w"'\s]+\s*class[\=\w"'\s]+\s*title[\=\w"'\s]+\s*target[\=\w"'\s]+\s*\>(正則)\<\s*/\s*a\s*\>(表達式)";
		Stringstr="<ahref="xxxxxx"class="zdbq"title="xxxxx"target="_blank">正則</a>表達式";
		System.out.println(str.toLowerCase().replaceAll(reg,"$1$2"));
	}
}

B. java正則去除a標簽 <a>啊實打實的請問</a> 把A標簽中的內容替換成空。

String str = "<a>啊實打實的請問</a>";
str = str.replaceAll("[\u4e00-\u9fa5]", "");
用[\u4e00-\u9fa5]可以匹配漢字
希望對你有幫助

C. java 怎麼獲取網站中所有的a標簽，以及a標簽裡面的內容

//以下演示針對已經獲取html源碼後進行過濾,把過濾後的地址進行保存!
importjava.io.BufferedReader;
importjava.io.File;
importjava.io.FileInputStream;
importjava.io.FileNotFoundException;
importjava.io.FileOutputStream;
importjava.io.IOException;
importjava.io.InputStreamReader;
importjava.io.PrintWriter;
importjava.io.UnsupportedEncodingException;
importjava.util.regex.Matcher;
importjava.util.regex.Pattern;
publicclassDay02_ReadUrl{
	//http過濾!
	finalstaticStringhttp="(http|ftp|https):\/\/[\w\-_]+(\.["
			+"\w\-_]+)+([\w\-\.,@?^=%&amp;:/~\+#]*[\w\-\@?^=%&amp;/~\+#])?";
	//a標簽過濾!
	finalstaticStringhref="<a\b[^>]+\bhref="([^"]*)"[^>]*>([\s\S]*?)</a>";
	//文件目錄
	staticFiledir=newFile("k:/Test");

	publicstaticvoidmain(String[]args){
		//創建關聯讀取文件
		FilereadFile=newFile(dir,"TestUrl.txt");
		Filehttp=newFile(dir,"http.txt");
		Filehref=newFile(dir,"href.txt");
		//如果文件存在就繼續!
		if(readFile.canExecute()){
			init(readFile,http,href);
		}
	}

	//開始讀取文件!
	privatestaticvoidinit(Filefile,Filehttp,Filehref){
		BufferedReaderbr=null;
		finalPrintWriterp1,p2;
		try{
			br=newBufferedReader(newInputStreamReader(newFileInputStream(file),"GBK"));
			p1=newPrintWriter(newFileOutputStream(http,false),true);
			p2=newPrintWriter(newFileOutputStream(href,false),true);
			for(Stringstr=br.readLine();str!=null;str=br.readLine()){
				getHttp(str,p1);
				getHref(str,p2);
			}
		}catch(UnsupportedEncodingExceptione){
			e.printStackTrace();
		}catch(FileNotFoundExceptione){
			e.printStackTrace();
		}catch(IOExceptione){
			e.printStackTrace();
		}finally{
			if(br!=null){
				try{
					br.close();
				}catch(IOExceptione){
					e.printStackTrace();
				}
			}
		}
	}
	//獲取所有鏈接!
	privatestaticvoidgetHttp(Stringstr,PrintWriterpw){
		finalMatcherm=Pattern.compile(http).matcher(str);
		while(m.find()){
			pw.println(m.group());
		}
	}
	//獲取所有A標簽
	privatestaticvoidgetHref(Stringstr,PrintWriterpw){
		finalMatcherm=Pattern.compile(href).matcher(str);
		while(m.find()){
			pw.println(m.group());
		}
	}
}

D. 我在javaweb中做了一個郵件驗證的功能，收到的郵件中的超鏈接不能點，好像把A標簽給我過濾掉了。

163的能點前一陣剛驗證過沒問題的看看你的代碼吧

E. java中filter怎麼獲取a標簽請求的路徑

當我們訪問index.jsp/時，其實並不是我們瀏覽器真正訪問到了伺服器上的index.jsp 文件，而是先由代理伺服器去訪問index.jsp。
代理伺服器再將訪問到的結果返回給我們的瀏覽器，因為是代理伺服器去訪問index.jsp的。
所以index.jsp中通過 request.getRemoteAddr（）的方法獲取的IP實際上是代理伺服器的地址，並不是客戶端的IP地址。
於是可得出獲得客戶端真實IP地址的方法：
public class Myfilter implements Filter {
public void destroy() {
}
private HttpServletRequest request;
private HttpServletResponse response;
public void doFilter(ServletRequest arg0, ServletResponse arg1, FilterChain arg2) throws IOException, ServletException {
request = (HttpServletRequest) arg0;
response = (HttpServletResponse) arg1;
System.out.println(request.getRequestURI());
System.out.println("===ff===="+request.getQueryString());
if("1".equals(request.getRequestURI().substring(("/"+request.getContextPath()).length()))){
request.getRequestDispatcher("/my.jsp").forward(request, response);
return;
}
arg2.doFilter(request, arg1);
}
public void init(FilterConfig arg0) throws ServletException {
}
}

F. java處理html標簽問題：如何去除html標簽中的<a>標記如題謝謝了

String reg = "(?<=http\\://[a-zA-Z0-9]{0,100}[.]{0,1})[^.\\s]*?\\.(com|cn|net|org|biz|info|cc|tv)"; Pattern p = Pattern.compile(reg, Pattern.CASE_INSENSITIVE); Matcher m = p.matcher(strHomePage); boolean blnp = m.find(); if (blnp == true) { return m.group(0); }

G. 求java正則，效果是刪除html里herf不等於abcd開頭的<a>標簽

html.replaceall("<a href=\"(?!abcd)[^\"]*\"[^>]*>(.*?)</a>","$1")

H. java 正則表達式提取<a></a>標簽中的鏈接實現pdf文件下載


importjava.io.ByteArrayOutputStream;
importjava.io.File;
importjava.io.FileOutputStream;
importjava.io.InputStream;
importjava.net.HttpURLConnection;
importjava.net.URL;
importjava.util.Scanner;

importorg.htmlparser.Node;
importorg.htmlparser.NodeFilter;
importorg.htmlparser.Parser;
importorg.htmlparser.filters.NodeClassFilter;
importorg.htmlparser.tags.LinkTag;
importorg.htmlparser.util.NodeList;

publicclassCrawler{

	publicstaticvoidmain(String[]args)throwsException{
		//需要掃描下載的網頁
		//"
]
		System.out.println("請輸入您需要下載的網頁:");
		Scannersc=newScanner(System.in);
		Stringhtml=sc.next();
		System.out.println("Downloading!pleasewait...(文件默認下載到D盤PDFDownload文件夾下，運行後該文件夾下沒有文件，請聯系作者!Q：133396743)");
		Parserparser=newParser(html);
		parser.setEncoding("UTF-8");
		//過濾<a>標簽
		NodeFilteraNodeFilter=newNodeClassFilter(LinkTag.class);

		//使用parser根據filter來取得所有符合條件的節點
		NodeListnodeList=parser.extractAllNodesThatMatch(aNodeFilter);
		
		String[]url=newString[nodeList.size()];
		intindex=0;
		//4、對取得的Node進行處理
		for(inti=0;i<nodeList.size();i++){
			
			Nodenode=nodeList.elementAt(i);
			StringlinkURL="";
			//如果鏈接類型為<a/>
			if(nodeinstanceofLinkTag){
				LinkTaglink=(LinkTag)node;
				linkURL=link.getLink();
				if(linkURL.length()>4){
				if(".pdf".equals(linkURL.substring(linkURL.length()-4,linkURL.length()))){
					StringfileName=linkURL.substring(linkURL.lastIndexOf("/"),linkURL.length());
					URLpdfUrl=newURL(linkURL);
			HttpURLConnectionconn=(HttpURLConnection)pdfUrl.openConnection();
			//設置超時間為3秒
			conn.setConnectTimeout(3*1000);
			//防止屏蔽程序抓取而返回403錯誤
			conn.setRequestProperty("User-Agent","Mozilla/4.0(compatible;MSIE5.0;WindowsNT;DigExt)");
			
			//得到輸入流
			InputStreaminputStream=conn.getInputStream();
			//獲取自己數組
			byte[]getData=readInputStream(inputStream);
			
			//文件保存位置
			FilesaveDir=newFile("d:\PDFDownload");
			if(!saveDir.exists()){
			saveDir.mkdir();
			}
			Filefile=newFile(saveDir+File.separator+fileName);
			FileOutputStreamfos=newFileOutputStream(file);
			fos.write(getData);
			if(fos!=null){
			fos.close();
			}
			if(inputStream!=null){
			inputStream.close();
			}
				}
				}
			}

		}
		
		
		
		System.out.println("info:["+html+"]downloadsuccess");
		
	}
	publicstaticbyte[]readInputStream(InputStreaminputStream)throwsException{
	byte[]buffer=newbyte[1024];
	intlen=0;
	ByteArrayOutputStreambos=newByteArrayOutputStream();
	while((len=inputStream.read(buffer))!=-1){
	bos.write(buffer,0,len);
	}
	bos.close();
	returnbos.toByteArray();
	}
}

編譯的時候需要在工程中添加 htmlparser.jar

這代碼有什麼問題你可以繼續追問。可以加我Q 幺三個三酒六七四三

導航:首頁 > 凈水問答 > java過濾a標簽

java過濾a標簽

與java過濾a標簽相關的資料