java過濾亂碼字元_在java中使用過濾器編碼過濾亂碼時過濾器的編碼怎麼寫

A. 關於java過濾器解決中文亂碼的

因為你襲遺漏了重要的一步。正確的方法如下：

if(encoding!=null){
//設置request字元編碼
request.setCharacterEncoding(encoding);
//設置response字元編碼
response.setContentType("text/html;charset="+encoding);
response.setCharacterEncoding(encoding);
}
//傳遞給下一個過濾器
chain.doFilter(request,response);

B. 在java中怎樣處理中文亂碼的問題（有幾種處理方式）

讀取文件的時候如果是用的read方法（位元組流），碰到中文輸出就是亂碼，然後存儲的時候設置下編碼為GBK或者是UTF-8形式即可，可以有效的解決亂碼問題。
可以通過BufferedReader 流的形式進行流緩存，之後通過readLine方法獲取到緩存的內容。
BufferedReader bre = null;
try {
String file = "D:/test/test.txt";
bre = new BufferedReader(new FileReader(file));//此時獲取到的bre就是整個文件的緩存流
while ((str = bre.readLine())!= null) // 判斷最後一行不存在，為空結束循環
{
System.out.println(str);//原樣輸出讀到的內容
}；
備註：流用完之後必須close掉，如上面的就應該是：bre.close()，否則bre流會一直存在，直到程序運行結束。
可以通過「FileOutputStream」創建文件實例，之後過「OutputStreamWriter」流的形式進行存儲，舉例：
OutputStreamWriter pw = null;//定義一個流
pw = new OutputStreamWriter(new FileOutputStream(「D:/test.txt」),"GBK");//確認流的輸出文件和編碼格式，此過程創建了「test.txt」實例
pw.write("我是要寫入到記事本文件的內容");//將要寫入文件的內容，可以多次write
pw.close();//關閉流
備註：文件流用完之後必須及時通過close方法關閉，否則會一直處於打開狀態，直至程序停止，增加系統負擔。

C. java爬蟲一段話里的部分字元亂碼解決

1. 網路爬蟲亂碼的原因。
源網頁的編碼與抓取後的編碼轉換不一致。如果源網頁是gbk編碼的位元組流，程序在我們抓取後直接用utf-8編碼輸出到存儲文件，這必然會造成亂碼，即當源網頁編碼與程序抓取後直接處理編碼一致時，就不會出現亂碼，然後統一字元編碼後也就不會出現亂碼。注意區分源網路代碼A，程序B直接使用的代碼，統一轉換字元的代碼C。
2. 是網頁的伺服器端代碼。
B.捕獲的數據原本是位元組數組，由A編碼，只有B=A才能保證不會出現亂碼；否則，當字元集不兼容時，就會出現亂碼字元。這一步常用於測試。
c、統一轉碼是指在獲得網頁的原始編碼A後進行統一編碼，主要是將每個網頁的數據統一成一種編碼，往往首選字元集較大的utf-8。
每個網頁都有自己的代碼，比如gbk，utf-8，iso8859-1，日本jp系統代碼，西歐，俄語等等。爬行時，所有類型的代碼都將被擴展。有的爬蟲只是簡單的識別網頁，然後統一編碼，有的則直接按照utf-8統一處理，不需要判斷源網頁，顯然會造成亂碼。
3. 亂碼的解決方案。
根據原因找到解決辦法很簡單。
1) 確定源網頁的代碼a。
代碼a通常位於網頁的三個位置，即httpheader的內容、網頁的元字元集和網頁標題中的文檔定義。獲取源網頁代碼時，依次判斷這三部分數據，從頭到尾優先順序相同。
理論上這是對的，但是國內有些網站不符合標准。比如寫出來的gbk其實是utf-8，有的寫出來是utf-8，其實是gbk。當然這是幾個網站，但是確實存在。因此，在確定網頁編碼時，應該對這種特殊情況給予特殊處理，如中文檢查、默認編碼等策略。
在另一種情況下，如果以上三種都沒有編碼信息，一般使用第三方的網頁編碼智能識別工具，如cpdetector。原理是通過統計位元組數組的特性來計算實際編碼，有一定的准確率，但是我發現在實踐中准確率還是很有限的。
但是綜合以上三種編碼確認方法後，中文亂碼的問題幾乎可以完全解決。在我的基於nutch1.6的網路爬蟲系統中，經過統計，編碼准確率可以達到99.99%，這也證明了上述方法和策略的可行性。
2) 程序通過代碼b還原源網頁數據。
顯然，這里的B應該等於a，在java中，如果源網頁的位元組數組是source_byte_array，就會轉換成stringstr=newstring(source_byte_array，B)。即這些位元組數組對應的字元被正確編碼顯示在內存中，此時列印結果正常。此步驟通常用於調試或控制台輸出測試。
3) 統一轉碼。
網路爬蟲系統中有很多數據源。如果無法使用數據，它將被轉換為其原始數據，如果這樣做是浪費的。所以一般爬蟲系統要對抓取的結果進行統一編碼，做到一致，使用方便。此時，在(2)的基礎上，可以進行統一的編碼轉換，在java中的實現如下。
源網頁的位元組數組是source_byte_array。
轉換為普通字元串:stringnormal_source_str=newstring(source_byte_array，c)。這時候可以直接用javaapi存儲，但是字元串往往不直接寫。因為一般爬蟲存儲是將多個源網頁存儲在一個文件中，所以要記錄位元組偏移量，所以下一步。再將得到的str轉換為統一的編碼C格式的位元組數組,則byte[] new_byte_array=normal_source_str.getBytes(C)即可，此時即可用java io api將數組寫入文件，並記錄相應的位元組數組偏移量等，待真正使用時，直接io讀取即可。
爬蟲過程不僅會存在亂碼問題，還會存在網站爬取涉及法律、IP受限，爬取行為受限等等問題，這個時候就需要不斷去解決這些問題。

D. java 字元串中亂碼過濾

new String(str.getBytes(),"GBK");
用這方法，把亂碼正確顯示。當然編碼要自己設

E. Java亂碼問題為什麼寫了過濾器都沒有用必須得一個欄位一個欄位的設置資料庫裡面的是iso-8859-1類型的

你資料庫欄位的類型必須是中文類型，比如是UTF-8的

就像，你把一個中文字元存入iso-8859-1的欄位，欄位根本就不支持中文，能不亂碼嗎，所以先要把資料庫的類型改成中文

過濾器的作用是把頁面和後台java程序這個部分的字元轉換，不管資料庫的

如果是後台java已經轉換完了，但是插入資料庫是出現問題，如果是mysql資料庫
jdbc:mysql://211.151.32.151:3306/zipcard?characterEncoding=UTF-8
加上?characterEncoding=UTF-8就可以了

F. 在java中，使用過濾器編碼過濾亂碼時，過濾器的編碼怎麼寫

public void doFilter(ServletRequest srequest, ServletResponse sresponse,
FilterChain chain) throws IOException, ServletException {
if (null != encoding) {
HttpServletRequest request = (HttpServletRequest)srequest;
HttpServletResponse response = (HttpServletResponse)sresponse;

// 對請求進行編碼設置
request.setCharacterEncoding(encoding); //把請求用指定的方法編碼
response.setContentType("text/html");
response.setCharacterEncoding(encoding); //把返回響應指定編碼方式
System.out.println("------------過濾編碼-------------" + encoding);
}
// 把處理許可權交給下一個過濾器
chain.doFilter(srequest, sresponse);
}//這是核心方法
正好項目中有用到

G. Java 亂碼問題怎樣寫一個過濾器文件來處理亂碼問題啊

import java.io.IOException;import javax.servlet.Filter;
import javax.servlet.FilterChain;
import javax.servlet.FilterConfig;
import javax.servlet.ServletException;
import javax.servlet.ServletRequest;
import javax.servlet.ServletResponse;
import javax.servlet.http.HttpServletRequest;public class PageEncodeFilter implements Filter { private FilterConfig fConfig;
private String encode;
public void destroy() {
this.fConfig = null;
this.encode = null;
} public void doFilter(ServletRequest arg0, ServletResponse arg1,
FilterChain fc) throws IOException, ServletException {
HttpServletRequest hsr = (HttpServletRequest)arg0;
hsr.setCharacterEncoding(this.encode);
fc.doFilter(arg0, arg1);
} public void init(FilterConfig fConfig) throws ServletException {
this.fConfig = fConfig;
this.encode = this.fConfig.getInitParameter("encode");
}}然後到web.xml 下配置 <filter>
<filter-name>PageEncodeFilter</filter-name>
<filter-class>com.popedom.util.PageEncodeFilter</filter-class>
<init-param>
<param-name>encode</param-name>
<param-value>gb2312</param-value>
</init-param>
</filter>

<filter-mapping>
<filter-name>PageEncodeFilter</filter-name>
<url-pattern>/*</url-pattern>
</filter-mapping>

H. 淺談如何解決Java/JSP中文亂碼問題

原因主要有兩方面，Java和JSP文件本身編譯時產生的亂碼問題和Java程序於其他媒介交互產生的亂碼問題。首先Java（包括JSP）源文件中很可能包含有中文，而Java和JSP源文件的保存方式是基於位元組流的，如果Java和JSP編譯成class文件過程中，使用的編碼方式與源文件的編碼不一致，就會出現亂碼。基於這種亂碼，建議在Java文件中盡量不要寫中文（注釋部分不參與編譯，寫中文沒關系），如果必須寫的話，盡量手動帶參數－ecoding GBK或－ecoding gb2312編譯；對於JSP，在文件頭加上或基本上就能解決這類亂碼問題。本文要重點討論的是第二類亂碼，即Java程序與其他存儲媒介交互時產生的亂碼。很多存儲媒介，如資料庫，文件，流等的存儲方式都是基於位元組流的，Java程序與這些媒介交互時就會發生字元(char)與位元組(byte)之間的轉換，具體情況如下：從頁面form提交數據到java程序 byte－>char從java程序到頁面顯示 char?>byte從資料庫到java程序 byte?>char從java程序到資料庫 char?>byte從文件到java程序 byte－>char從java程序到文件 char－>byte從流到java程序 byte－>char從java程序到流 char－>byte如果在以上轉換過程中使用的編碼方式與位元組原有的編碼不一致，很可能就會出現亂碼。二、Java/JSP中文亂碼的解決方法前面已經提到了Java程序與其他媒介交互時字元和位元組的轉換過程，如果這些轉換過程中容易產生亂碼。解決這些亂碼問題的關鍵在於確保轉換時使用的編碼方式與位元組原有的編碼方式保持一致，下面分別論述（Java或JSP自身產生的亂碼請參看第一部分）。1、JSP與頁面參數之間的亂碼JSP獲取頁面參數時一般採用系統默認的編碼方式，如果頁面參數的編碼類型和系統默認的編碼類型不一致，很可能就會出現亂碼。解決這類亂碼問題的基本方法是在頁面獲取參數之前，強制指定request獲取參數的編碼方式：request.setCharacterEncoding("GBK")或 request.setCharacterEncoding("gb2312")。如果在JSP將變數輸出到頁面時出現了亂碼，可以通過設置 response.setContentType("text/html;charset=GBK")或 response.setContentType("text/html;charset=gb2312")解決。如果不想在每個文件里都寫這樣兩句話，更簡潔的辦法是使用Servlet規范中的過慮器指定編碼，過濾器的在web.xml中的典型配置和主要代碼如下：web.xml: CharacterEncodingFilter net.vschool.web.CharacterEncodingFilter encodingGBK CharacterEncodingFilter /* CharacterEncodingFilter.java: public class CharacterEncodingFilter implements Filter { protected String encoding = null; public void init(FilterConfig filterConfig) throws ServletException { this.encoding = filterConfig.getInitParameter("encoding"); } public void doFilter(ServletRequest request, ServletResponse response, FilterChain chain) throws IOException, ServletException { request.setCharacterEncoding(encoding); response.setContentType("text/html;charset="+encoding); chain.doFilter(request, response); } } 2、Java與資料庫之間的亂碼大部分資料庫都支持以unicode編碼方式，所以解決Java與資料庫之間的亂碼問題比較明智的方式是直接使用unicode編碼與資料庫交互。很多資料庫驅動自動支持unicode，如Microsoft的SQLServer驅動。其他大部分資料庫驅動，可以在驅動的url參數中指定，如如mm的mysql驅動：jdbc:mysql://localhost /WEBCLDB?useUnicode=true&characterEncoding=GBK。3、Java與文件/流之間的亂碼Java讀寫文件最常用的類是 FileInputStream/FileOutputStream和FileReader/FileWriter。其中FileInputStream 和FileOutputStream是基於位元組流的，常用於讀寫二進制文件。讀寫字元文件建議使用基於字元的FileReader和 FileWriter，省去了位元組與字元之間的轉換。但這兩個類的構造函數默認使用系統的編碼方式，如果文件內容與系統編碼方式不一致，可能會出現亂碼。在這種情況下，建議使用FileReader和FileWriter的父類：InputStreamReader/OutputStreamWriter，它們也是基於字元的，但在構造函數中可以指定編碼類型：InputStreamReader(InputStream in, Charset cs) 和OutputStreamWriter(OutputStream out, Charset cs)。4、其他上面提到的方法應該能解決大部分亂碼問題，如果在其他地方還出現亂碼，可能需要手動修改代碼。解決Java亂碼問題的關鍵在於在位元組與字元的轉換過程中，你必須知道原來位元組或轉換後的位元組的編碼方式，轉換時採用的編碼必須與這個編碼方式保持一致。

I. java中處理中文亂碼所用的方法

過濾器對於用url方式的參數是沒有辦法過濾的

所以在以url（或表單提交方式是get的數據）傳值的時候應該硬性轉碼：
String para =new String(str.getByte("iso-8859-1"),"UTF-8");

J. java 字元串字元串亂碼問題

應該是編碼格式的問題吧
//ISO編碼轉為GBK編碼
public static String ISOtoGBK(String s) {
String str = "";
try {
if (s == null || s == "" || s.equals("")) {
str = s;
} else {
str = new String(s.getBytes("ISO8859-1"),"GBK");
}
} catch (UnsupportedEncodingException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return str;
}

導航:首頁 > 凈水問答 > java過濾亂碼字元

java過濾亂碼字元

與java過濾亂碼字元相關的資料