emojiunicode过滤_python 怎么过滤 emoji 表情符号

『壹』检测文本中是否有emoji字符以及过滤

<span style="font-family: Arial, Helvetica, sans-serif;">过滤该表情</span>
[java] view plain
public static String filterEmoji(String source) {
if (!containsEmoji(source)) {
return source;// 如果不包含，直接返回
}

StringBuilder buf = null;
int len = source.length();
for (int i = 0; i < len; i++) {
char codePoint = source.charAt(i);
if (!isEmojiCharacter(codePoint)) {
if (buf == null) {
buf = new StringBuilder(source.length());
}
buf.append(codePoint);
} else {
}
}
if (buf == null) {
return "";
} else {
if (buf.length() == len) {// 这里的意义在于尽可能少的toString，因为会重新生成字符串
buf = null;
return source;
} else {
return buf.toString();
}
}
}

[java] view plain
// 判别是否包含Emoji表情
private static boolean containsEmoji(String str) {
int len = str.length();
for (int i = 0; i < len; i++) {
if (isEmojiCharacter(str.charAt(i))) {
return true;
}
}
return false;
}

private static boolean isEmojiCharacter(char codePoint) {
return !((codePoint == 0x0) ||
(codePoint == 0x9) ||
(codePoint == 0xA) ||
(codePoint == 0xD) ||
((codePoint >= 0x20) && (codePoint <= 0xD7FF)) ||
((codePoint >= 0xE000) && (codePoint <= 0xFFFD)) ||
((codePoint >= 0x10000) && (codePoint <= 0x10FFFF)));
}

『贰』 python 怎么过滤 emoji 表情符号

用
string =“你猜猜em[4500]48570em[2250]”
cc = re.findall('[\u4e00-\u9fa5]', string)
cc="你猜猜"
去提取中文或者英文不也可以达到去除表情符号的作用吗版？我用的反权向思维

『叁』如何判别字段中是否包含了emojicon表情以及过滤相关内容

『肆』如何转义emoji表情，让它可以存入utf8的数据库

unicode emoji是4个字节的，存不进里，找到一个转义的库code.iamcal.com/php/emoji/，但是转为Unicode之后，还是4个字节，一样存不进，应该说根本没转。转为其他格式的emoji又怕以后新增了表情不好做，你们在不改数据库编码的前提下，是怎么弄的？
方法1：base_encode64
这种方法是可以，但是旧数据没有经过encode操作，取数据的时候如果统一进行decode的话，旧数据会丢失的。
方法2：urlencode
这个似乎可以，对没有经过encode的数据进行decode也不会有影响，而且多次decode似乎也不会有影响。你们说这个方法有缺陷吗？
=======================
一个发现，微信获取用户基本信息的时候，笑哭那个表情print_r出的是\ud83d\ude02，而我存储的时候，报错说这个 \xF0\x9F\x98\x82 值不能存储，请问这是怎么回事，自动转码了，转成的这是什么？是微信转码过了吗？
=======================
方法3：最后采用了下面采纳的那个方法，因为我觉得它有下面几个优点：
1、那个方法只转换表情，不会转换中文，所以数据还是直接可读的
数据库中存储起来是这样的，后面的\ud83d\udca5可以随意复制粘贴，而显示出来是这样的，
2、不会把表情转换为其它标准，只有一个简单的，固定的转换算法，也就是说不需要一个表情库来对照着转换，所以以后其它人要使用这个数据的时候，也很容易知道每个表情是对应的哪个。就算苹果大爷又增加了表情，也不需要做什么额外的修改。
3、可以无限decode输出的都是正确的内容。因为有的时候可能需要在一次请求中的两个地方做decode，其它decode多次会把正确的数据改成其它数据，这个不会。

『伍』 android怎样过滤字符串中的emoji表情

对于字符串处理,首选就是正则表达式去处理,而在android系统中可以自定义InputFilter去过滤需要处理掉的字符串,代码如下

InputFilter emojiFilter = new InputFilter ( ) {

@Override
public CharSequence filter ( CharSequence source , int start , int end , Spanned dest , int dstart ,

int dend ) {

}
} ;
随后我查阅了 emoji 的wikipedia与 Github ,从中提取出表情的一个大概unicode范围,由于Java可以直接对unicode进行匹配,这样我们可以很省事直接写出Pattern即可,代码如下

InputFilter emojiFilter = new InputFilter ( ) {

Pattern emoji = Pattern . compile (

"[\ud83c\udc00-\ud83c\udfff]|[\ud83d\udc00-\ud83d\udfff]|[\u2600-\u27ff]" ,

Pattern . UNICODE_CASE | Pattern . CASE_INSENSITIVE ) ;

@Override
public CharSequence filter ( CharSequence source , int start , int end , Spanned dest , int dstart ,

int dend ) {

Matcher emojiMatcher = emoji . matcher ( source ) ;

if ( emojiMatcher . find ( ) ) {

return "" ;

}
return null ;

}
} ;
基本上这样就能过滤掉emoji表情了

『陆』如何将4字节utf-8的emoji表情转换为unicode字符编码

1. Unicode是什么
Unicode（中文：万国码、国际码、统一码、单一码）是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码，使得电脑可以用更为简单的方式来呈现和处理文字。
简单说来，就是把世界上所有语言的字，加上所有能找到的符号（如高音谱号、麻将、emoji）用同一套编码表示出来。

2. UTF-8是什么
UTF-8（8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字符编码。可变长度的意思在于，如果能使用1字节编码，UTF-8绝对不会使用2字节去表示。举个例子，UTF-8的1字节部分和ASCII码是相同的。所以表示'A'这个字符的时候，UTF-8与ASCII码不仅编码相同，而且都是只使用1字节。

3. Character Set和Collation是什么
Character Set是一套符号以及编码。Collation是character set的排序方法。在中文版的MySQL中，character set被翻译为“字符集”，collation被翻译为“整理”。
举个例子，UTF-8是character set，utf8_unicode_ci和utf8mb4_unicode_ci就是collation。
Collation的作用主要有二：字符排序与查找字符。
字符排序的作用是显而易见的，不过还是要用几个例子加以说明。比如要比较a和b的大小，因为在26个英文字母里面，a在b前，所以在编码的时候，也把a放在b前面。这样就产生了第一种排序方式，通过字符编码的大小来排序。而在中文里面，“年”和“日”的排序，除了按照字符编码大小，还可以有另外一些标准。比如可以按照笔画序，“年”的第一笔是丿，“日”的第一笔是丨，而丨是排在丿前的，所以就将“日”排在前面；也可以按拼音序，“年”是n开头，“日”是r开头，于是把“年”排在前面。除此以外，还可以定义部首序、笔画数序等等，而不同的排序方法会有不同的结果。英文也有大小写敏感与不敏感的排序方式。种种不同的排序方式，就形成了不同的collations。
Collation的第二个作用则是查找字符是否在一个字符集里面。既然是一个有序的集合，则可以快速地通过一个编码值确定一个字符是否在集合内。这个特性是我们在不知不觉中使用的。比如使用中文输入法，就是通过输入法找到一个编码，通过collation把它查找出来的。

4. Unicode再深入：Plane和中日韩越统一表意文字

utf8_unicode_ci和utf8mb4_unicode_ci这两个collations都是基于UTF-8编码的，但排序方面或多或少会有差别。可是更大的差别是它查找字符的集合。这需要提到一个Unicode的概念：Plane。
4.1. Plane
Plane中文译作“Unicode平面字符映射”，不过我们还是叫它plane好啦。目前的Unicode字符分为17个planes，而每个plane拥有65536（即2^16）个代码点。可以认为一个plane就是一个范围的编码。
Plane 0也叫做BMP（Basic Multilingual Plane，基本多文种平面），存放着世界上各种语言与标记中最常用的字符。
Plane 1也叫做SMP（Supplementary Multilingual Plane，多文种补充平面），放着表情符号（emoji）、字母与数学符号、音乐符号、太玄经（太极符号）、装饰符号、扑克牌、麻将符号、箭头扩展和一些世界上各种语言不太常用的文字等等。

Plane 2也叫做SIP（Supplementary Ideographic Plane，表意文字补充平面），用于存放统一汉字（见4.2）的一些罕用字与汉藏语系其他语言的用字（如粤语用字）。
4.2. 统一汉字的分布
对于统一汉字（中日韩越统一表意文字，CJKV Unified Ideographs）来说，BMP存放着最初的版本（也是最常用字）与扩展A区的汉字。扩展B区到即将到来的扩展E区都放在SIP中。
在这些区中，除了独立字源的字，还有同一个字源或部首不同的变体或写法。比如“户”的第一笔，中国大陆与香港写作“户”，台湾写作“户”，日本则写作“戸”。这些差异也会在Unicode中用三个不同的编码去表示。所以B区到E区有不少此种字体。
举些B区的例子。网络上之前流行的“不会功夫不要艹我”被写成““xx巭嫑莪”，其中“xx”这个字就是在B区。而粤语“x鸡”（阉鸡）、“x完松”（和一个人发生关系后弃之而去）两个词的首字也是在B区。

5. utf8_unicode_ci和utf8mb4_unicode_ci的异同
这两种collations所对应的字符都是UTF-8编码的一个子集。utf8_unicode_ci最多能找到3个字节的Unicode编码，而utf8mb4_unicode_ci则能找到4个字节的编码。由于调整后的UTF-8编码格式规定最多使用4字节（原来是6字节）编码，所以utf8mb4系列可以说是覆盖了整个Unicode编码。
由于utf8_unicode_ci最多能找到3个字节的编码，意味着它只支持BMP中的字符，对于SMP与SIP以及其他头一字节不为0x00、需要4字节编码的planes来说，utf8_unicode_ci这种collation是无法支持。当使用4字节的字符（如emoji与B区以后的统一汉字）对使用此种collation的字段进行增删查改时，数据库会报一个非法字符的异常。而utf8mb4则没有此问题。由此也看出，utf8mb4_unicode_ci是utf8_unicode_ci的超集。

6. utf8mb4_unicode_ci的优缺点
utf8mb4系列的Collation在MySQL 5.5以上开始支持。相比起utf8_unicode_ci，它有如下的特性：
1) 在数据表中，对于BMP中的字符（最多使用3字节的字符，最常用的字符），两种collations具有完全相同的存储特性：相同的码值，相同的编码方式，相同的存储长度。不会增加任何的存储开销。
2) 在数据表中，对于其他plains的字符，utf8系列的collation根本不能存储，而utf8mb4系列的collations则可以存储。
3) 在数据表中，对于变长的字段（如VARCHAR2，TEXT），utf8mb4最大可存储的字符可能少于utf8系列的collation。
4) 在索引中，对于文本类型的字段，utf8mb4可索引的字符少于utf8系列的collations。如InnoDB的索引最多使用767字节。如果使用utf8mb4，每一个字符都会预留4字节做索引，而utf8则预留3字节。故此前者是191个字符，后者是255个字符。
5) 由于4)的原因，加上字符集大，utf8mb4的性能可能比utf8系列的collations低。
6) 若升级前的字段做了索引，需要把索引字符限制在191字符或以内。

7. 当前系统用哪个好
在当前的系统，全部都使用utf8_unicode_ci这种collation。但是在存储网页标题时，标题带有SMP或者SIP的字符，如emoji、粤语字，会引发数据库写入异常。于是，就有两种解决方向：
1) 扔掉。
1.1) 扔掉或截断引发异常的字。采取此种方法，需要对每一个标题进行扫描。
1.2) 扔掉整条记录。可以采取扫描法，或者扔掉引发异常的记录。
2) 升级到utf8mb4。会略为降低数据库性能。

7.1. 性能考虑
首先对于写入性能，查找字体的性能损耗由于在写入前字符都已经变成编码，基本可以忽略。对于网络传输的性能，则需要继续查找相关资料继续查证。但初步估计由于目前数据库在本地，故此这部分开销的增长不太明显。
而对于索引的性能，由于网页标题这一字段没有做索引，在可预见的将来也未有此计划，故此没有性能的损耗，也没有升级兼容性的担心。
况且，倘若走扔掉数据的方向，若采取扫描法，则需要付出扫描的开销。若采取扔掉记录法，则会先触发事务回滚，其他记录需要下次重新写入。而且当一批记录写入时有k个记录引发异常，则需要回滚与重试k次，除非使用扫描法预先扫描出这些异常的记录。但这也会引入额外的程序与数据库开销。若不使用事务，则数据库总体写入性能会大为降低。
虽然没有实测过，但从感觉上来定性判断，似乎扔掉记录比升级collation带来的性能退化要大。

7.2. 存储空间考虑
当前的网页标题是使用VARCHAR2存储。对于现在可用的、常见的BMP字符，不会引入额外的存储开销。BMP字符在VARCHAR的类型下不会为每一字符引入额外33%的空间开销。反之，定长的CHAR就会引入这种额外开销。

7.3. 目标数据考虑
网页标题作为以后特征分析的数据源。在分析需求完全没有确定的情况下，我认为扔掉任何数据都是不宜采取的办法，特别是整条记录扔掉更是不推荐。因为现阶段我们没有一套标准去判定何为有效数据、何为无效数据。有可能引发异常的那部分数据确实是没用的数据，也有可能那部分人群更倾向于在我们平台上活跃使用。既然各种可能性都存在，我们主动放弃一部分可能性，似乎不太恰当。

7.4. API设计与兼容性考虑
由于utf8_unicode_ci与utf8mb4_unicode_ci都是使用UTF-8编码，所以对于JAVA，使用MyBatis生成的代码是一样的，都是使用String类型。这点已经实测过。加上这两种collations在BMP中的编码完全一致，所以使用3字节与4字节的系统，对于BMP中的字符都是完全兼容、正常显示的。而对于3字节的系统，4字节的字符一般会显示成一个方框，或者在一个方框中有几个小数字，不会引发系统异常。

8. 总结
诚然，emoji对分词分析目前来说还没有什么效果，粤语词而且在SIP中也只是其中一部分，也不知道有多少日本动漫或者爱情动作片的网页会遇到这些生僻字，音乐符号也少人用，太极符号也不是每次都出现，一些数学增补的字符与箭头增补图案也不是每个人都会用。这些加起来可能不知够不够全部的千分之一。
但是倘若每一两个小时就会由于字符不能写入，引发数据库的异常。通过上面的分析，我认为增加这种兼容性带来的成本是可以接受的。
故此，我建议使用升级的方法，兼容所有Unicode字符。

『柒』求php过滤ios的Emoji表情的方法，如果字符串中包含Emoji表情就删除。

网上已经有开源的了！http://code.iamcal.com/php/emoji/ 你参考下

iOS 5.0之前，苹果都是采用3个字节来承接 emoji 表情，Java 的普通 char 可以支持显示。但 iOS 5.0 之后，苹果升级了系统自带的 emoji 表情输入法，用的 Unicode 6 标准来统一，是采用4个 bytes 来承接一个 emoji 表情。如果不做处理的话，这种表情直接存储到 mysql5.5 以下的数据库是会报错的。就像这两个表情一样：口口, 在 Windows 8 以下估计都不支持显示，可能会显示成框框，可能压根就是空白，你可以在 Mac 中使用Safari 浏览器中，就可以看到。经过测试，在 Mac 就算用 Chrome 浏览器(Version 25.0.1364.172)也是不行的。
这种数据在 Mysql 5.5 之前，UTF-8 支持1-3个字节的编码，从 Mysql5.5 开始后，可以支持4个字节的 UTF 编码，但要特殊标记。修改 Mysql 相应存储字段为 utf8mb4 。修改语句如下：
1 ALTER TABLE table_name
2 MODIFY COLUMN content varchar(500) CHARACTER
3 SET utf8mb4 COLLATE utf8mb4_unicode_ci
4 DEFAULT NULL COMMENT 'content of message';
在某种业务情景下，我们可以选择过滤掉这种“非法”的字符。我采用的方式是，在字符上面做操作，下面是Java示例代码，核心的代码附上，应该是无法直接下载就能够编译，你得小小的做一些微调，没有额外的依赖：
01 public class EmojiFilter {
02
03 /**
04 * 检测是否有emoji字符
05 * @param source
06 * @return 一旦含有就抛出
07 */
08 public static boolean containsEmoji(String source) {
09 if (StringUtils.isBlank(source)) {
10 return false;
11 }
12
13 int len = source.length();
14
15 for (int i = 0; i < len; i++) {
16 char codePoint = source.charAt(i);
17
18 if (isEmojiCharacter(codePoint)) {
19 //do nothing，判断到了这里表明，确认有表情字符
20 return true;
21 }
22 }
23
24 return false;
25 }
26
27 private static boolean isEmojiCharacter(char codePoint) {
28 return (codePoint == 0x0) ||
29 (codePoint == 0x9) ||
30 (codePoint == 0xA) ||
31 (codePoint == 0xD) ||
32 ((codePoint >= 0x20) && (codePoint <= 0xD7FF)) ||
33 ((codePoint >= 0xE000) && (codePoint <= 0xFFFD)) ||
34 ((codePoint >= 0x10000) && (codePoint <= 0x10FFFF));
35 }
36
37 /**
38 * 过滤emoji 或者其他非文字类型的字符
39 * @param source
40 * @return
41 */
42 public static String filterEmoji(String source) {
43
44 if (!containsEmoji(source)) {
45 return source;//如果不包含，直接返回
46 }
47 //到这里铁定包含
48 StringBuilder buf = null;
49
50 int len = source.length();
51
52 for (int i = 0; i < len; i++) {
53 char codePoint = source.charAt(i);
54
55 if (isEmojiCharacter(codePoint)) {
56 if (buf == null) {
57 buf = new StringBuilder(source.length());
58 }
59
60 buf.append(codePoint);
61 } else {
62 }
63 }
64
65 if (buf == null) {
66 return source;//如果没有找到 emoji表情，则返回源字符串
67 } else {
68 if (buf.length() == len) {//这里的意义在于尽可能少的toString，因为会重新生成字符串
69 buf = null;
70 return source;
71 } else {
72 return buf.toString();
73 }
74 }
75
76 }
77 }
还有优化的空间，但是已经能够满足大多数情况的需求，附上单元测试(JUnit4):
01 public class EmojiFilterTest {
02
03
04 /**
05 * 测试emoji表情
06 */
07 @Test
08 public void fileterEmoji() {
09 String s = "<body>口口213这是一个有各种内容的消息, Hia Hia Hia !!!! xxxx@@@...*)!" +
10 "(@*$&@(&#!)@*)!&$!)@^%@(!&#. 口口口], ";
11 String c = Utils.filterEmoji(s);
12 assertFalse(s.equals(c));
13 String expected = "<body>213这是一个有各种内容的消息, Hia Hia Hia !!!! xxxx@@@...*)" +
14 "!(@*$&@(&#!)@*)!&$!)@^%@(!&#. ], ";
15 assertEquals(expected, c);
16 // assertSame(c, expected);
17 assertSame(expected, "<body>213这是一个有各种内容的消息, Hia Hia Hia !!!! xxxx@@@...*)" +
18 "!(@*$&@(&#!)@*)!&$!)@^%@(!&#. ], ");
19 assertSame(c, Utils.filterEmoji(c));
20 }
21
22 }

『捌』如何处理emoji等4字节的Unicode字符

emoji对分词分析目前来说还没有什么效果，粤语词而且在SIP中也只是其中一部分，也内不知道有多少日本动漫或者爱容情动作片的网页会遇到这些生僻字，音乐符号也少人用，太极符号也不是每次都出现，一些数学增补的字符与箭头增补图案也不是每个人都会用。这些加起来可能不知够不够全部的千分之一。
但是倘若每一两个小时就会由于字符不能写入，引发数据库的异常。通过上面的分析，我认为增加这种兼容性带来的成本是可以接受的。
故此，我建议使用升级的方法，兼容所有Unicode字符。

『玖』怎么判断emoji表情字符

系统的表情都对应一个unicode编码，对应的表用Softbank列。

读到内存中，判断内存中的是不是表情的unicode码，是的话就过滤掉，这应该就行了。

『拾』怎么将emoji符号全部倒出来并且和相应的unicode码对应起来

: utf-8的“emoji表情”估计在Unicode中并不存在,因此是无法转换的,否则直接采用Unicode的图形符号就可以了。

导航:首页 > 净水问答 > emojiunicode过滤

emojiunicode过滤

与emojiunicode过滤相关的资料