Emoji表情

转载请声明出处哦~，本篇文章发布于 fushengwushi 的博客：https://www.fushengwushi.com/archives/1131

Emoji表情 – 是开发中常遇到的一个难点，无论是存储还是识别，都有一定的难度，下面来具体介绍一下：

一、含义

Emoji表情

emoji 是可以插入文字的图形符号，是日语词“絵文字”（“えもじ”）的音译。

Emoji 在上个世纪90年代，由日本电信商引入服务，最早用于在短消息之中插入表情。2007年，苹果公司的 iPhone 支持了 Emoji，导致它在全世界范围的流行。目前全球约有90%的在线用户频繁使用emoji，每天有60亿个emoji表情符号被传送。

二、标准化

2010年10月发布的Unicode 6.0版首次收录emoji编码，从此，Emoji表情就是一个文字，不过会被渲染成图形而已。

Emoji 的国际标准在 2015 年出台，截止目前(2020-07)，已经是v13.0版本了。

三、渲染实现

Unicode 只是规定了 Emoji 的码点和含义，但具体的实现与展示则依赖于其展示的系统，如果系统无法识别该Emoji表情，则无法正常显示。

同时，不同的系统，展示的方式同样有区别，同一个Emoji表情，在不同的系统上的展示可能不同。

Emoji表情

四、表情存储

Emoji表情的mysql存储一直是开发中常遇到的情景，一般而言，常规的方案是采用utf8mb4编码方式进行存储。

如果业务上更改utf8mb4存储成本过大的话，也可以通过json_encode转为unicode编码，或者用varbinary类型进行储存。

五、表情的识别

emoji表情与其他字符的区分一直是个难点，如果想要知道一个字符串中有多少个Emoji表情，或者去除字符串中的Emoji表情等，都需要对Emoji表情进行识别。

一般而言，Emoji表情的识别有两种方案。

方案一：字节数

可以通过字节数来进行，毕竟大部分Emoji表情的字节数为4，可以跟其他字符区分开，如下

// 提取所含emoji表情字符数

func GetEmojiNum(text string) int {

num := 0

for _, value := range text {

_, size := utf8.DecodeRuneInString(string(value))

if size > 3 {

num++

}

return num

}

如果要求不是非常精确的话，这种方法完全可以满足我们的需求，但肯定会有一部分Emoji表情会被遗漏，因为很多Emoji表情的字节数并不是4。

方案二：编码范围匹配

如果想要精确的匹配出Emoji表情，就需要拿到所有Emoji表情的编码范围，然后通过正则进行匹配。

regex := "[\U0001f004]|[\U0001f0cf]|[\U0001f170-\U0001f171]|[\U0001f17e-\U0001f17f]|[\U0001f17f]|[\U0001f18e]|[\U0001f191-\U0001f19a]|[\U0001f201-\U0001f202]|[\U0001f21a]|[\U0001f22f]|[\U0001f232-\U0001f23a]|[\U0001f250-\U0001f251]|[\U0001f300-\U0001f321]|[\U0001f324-\U0001f393]|[\U0001f396-\U0001f397]|[\U0001f399]|[\U0001f39a-\U0001f39b]|[\U0001f39e-\U0001f3f0]|[\U0001f3f3-\U0001f3f5]|[\U0001f3f7-\U0001f4fd]|[\U0001f4ff-\U0001f53d]|[\U0001f549-\U0001f54e]|[\U0001f550-\U0001f567]|[\U0001f56f-\U0001f570]|[\U0001f573-\U0001f57a]|[\U0001f587]|[\U0001f58a-\U0001f58d]|[\U0001f590]|[\U0001f595-\U0001f596]|[\U0001f5a4-\U0001f5a5]|[\U0001f5a8]|[\U0001f5b1-\U0001f5b2]|[\U0001f5bc]|[\U0001f5c2-\U0001f5c4]|[\U0001f5d1-\U0001f5d3]|[\U0001f5dc-\U0001f5de]|[\U0001f5e1]|[\U0001f5e3]|[\U0001f5e8]|[\U0001f5ef]|[\U0001f5f3]|[\U0001f5fa-\U0001f64f]|[\U0001f680-\U0001f6c5]|[\U0001f6cb-\U0001f6d2]|[\U0001f6d5-\U0001f6d7]|[\U0001f6e0-\U0001f6e5]|[\U0001f6e9]|[\U0001f6eb-\U0001f6ec]|[\U0001f6f0]|[\U0001f6f3-\U0001f6fc]|[\U0001f7e0-\U0001f93a]|[\U0001f93c-\U0001f945]|[\U0001f947-\U0001f978]|[\U0001f97a-\U0001f9cb]|[\U0001f9cd-\U0001fa74]|[\U0001fa78-\U0001fa86]|[\U0001fa90-\U0001faa8]|[\U0001fab0-\U0001fab6]|[\U0001fac0-\U0001fac2]|[\U0001fad0-\U0001fad6]|[\u00a9]|[\u00ae]||[\u203c]|[\u2049]|[\u2122]|[\u2139]|[\u2194-\u2199]|[\u21a9-\u21aa]|[\u231a-\u231b]|[\u2328]|[\u23cf]|[\u23e9]|[\u23ea-\u23f3]|[\u23f8-\u23fa]|[\u24c2]|[\u25aa-\u25ab]|[\u25b6]|[\u25c0]|[\u25fb-\u25fe]|[\u2600-\u2604]|[\u260e]|[\u2611]|[\u2614-\u2615]|[\u2618]|[\u261d]|[\u2620]|[\u2622-\u2623]|[\u2626]|[\u262a]|[\u262e-\u262f]|[\u2638-\u263a]|[\u2640]|[\u2642]|[\u2648-\u2653]|[\u265f-\u2660]|[\u2663]|[\u2665-\u2666]|[\u2668]|[\u267b]|[\u267e-\u267f]|[\u2692-\u2697]|[\u2699]|[\u269b-\u269c]|[\u26a0-\u26a1]|[\u26a7]|[\u26aa-\u26ab]|[\u26b0-\u26b1]|[\u26bd-\u26be]|[\u26c4-\u26c5]|[\u26c8]|[\u26ce-\u26cf]|[\u26d1]|[\u26d3-\u26d4]|[\u26e9-\u26ea]|[\u26f0-\u26f5]|[\u26f7-\u26fa]|[\u26fd]|[\u2702]|[\u2705]|[\u2708-\u270d]|[\u270f]|[\u2712]|[\u2714]|[\u2716]|[\u271d]|[\u2721]|[\u2728]|[\u2733-\u2734]|[\u2744]|[\u2747]|[\u274c]|[\u274e]|[\u2753-\u2755]|[\u2757]|[\u2763-\u2764]|[\u2795-\u2797]|[\u27a1]|[\u27b0]|[\u27bf]|[\u2934-\u2935]|[\u2b05-\u2b07]|[\u2b1b-\u2b1c]|[\u2b50]|[\u2b55]|[\u3030]|[\u303d]|[\u3297]|[\u3299]"

rCharacter := regexp.MustCompile(regex)

num := len(rCharacter.FindAllStringSubmatch(text,-1))

上面我们拿到了所有的Emoji表情，但实际的业务场景中，我们所认知的Emoji表情应该是所有的图形符号，而有些图形符号并不属于Emoji表情的范围，所以我们需要再加上这些图形符号的编码范围。

杂项符号及图形768个字符中有637是emoji；增补符号及图形82个字符中有80个是emoji；所有80个表情符号都是emoji；交通及地图符号103个字符中有92个是emoji；杂项符号256个字符中有80个是emoji；装饰符号192个字符中有33个是emoji。

下面是结合后的正则匹配:

// 提取所含emoji表情字符数

func GetEmojiNum(text string) int {

regex := "[\U0001f004]|[\U0001f0cf]|[\U0001f170-\U0001f171]|[\U0001f17e-\U0001f17f]|[\U0001f17f]|[\U0001f18e]|[\U0001f191-\U0001f19a]|[\U0001f1e6-\U0001f1ff]{1,2}|[\U0001f201-\U0001f202]|[\U0001f21a]|[\U0001f22f]|[\U0001f232-\U0001f23a]|[\U0001f250-\U0001f251]|[\U0001f300-\U0001f64f]|[\U0001f680-\U0001f6ff]|[\U0001f7e0-\U0001fa74]|[\U0001fa78-\U0001fa86]|[\U0001fa90-\U0001faa8]|[\U0001fab0-\U0001fab6]|[\U0001fac0-\U0001fac2]|[\U0001fad0-\U0001fad6]|[\u00a9]|[\u00ae]|[\u203c]|[\u2049]|[\u2122]|[\u2139]|[\u2194-\u2199]|[\u21a9-\u21aa]|[\u231a-\u231b]|[\u2328]|[\u23cf]|[\u23e9]|[\u23ea-\u23f3]|[\u23f8-\u23fa]|[\u24c2]|[\u25aa-\u25ab]|[\u25b6]|[\u25c0]|[\u25fb-\u25fe]|[\u2600-\u26ff]|[\u2700-\u27bf]|[\u2934-\u2935]|[\u2b05-\u2b07]|[\u2b1b-\u2b1c]|[\u2b50]|[\u2b55]|[\u3030]|[\u303d]|[\u3297]|[\u3299]"

rCharacter := regexp.MustCompile(regex)

return len(rCharacter.FindAllStringSubmatch(text,-1))

}

当然，这种做法还是存在一定误差的，因为一些Emoji表情实际是由多个编码组合而成的，所以会出现，一个Emoji表情，但是别出来的表情数>1，但相对而言，精确度比之字节比较不在一个等级。

而且这种方法仅是在这种获取Emoji表情数，或者替换/提取Emoji表情等需要明确每一个Emoji表情的情景会出现上述不准确情况，如果你的业务需求仅仅是判断字符串中是否包含Emoji表情，上述方案则是完全没问题的。

六、参考链接

Full Emoji List

WikiEmoji

Emoji表情

一、含义

二、标准化

三、渲染实现

四、表情存储

五、表情的识别

六、参考链接

继续阅读

OpenDaylight你不可不知的十大问题——OpenDaylight是什么？

Cisco HDLC

给一个新手程序员的建议

如何拥有技术领导力

Pdfjs-dist 填坑日记第一版

如何生成android端可用so

[题记]三维形体的表面积-leetcode

IIS6.0架构1. 概述2. HTTP.SYS3. W3SVC

chatgpt写小红书爆款终极方案。如何在一天内写出一万篇小红书笔记，而且每篇都能上热门？如果你还停留在告诉GPT风格、

IO端口和IO内存的区别转Linux系统对IO端口和IO内存的管理

【算法提高班】贪婪策略

比较低功率无线技术(第3部分)---凯利讯半导体

MFC类

Java Spring 框架

多线程获取随机数性能对比（C vs C++）

实训成果