乱码怎么恢复正常(表格乱码怎么恢复正常)

相信大家在日常生活中,都见过类似下面的这些类似的字符串:

乱码怎么恢复正常(表格乱码怎么恢复正常)

上面这种,看起来不明所以的内容,通常被称作乱码。那么乱码是如何产生的,并且如何修复呢?我们接下来就一步步对此进行解释

编码规则

字符串,本质上都是一个字节一个字节的数据,连在一起存储的。而要将这些数据显示在屏幕上,则需要按一种编码规则进行解析。

ASCII

ASCII编码是最容易理解的。ASCII编码因为每个字符仅占用7bit,所以最多只能存储127个字符,而每个字符都有唯一的一个数字与其对应。

例如:

数字0x35在这种编码规则下,会被解析为字符5

数字0x6C在这种编码规则下,会被解析为字符l

数字0x4C在这种编码规则下,会被解析为字符L

具体对应规则,可以在网上搜索ASCII 码表查看

按照这种规则,一串hello,用16进制数据表示就是68 65 6C 6C 6F

GB2312

因为ASCII只能显示127个字符,远远不能满足中文字符的显示需求,所以中国国家标准总局于1980年发布了国家标准代码 GB 2312 标准(目前最新标准为 GB 18030)

简单来说,在这套编码规范下,每个中文字符可以由2个字节表示,例如:

啊的实际数据为0xB0 0xA1

测的实际数据为0xB2 0xE2

试的实际数据为0xCA 0xD4

同时,因为ASCII编码下每字节使用了7bit(0x00-0x7f),GB2312为了对其进行兼容,规定每个中文字符的高位字节(第一个字节)使用0xA1–0xF7的范围,避开了ASCII编码使用的区域。

也就是说,想下面的一串混用了中英文的数据,也可以正常被解析并显示出来:

乱码怎么恢复正常(表格乱码怎么恢复正常)

UTF-8

UTF-8可以使用1-4字节来表示字符,因为其兼容性强,可以对Unicode字符集中的所有有效编码点进行编码,是目前使用最广泛的编码标准。

与GB2312一样,UTF-8同样兼容ASCII编码。只是UTF-8比GB2312包含了更多字符,并且每种字符的字节数并不是完全固定的。由于编码规则比较复杂,这里不作具体解释,只会举例说明:

啊的实际数据为0xE5 0x95 0x8A

测的实际数据为0xE6 0xB5 0x8B

试的实际数据为0xE8 0xAF 0x95

其他编码

除了GB2312、UTF-8和ASCII编码,还有许多编码标准,他们大部分互不兼容。

存储和传输字符串数据

数据都是要进行存储和传输的

存储

微软使用BOM 头这种技术来为纯文本文件标记其编码,这样打开文件时就可以用正确的编码进行解析。

而大部分Linux不使用类似技术,所以读取后只能靠猜测,或强行指定,来进行显示。

传输

传输不仅指字符串数据在互联网上的传输,也包括了在各类函数调用过程中的传输。这类操作通常都不会带有字符编码标准的标记,一般靠直接指定编码来解决。

产生乱码

聪明的你应该已经想到了,如果一串某编码的数据,被人使用另一种编码标准进行解析,那么得出的结果几乎一定是错误的。

比如测试解析结果这几个字,我们使用UTF-8编码,得到下面16进制数据:

乱码怎么恢复正常(表格乱码怎么恢复正常)

如果,收到这些数据的人尝试使用GB2312编码来显示,那么结果就是我们非常熟悉的乱码了:

乱码怎么恢复正常(表格乱码怎么恢复正常)

上面的过程就是典型的乱码形成过程

修复乱码

乱码是否可以还原?答案是肯定的,只需要按乱码形成时的操作反过来做一遍就可以恢复了。但是有些编码中会出现?这种无法解析显示的数据,这部分数据就完全丢失了。

一般的乱码修复操作,就是把各种编码可能性都试一遍,看哪个结果可靠,那么就是原始内容。

这里推荐使用开源的工具 llcom (llcom.papapoi.com),来进行乱码恢复工作

我们用上一节生成的乱码数据作为例子,尝试修复:

乱码怎么恢复正常(表格乱码怎么恢复正常)

可以看到可靠的结果已经显示出来,修复成功

避免乱码

建议在写代码时统一使用UTF-8编码,这是目前互联网的最主要的编码形式

如果是资源占用紧张,但依旧需要中文显示的地方,可以考虑使用GB2312编码存储数据

免责声明: 文章源于会员发布,不作为任何投资建议

如有侵权请联系我们删除,本文链接:https://www.sws100.com/kexue/421228.html

(0)
鸟叔鸟叔
上一篇 2023年 5月 12日
下一篇 2023年 5月 12日

相关推荐

  • 国债暴跌的原因(国债上涨的原因)

    9月28日上周三,英国央行突然宣布“无限量”临时购买长期国债,打响了主要央行掀起加息潮以来凭借购债救市的第一枪。 当地时间10月6日本周四披露的信函显示,英国央行副行长Jon Cunliffe回应了英国议会财政委员会主席Mel Stride提出的疑问,即央行为何采取“超乎寻常”的干预行动、干预可能对货币政策有何潜在影响。 英国政府此前声称,最近国内市场动荡部…

    科学知识 2022年 10月 15日
  • 借十法和破十法的区别(借十法和破十法搞混了)

    #家长百问百答#家有6岁大班宝宝,正在进行各种启蒙学习。 语文启蒙和英语启蒙不用担心,我本身是学汉语言文学的,英语也还行,教小孩可以凑合。数学启蒙就有点懵了,虽然我自己数学不好,但小学也是没有问题的,为啥觉得现在的数学这么难呢,简直不知从何教起。 印象中我以前学数学就是手指算加减,和列竖式那样的,感觉都很简单呀,比如6+7,8+4这种,直接背下来不就得了,一…

    2023年 5月 17日
  • 淘宝网投诉电话(淘宝 投诉 电话)

      大家好,这里是纪白品牌管控。为了维护市场秩序和品牌方的权益,淘宝近些年来对假货的打击非常严厉,比如其推出的“三振出局”制度就起到了极大的威慑作用。但在巨大的利益诱惑面前,部分淘宝卖家还是铤而走险销售假货。那么当品牌方和代理商们发现此类行为时,该去哪里投诉举报假货店铺卖家呢?本文分享了3个投诉假货卖家的要点,希望能对大家有所帮助。   一、淘宝投诉举报假货…

    2022年 8月 13日
  • 万宝路双爆珠价格多少一包(双爆珠万宝路多少钱一条)

    一位90后的吸烟史,也算是一种青春吧 我还记得,那是一个冬天的傍晚。寝室只有我和我的室友T,我们在寝室里冷得直哆嗦。只见他打开抽屉,掏出一包烟,抽出两根。 “走,陪我抽根烟。” 1 听说,每个有烟瘾的人都是有故事的人,我忽然就好奇起了这个平时口口声声声称还有诗和远方的“逼格极高”的室友。 “烟有那么好抽么?” T深吸一口烟,缓缓吐了出来,说道: 刚开始抽烟,…

    2023年 1月 26日

联系我们

在线咨询: QQ交谈

邮件:k37759@foxmail.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信