终于有了自己的房子了
作者:随然 日期:2009-06-03
CODEPAGE=936和65001两种情况下UrlEncode和URLDecode算法详解
作者:随然 日期:2009-06-03
做网站的人都知道Server.UrlEncode函数,不过,网站做多了就会接触到gb2312和utf-8这两种不同的网页编码。网页编码只是最后形成的网页中对字符怎样编码,在网页形成的过程中还对应着不同的编码方案。一般而言,如果做的网页是gb2312的,那么ASP的CODEPAGE是936,而utf-8则是650001。
UrlEncode虽然并不直接将汉字转化为内码,但与内码有着对应关系,就同样的汉字,比如“一级棒”,在CODEPAGE=936时被转化为“%D2%BB%BC%B6%B0%F4”,而CODEPAGE=65001时被转化为“%E4%B8%80%E7%BA%A7%E6%A3%92”。它们分别就对应了“一级棒”三字的GB码和utf-8码(utf-8码与UNICODE码有一一对应的关系)。
在ASP中有两个函数可以分别获取汉字的GB和UNICODE这两种编码,它们分别是“Asc()”和“Ascw()”函数,不过这里要强列说明的是,在CODEPAGE=65001时“Asc()”函数会对双字节字符失效。
下面就拿“一级棒”的“级”字为例,它的GB码为48310(-17226 + 65536)、UNICODE码为32423,转化为16进制,就分别为BCB6和7EA7。其中GB码的十六进制表示一眼就看出来,跟UrlEncode的结果是一致的,所以下面就只要谈谈utf-8了。
进六进制7EA7在“0000 0800-0000 FFFF”范围内,对应的utf-8码为三字节。先将7EA7转化为二进制01111110 10100111,然后重新分段:0111 111010 100111,套用“1110xxxx 10xxxxxx 10xxxxxx”模板后得到11100111 10111010 10100111,就得到了E7 BA A7。再看一下UrlEncode的结果是否相符?
如果要自己写UrlEncode或UrlDecode函数,则可以跟据以上这些规则来实现,下面先列出算法,然后再来讨论是否有必要写这样的函数。(友情提醒:为了排版效果,本站使用两个全角空格来代替一个Tab,如果要验证以下函数,请自行进行替换。)
Function MyUrlEncodeGB(char)
Dim code, codeh, codel
code = "0000" & Hex(Asc(char))'兼容英文字母与数字
codel = Right(code, 2)
codeh = Left(Right(code, 4), 2)
UrlEncode虽然并不直接将汉字转化为内码,但与内码有着对应关系,就同样的汉字,比如“一级棒”,在CODEPAGE=936时被转化为“%D2%BB%BC%B6%B0%F4”,而CODEPAGE=65001时被转化为“%E4%B8%80%E7%BA%A7%E6%A3%92”。它们分别就对应了“一级棒”三字的GB码和utf-8码(utf-8码与UNICODE码有一一对应的关系)。
在ASP中有两个函数可以分别获取汉字的GB和UNICODE这两种编码,它们分别是“Asc()”和“Ascw()”函数,不过这里要强列说明的是,在CODEPAGE=65001时“Asc()”函数会对双字节字符失效。
下面就拿“一级棒”的“级”字为例,它的GB码为48310(-17226 + 65536)、UNICODE码为32423,转化为16进制,就分别为BCB6和7EA7。其中GB码的十六进制表示一眼就看出来,跟UrlEncode的结果是一致的,所以下面就只要谈谈utf-8了。
进六进制7EA7在“0000 0800-0000 FFFF”范围内,对应的utf-8码为三字节。先将7EA7转化为二进制01111110 10100111,然后重新分段:0111 111010 100111,套用“1110xxxx 10xxxxxx 10xxxxxx”模板后得到11100111 10111010 10100111,就得到了E7 BA A7。再看一下UrlEncode的结果是否相符?
如果要自己写UrlEncode或UrlDecode函数,则可以跟据以上这些规则来实现,下面先列出算法,然后再来讨论是否有必要写这样的函数。(友情提醒:为了排版效果,本站使用两个全角空格来代替一个Tab,如果要验证以下函数,请自行进行替换。)
Function MyUrlEncodeGB(char)
Dim code, codeh, codel
code = "0000" & Hex(Asc(char))'兼容英文字母与数字
codel = Right(code, 2)
codeh = Left(Right(code, 4), 2)