您现在的位置是：网站首页> 编程资料编程资料

深度解密Go语言中字符串的使用_Golang_

2023-05-26 459人已围观

简介深度解密Go语言中字符串的使用_Golang_

Go 字符串实现原理

Go 的字符串有个特性，不管长度是多少，大小都是固定的 16 字节。

package main import (     "fmt"     "unsafe" ) func main() {     fmt.Println(         unsafe.Sizeof("komeiji satori"),     )  // 16     fmt.Println(         unsafe.Sizeof("satori"),     )  // 16 }

显然用鼻子也能猜到原因，Go 的字符串底层并没有实际保存这些字符，而是保存了一个指针，该指针指向的内存区域负责存储具体的字符。由于指针的大小是固定的，所以不管字符串多长，大小都是相等的。

另外字符串大小是 16 字节，指针是 8 字节，那么剩下的 8 字节是什么呢？不用想，显然是长度。下面来验证一下我们结论：

以上是 Go 字符串的底层结构，位于 runtime/string.go 中。字符串在底层是一个结构体，包含两个字段，其中 str 是一个 8 字节的万能指针，指向一个数组，数组里面存储的就是实际的字符；而 len 则表示长度，也是 8 字节。

因此结构很清晰了：

str 指向的数组里面存储的就是所有的字符，并且类型是 uint8，因为 Go 的字符串默认采用 utf-8 编码。所以一个汉字在 Go 里面占 3 字节，我们先用 Python 举个例子：

>>> name = "琪露诺" >>> [c for c in name.encode("utf-8")] [231, 144, 170, 233, 156, 178, 232, 175, 186] >>>

那么对于 Go 而言，底层就是这么存储的：

我们验证一下：

package main import "fmt" func main() {     name := "琪露诺"     // 长度是 9，不是 3     fmt.Println(len(name))  // 9     // 查看底层数组存储的值     // 可以转成切片查看     fmt.Println(         []byte(name),     )  // [231 144 170 233 156 178 232 175 186] }

结果和我们想的一样，并且内置函数 len 在统计字符串长度时，计算的是底层数组的长度。

字符串的截取

如果要截取字符串的某个子串，要怎么做呢？如果是 Python 的话很简单：

>>> name = "琪露诺" >>> name[0] '琪' >>> name[: 2] '琪露' >>>

因为 Python 字符串里面的每个字符的大小都是相同的，可能是 1 字节、2字节、4字节。但不管是哪种，一个字符串里面的所有字符都具有相同的大小，因此才能通过索引准确定位。

但在 Go 里面这种做法行不通，Go 的字符串采用 utf-8 编码，不同字符占用的大小不同，ASCII 字符占 1 字节，汉字占 3 字节，所以无法通过索引准确定位。

package main import "fmt" func main() {     name := "琪露诺"     fmt.Println(         name[0], name[1], name[2],     )  // 231 144 170     fmt.Println(name[: 3])  // 琪 }

如果一个字符串里面既有英文又有中文，那么想通过索引准确定位是不可能的。因此这个时候我们需要进行转换，让它像 Python 一样，每个字符都具有相同的大小。

package main import "fmt" func main() {     name := "琪露诺"     // rune 等价于 int32     // 此时每个元素统一占 4 字节     // 并且 []rune(name) 的长度才是字符串的字符个数     fmt.Println(         []rune(name),     ) // [29738 38706 35834]     // 然后再进行截取     fmt.Println(         string([]rune(name)[0]),         string([]rune(name)[: 2]),     )  // 琪 琪露 }

所以对于字符串 "憨pi" 而言，如果是 utf-8 存储，那么只需要 5 个字节。但很明显，基于索引查找指定的字符是不可能的，除非事先知道字符串长什么样子。如果是转成 []rune 的话，那么需要 12 字节存储，内存占用变大了，但可以很方便地查找某个字符或者某个子串。

字符串和切片的转换

字符串和切片之间是可以互转的，但切片只能是 uint8 或者 int32 类型，另外 uint8 也可以写成 byte，int32 可以写成 rune。

由于 byte 是 1 字节，那么当字符串包含汉字，转成 []byte 切片时，一个汉字需要 3 个byte 表示。因此字符串 "憨pi" 转成 []byte 之后，长度为 5。

而 rune 是 4 字节，可以容纳所有的字符，那么转成 []rune 切片时，不管什么字符，都只需要一个 rune 表示即可。所以字符串 "憨pi" 转成 []rune 之后，长度为 3。

因此当你想统计字符串的字符个数时，最好转成 []rune 数组之后再统计。如果是字节个数，那么直接使用内置函数 len 即可。

我们举例说明，先来看一段 Python 代码：

>>> s = "憨pi" # 采用utf-8编码（等价于Go的[]byte数组） # "憨" 需要 230 134 168 三个整数来表示 # 而 "p" 和 "i" 均只需 1 个字节，分别为112和105 >>> [c for c in s.encode("utf-8")] [230, 134, 168, 112, 105] # 采用 unicode 编码（类似于Go的[]rune数组） # 所有字符都只需要1个整数表示 # 但对于ASCII字符而言，不管什么编码，对应的数值不变 >>> [ord(c) for c in s] [25000, 112, 105]

我们用 Go 再演示一下：

package main import "fmt" func main() {     s := "憨pi"     fmt.Println(         []byte(s),     ) // [230 134 168 112 105]     fmt.Println(         []rune(s),     )  // [25000 112 105] }

结果是一样的，当然这个过程我们也可以反向进行：

package main import "fmt" func main() {     s1 := []byte{230, 134, 168, 112, 105}     fmt.Println(string(s1)) // 憨pi     s2 := []rune{25000, 112, 105}     fmt.Println(string(s2)) // 憨pi }

结果没有任何问题。

字符串和切片共享底层数组

我们知道字符串和切片内部都有一个指针，指针指向一个数组，该数组存放具体的元素。

// runtime/string.go type stringStruct struct {     str unsafe.Pointer     len int } // runtime/slice.go type slice struct {     array unsafe.Pointer     len   int     cap   int }

假设有一个字符串 "abc"，然后基于该字符串创建一个切片，那么两者的结构如下：

字符串在转成切片的时候，会将底层数组也拷贝一份。那么问题来了，在基于字符串创建切片的时候，能不能不拷贝数组呢？也就是下面这个样子：

如果字符串比较大，或者说需要和切片之间来回转换的话，这种方式无疑会减少大量开销。Go 提供了万能指针帮我们实现这一点，所以先来了解一下什么是万能指针。

什么是万能指针

我们知道 C 的指针不仅可以相互转换，而且还可以参与运算，但 Go 不行，因为 Go 的指针是类型安全的。Go 编译器对类型的检测非常严格，让你在享受指针带来的便利时，又给指针施加了很多制约来保证安全。因此 Go 的指针不可以相互转换，也不可以参与运算。

但保证安全是需要以牺牲效率为代价的，如果你能保证写出的程序就是安全的，那么可以使用 Go 中的万能指针，从而绕过类型系统的检测，让程序运行的更快。

万能指针在 Go 里面叫做 unsafe.Pointer，它位于 unsafe 包下面。当然这个包名看起来有点怪怪的，因为这个包可以让我们绕过 Go 类型系统的检测，直接访问内存，从而提升效率。所以它有点危险，而 Go 官方也不推荐开发者使用，于是起了这个名字。

但实际上 unsafe 包在底层被大量使用，所以不要被名字误导了，这个包是一定要掌握的。

回到万能指针上面来，Go 的指针不可以相互转换，但是它们都可以和万能指针转换。举个例子：

package main import (     "fmt"     "unsafe" ) func main() {     // 一个 []int8 类型的切片     s1 := []int8{1, 2, 3, 4}     // 如果直接转成 []int16 是会报错的     // 因为 Go 的类型系统不允许这么做     // 但是有万能指针，任何指针都可以和它转换     // 我们可以先将 s1 的指针转成万能指针     // 然后再将万能指针转成 *[]int16，最后再解引用     s2 := *(*[]int16)(unsafe.Pointer(&s1))     // 那么问题来了，指针虽然转换了     // 但是内存地址没变，内存里的值也没变     // 由于 s2 是 []int16 类型，s1 是 []int8 类型     // 所以它会把 s1[0] 和 s1[1] 整体作为 s2[0]     // 会把 s1[2] 和 s1[3] 整体作为 s2[1]     fmt.Println(s2)  // [513 1027 0 0]          // int8 类型的 1 和 2 组合成 int16      // int8 类型的 3 和 4 组合成 int16      fmt.Println(2 << 8 + 1)  // 513     fmt.Println(4 << 8 + 3)  // 1027 }

因此把 Go 的万能指针想象成 C 的空指针 void * 即可。

那么让字符串和切片共享数组，我们就可以这么做：

package main import (     "fmt"     "unsafe" ) func main() {     str := "abc"     slice := *(*[]byte)(unsafe.Pointer(&str))     fmt.Println(slice)  // [97 98 99]     fmt.Println(cap(slice))  // 10036576 }

虽然转换成功了，但是还有点问题，容量不太对劲。至于原因也很简单，字符串和切片在底层都是结构体，并且它们的前两个字段相同，所以转换之后打印没有问题。但字符串没有容量的概念，它是定长的，所以转成切片的时候 cap 就丢失了，打印的就是乱七八糟的值。

所以我们需要再完善一下：

package main import (     "fmt"     "unsafe" ) func StringToBytes(s string) []byte {     // 既然字符串转切片，会丢失容量     // 那么加上去就好了，做法也很简单     // 新建一个结构体，将容量（等于长度）加进去     return *(*[]byte)(unsafe.Pointer(         &struct {             string             Cap int         }{s, len(s)},     )) } func BytesToString(b []byte) string {     // 切片转字符串就简单了，直接转即可     // 转的过程中，切片的 Cap 字段会丢弃     return *(*string)(unsafe.Pointer(&b)) } func main() {     fmt.Println(         StringToBytes("abc"),     ) // [97 98 99]     fmt.Println(         BytesToString([]byte{97, 98, 99}),     ) // abc }

结果没有问题，但我们怎么证明它们是共享数组的呢？很简单：

package main import (     "fmt"     "unsafe" ) func main() {     slice := []byte{97, 98, 99}     str := *(*string)(unsafe.Pointer(&slice))     fmt.Println(str)  // abc     slice[0] = 'A'     fmt.Println(str)  // Abc }

操作切片等于操作底层数组，而 str 前后的打印结果不一致，所以确实是共享同一个数组。但需要注意的是，这里是先创建的切片，因此底层数组是可以修改的，没有问题。

但如果创建的是字符串，然后基于字符串得到切片，那么切片就不可以修改了。因为字符串是不可修改的，所以底层数组也不可修改，也意味着切片不可以修改。

字符串和其它数据结构的转化

以上我们就介绍完了字符串的原理，再来看看工作中一些常见的字符串操作。

整数和字符串相互转换

如果想把一个整数转成字符串，那么该怎做呢？比如将 97 转成字符串。有过 Python 经验的，应该下意识会想到 string(97)，但这是不行的，它返回的是字符串 "a"，因为 97 对应的字符是 'a'。

如果将整数转成字符串，应该使用 strconv 包下的 Itoa 函数，这个和 C 语言类似。

package main import (     "fmt"     "strconv" ) func main() {     fmt.Println(strconv.Itoa(97))     fmt.Println(strconv.Itoa(97) == "97")     /*        97        true     */     // 同理，将字符串转成整数则是 Atoi     s := "97"     if num, err := strconv.Atoi(s); err != nil {         fmt.Println(err)     } else {         fmt.Println(num == 97) // true     }     s = "97xx"      if num, err := strconv.Atoi(s); err != nil {         fmt.Println(             err,         )  // strconv.Atoi: parsing "97xx": invalid syntax     } else {         fmt.Println(num)     } }

Atoi 和 Itoa 专门用于整数和字符串之间的转换，strconv 这个包还提供了 Format 系列和 Parse 系列的函数，用于其它数据结构和字符串之间的转换，当然里面也包括整数。

Parse 系列函数

Parse 一类函数用于转换字符串为给定类型的值。

ParseBool

将指定字符串转换为对应的bool类型，只接受 1、0、t、f、T、F、true、false、True、False、TRUE、FALSE，否则返回错误；

package main import (     "fmt"     "strconv" ) func main() {     //因为字符串转换时可能发生失败，因此都会带一个error     //而这里解析成功了，所以 error 是 nil     fmt.Println(strconv.ParseBool("1"))  // true      fmt.Println(strconv.ParseBool("F")) // false  }

ParseInt

函数原型：f

上一篇：一文搞懂Go语言中defer关键字的使用_Golang_

下一篇：详解Golang如何实现支持随机删除元素的堆_Golang_