1
2
3
4
5
6
7
作者:李晓辉

联系方式:

1. 微信:Lxh_Chat

2. 邮箱:939958092@qq.com

CRUSH 和对象放置策略

Ceph 会使用一种名为 CRUSH(可扩展哈希下的受控复制)的放置算法来计算哪些 OSD 应该存放哪些对象。对象分配到 PG 中,CRUSH 决定这些 PG 应使用哪些 OSD 来存储其对象。

CRUSH的算法

CRUSH 算法支持 Ceph 客户端直接与 OSD 通信,从而避免任何中央化服务瓶颈。Ceph 客户端和 OSD 使用 CRUSH 算法来高效地计算对象位置的信息,而不依赖中央查找表。Ceph 客户端检索集群映射,并使用 CRUSH 映射来通过算法确定如何存储和检索数据。这避免了单一故障点和性能瓶颈,为 Ceph 集群实现大规模可扩展性。

CRUSH 算法能够将数据均匀分布到对象存储中,管理复制,并且响应系统增长和硬件故障。当添加了新的 OSD 或现有的 OSD 或 OSD 主机出现故障时,Ceph 使用 CRUSH 在活跃的 OSD 之间重新均衡集群中的对象。

CRUSH Bucket类型

CRUSH 层次结构将 OSD 整理到由不同容器组成的树中,这些容器称为“存储桶”(bucket)。通过创建 CRUSH 映射规则,您可以使 Ceph 将对象的副本放在不同服务器上的 OSD 中,也可以使它放在位于不同的机架或不同数据中心中的服务器上

存储桶类型包括 rootregiondatacenterroompodpdurowrackchassis 以及 host

CRUSH 映射默认层次结构示例:

自定义故障和性能域

配置 CRUSH 映射并创建单独的故障域可保证在 OSD 和集群节点出现故障时也不会丢失任何数据。集群仅以降级状态运行,直至问题得到解决。

默认情况下,CRUSH 算法将复制的对象放置到不同主机上的 OSD 中。您可自定义 CRUSH 映射,以便将对象副本跨 OSD 放置在不同的机柜上,或者放置在不同机房的主机上,或者放置在具有不同PDU的不同机架上。

另一用例是将带有 SSD 驱动器的 OSD 分配给需要极快存储的应用使用的池,并将带有传统 HDD 的 OSD 分配给支持较低需求工作负载的池。

集群安装流程部署默认的 CRUSH 映射。您可以使用 ceph osd crush tree/dump 命令以 JSON 格式打印 CRUSH 映射。也可以导出映射的二进制副本,并将它解译为文本文件:

命令查询crush map

1
2
3
4
5
6
7
8
9
10
[root@serverc ~]# ceph osd crush tree
ID CLASS WEIGHT TYPE NAME
-1 0.16653 root default
-9 0.04898 host clienta
11 hdd 0.00980 osd.11
12 hdd 0.00980 osd.12
-3 0.02939 host serverc
1 hdd 0.00980 osd.1
2 hdd 0.00980 osd.2
10 hdd 0.00980 osd.10

二进制导出crush map

您可以通过以下命令,解解并手动编辑 CRUSH 映射:

命令操作
ceph osd getcrushmap -o binfile导出当前映射的二进制副本。
crushtool -d binfile -o textfilepath将 CRUSH 映射二进制文件解译为文本文件
crushtool -c textfilepath -o binfile从文本编译 CRUSH 映射。
crushtool -i binfile --test对二进制 CRUSH 映射执行空运行,并且模拟创建放置组。
ceph osd setcrushmap -i binfile将二进制 CRUSH 映射导入到集群。

注意

如果不想进到容器中,需要安装ceph-base软件包

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
[root@serverc ~]# cephadm shell
[ceph: root@serverc /]#
[ceph: root@serverc /]# ceph osd getcrushmap -o ./map.bin
48
[ceph: root@serverc /]# crushtool -d ./map.bin -o ./map.txt
[ceph: root@serverc /]# cat map.txt
# begin crush map
tunable choose_local_tries 0
tunable choose_local_fallback_tries 0
tunable choose_total_tries 50
tunable chooseleaf_descend_once 1
tunable chooseleaf_vary_r 1
tunable chooseleaf_stable 1
tunable straw_calc_version 1
tunable allowed_bucket_algs 54

# devices
device 1 osd.1 class hdd
device 2 osd.2 class hdd
device 3 osd.3 class hdd
device 4 osd.4 class hdd
device 5 osd.5 class hdd
device 6 osd.6 class hdd
device 7 osd.7 class hdd
device 8 osd.8 class hdd
device 9 osd.9 class hdd
device 10 osd.10 class hdd
device 11 osd.11 class hdd
device 12 osd.12 class hdd
device 13 osd.13 class hdd
device 15 osd.15 class hdd
device 16 osd.16 class hdd
device 17 osd.17 class hdd
device 18 osd.18 class hdd

# types
type 0 osd
type 1 host
type 2 chassis
type 3 rack
type 4 row
type 5 pdu
type 6 pod
type 7 room
type 8 datacenter
type 9 zone
type 10 region
type 11 root

# buckets
host serverc {
id -3 # do not change unnecessarily
id -4 class hdd # do not change unnecessarily
# weight 0.029
alg straw2
hash 0 # rjenkins1
item osd.1 weight 0.010
item osd.2 weight 0.010
item osd.10 weight 0.010
}

自定义OSD CRUSH设置

CRUSH 映射包含集群中所有存储设备的列表。每一存储设备都提供有以下信息:

  • 存储设备的 ID。

  • 存储设备的名称。

  • 存储设备的类别。一个存储集群中可以使用多种类型的存储设备,如 HDD、SSD 或 NVMe SSD。

  • 存储设备的权重,通常基于以 TB 为单位的容量。例如,4 TB 存储设备的权重约为 4.0。这是设备可以存储的相对数据量,CRUSH 算法用它来帮助确保对象均匀分布。

重新crush map调整权重

可以用ceph osd crush tree 来查询他们具体的权重

1
2
3
[ceph: root@serverc /]# ceph osd crush reweight-all
reweighted crush hierarchy
[ceph: root@serverc /]# ceph osd crush tree

管理设备的Class类别

先查看现有的

1
2
3
4
[root@serverc ~]# ceph osd crush class ls
[
"hdd"
]

创建一个名为ssd的类别

1
2
3
4
5
6
7
[root@serverc ~]# ceph osd crush class create ssd
created class ssd with id 1 to crush map
[root@serverc ~]# ceph osd crush class ls
[
"hdd",
"ssd"
]

更改osd的class

如果osd已经关联了一个class,需要先删除,然后才能关联

1
2
3
4
5
6
7
8
9
10
11
[root@serverc ~]# ceph osd crush set-device-class ssd osd.1
Error EBUSY: osd.1 has already bound to class 'hdd', can not reset class to 'ssd'; use 'ceph osd crush rm-device-class <id>' to remove old class first

[root@serverc ~]# ceph osd crush rm-device-class osd.1
done removing class of osd(s): 1

[root@serverc ~]# ceph osd crush set-device-class ssd osd.1
set osd(s) 1 to class 'ssd'

[root@serverc ~]# ceph osd crush tree | grep osd.1
1 ssd 0.00980 osd.1

解读CRUSH规则

CRUSH 映射也包含数据放置规则,它们决定了 PG 如何映射到 OSD 来存储对象副本或纠删代码区块。

ceph osd crush rule ls 命令可列出现有的规则,而 ceph osd crush rule dump rule_name 命令则可打印规则的详细信息。

解译后的 CRUSH 映射也包含规则,它们可能更容易阅读:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
[root@serverc ~]# cephadm shell
[ceph: root@serverc /]#
[ceph: root@serverc /]# ceph osd getcrushmap -o ./map.bin
52
[ceph: root@serverc /]# crushtool -d ./map.bin -o ./map.txt
[ceph: root@serverc /]# cat map.txt
rule replicated_rule { # 规则的名称。使用ceph osd pool create命令创建池时,使用此名称来选择规则
id 0 # 规则的 ID
type replicated
min_size 1 # 如果池形成的副本数少于这个数目,则 CRUSH 不会选择这一规则
max_size 10 # 如果池形成的副本数多于这个数目,则 CRUSH 不会选择这一规则
step take default # 取存储桶名称,然后开始沿着树结构往下迭代
step chooseleaf firstn 0 type host # 选择给定类型 (host) 的存储桶集合,并且从该集合中各个存储桶的子树中选择树叶 (OSD)
step emit # 输出规则的结果
}

例如,您可以创建以下规则,以在不同的机架上选择所需数量的 OSD,但仅从 DC1 数据中心选择:

1
2
3
4
5
6
7
8
9
rule myrackruleinDC1 {
id 2
type replicated
min_size 1
max_size 10
step take DC1
step chooseleaf firstn 0 type rack
step emit
}

使用Ceph命令定制CRUSH地图

创建存储桶的命令格式如下

1
ceph osd crush add-bucket name type

调整层级的命令格式如下

1
ceph osd crush move name type=parent