😉最佳實踐
環境介紹
節點機1
192.168.1.1
GPU * 1
controller autonomys-node
proof-server nats-server
節點機2
192.168.1.2
GPU * 1
controller autonomys-node
proof-server nats-server
節點機3
192.168.1.3
GPU * 1
controller autonomys-node
proof-server nats-server
P 盤機1
192.168.1.4
GPU * 4
autonomys-plot-server-0
autonomys-plot-server-1
autonomys-plot-server-2
autonomys-plot-server-3
sharded-cache full-piece-cache
P 盤機2
192.168.1.5
GPU * 4
autonomys-plot-server-0
autonomys-plot-server-1
autonomys-plot-server-2
autonomys-plot-server-3
sharded-cache full-piece-cache
存儲機1
192.168.1.6
8T NVMe SSD * 4
/mnt/nvme0n1
/mnt/nvme0n2
/mnt/nvme1n2
/mnt/nvme1n1
autonomys-plot-client
存儲機2
192.168.1.7
8T NVMe SSD * 4
/mnt/nvme0n1
/mnt/nvme0n2
/mnt/nvme1n1
/mnt/nvme1n2
autonomys-plot-client
集群啟動命令
首先啟動 NATS,然後按照以下教學配置 Supervisor 的參數。配置完成後,只需執行以下指令即可啟動所有程序:
supervisorctl start allSupervisor 配置
節點機配置
nats-server
本軟件需要開啟 nats-server jetstream 功能,啟動 nats-server ,添加 --jetstream flag即可啟用
nats-server 的配置請參考nats 官方文檔 以及 autonomys nats 配置文檔。
以下是 nats-server 配置示例,供參考:
autonomys-controller
autonomys-node
autonomys-proof-server
啟動命令參數及環境變量解釋:
--nats-server參數用於指定 nats 服務器地址CUDA_VISIBLE_DEVICES環境變量用於指定 GPU,0 表示 GPU0,1 表示GPU1,以此類推
P 盤機配置 (以 4 GPU為例)
autonomys-sharded-cache
啟動命令參數解釋:
--nats-server參數用於指定 nats 服務器地址path=/path/to/autonomys-sharded-cache參數用於指定 piece 緩存存儲路徑
autonomys-full-piece
啟動命令參數解釋:
--nats-server參數用於指定 nats 服務器地址path=/path/to/autonomys-full-piece參數用於指定 full-piece 存儲路徑
autonomys-plot-server
啟動命令參數及環境變量解釋:
--nats-server參數用於指定 nats 服務器地址CUDA_VISIBLE_DEVICES環境變量用於指定 GPU,0 表示 GPU0,1 表示GPU1,以此類推GPU_CONCURRENCY增大此值會提高顯存使用量,在使用不同型號的 GPU 時,可以考慮適當調整該變量
需要注意的是, 使用 numactl 工具綁定 CPU 核心時,需考慮 GPU 的 numa 親和性,以達到最佳性能。
使用 nvidia-smi topo -m 命令可以查看 GPU numa 親和性
存儲機配置(以 4 盤為例)
autonomys-plot-client
啟動命令參數解釋:
--nats-server參數用於指定 nats 服務器地址path=/path/to/plot-dir,sectors=8000參數用於指定 plot 的文件路徑以及 plot 的扇區數量
最后更新于
