[源碼解析] TensorFlow 分佈式環境(1) — 總體架構
- 2022 年 3 月 16 日
- 筆記
- 001_機器學習, 006_深度學習, 011_分佈式機器學習
[源碼解析] TensorFlow 分佈式環境(1) — 總體架構
在具體介紹 TensorFlow 分佈式的各種 Strategy 之前,我們首先需要看看分佈式的基礎:分佈式環境。只有把基礎打紮實了,才能在以後的分析工作之中最大程度的掃清障礙,事半功倍。
本文代碼使用的部分 API 不是最新,但因為我們的目的是了解其設計思想,舊的 API 反而會更加清晰(目前業界很多公司也依然基於較低版本的 TensroFlow,所以舊 API 也有相當的分析意義)。
這裡強烈推薦兩個大神:
-
[TensorFlow Internals] (//github.com/horance-liu/tensorflow-internals),雖然其分析的不是最新代碼,但是建議對 TF 內部實現機制有興趣的朋友都去閱讀一下,絕對大有收穫。
-
//home.cnblogs.com/u/deep-learning-stacks/ 西門宇少,不僅僅是 TensorFlow,其公共號還有更多其他領域,業界前沿。
本系列其他文章是:
[翻譯] TensorFlow 分佈式之論文篇 “Implementation of Control Flow in TensorFlow”
1. 總體架構
我們從幾個不同角度來對分佈式模式進行拆分,如何劃分不是絕對的,這些角度也不是正交的,可能會彼此有部分包含,這麼劃分只是筆者覺得更容易從這些方面理解。
1.1 集群角度
1.1.1 概念
我們首先從集群和業務邏輯角度來拆分如下,有術語如下:
-
Cluster:TensorFlow 集群定義。
- 一個 TensorFlow 集群包含一個或者多個 TensorFlow 服務端,一個集群一般會專註於一個相對高層的目標,比如用多台機器並行地訓練一個神經網絡。
- 訓練被切分為一系列 job,每個 job又會負責一系列 tasks。當集群有多個 task 時候,需要使用tf.train.ClusterSpec 來指定每一個任務的機器。
-
Job:一個 job 包含一系列致力於完成某個相同目標的 task,一個 job 中的 tasks 通常會運行在不同的機器中。一般存在兩種 job:
- ps job:ps 是 parameter server 的縮寫,其負責處理存儲/更新變量相關的工作。
- worker job:用於承載那些計算密集型的無狀態節點,負責數據計算。
-
Task:一個 Task 會完成一個具體任務,一般會關聯到某個 TensorFlow 服務端的處理過程。
- Task 屬於一個特定的 job 並且在該 job 的任務列表中有唯一的索引 task_index。
- Task 通常與一個具體的 tf.train.Server 相關聯,運行在獨立的進程中。
- 可以在一個機器上運行一個或者多個 Task,比如單機多 GPU。
1.1.2 示意圖
我們給出以上三者的關係如下,Cluster 包含多個 Job,Job 包括 1 到多個 Task:
圖 1 角色之間關係
對於 Job 兩種角色,我們給出一幅經典的參數服務器示意圖如下,下圖上方就是運行的 ps 集群,中間運行了四個 worker。
圖 2 參數服務器.
來源:”A Survey on Distributed Machine Learning”
1.1.3 創建
我們看看用低階 API 如何實現分佈式訓練。
1.1.3.1 創建集群
我們首先創建集群,集群包括兩種角色,參數服務器 ps job 有三個任務(task),worker job 有兩個 task。這裡每一個 task 是一個機器,也可以在同一個機器之上運行多個 task(比如每個 task 控制不同的 GPU 設備)。
ClusterSpec 以 Job 的方式組織,指定了集群中 Task 如何部署,因為一個 Task 對應了一個進程,所以ClusterSpec 也描述了 TensorFlow 分佈式運行時之中進程如何分佈。
ps_hosts = ["1.1.1.1:11", "2.2.2.2:22"]
worker_hosts = ["3.3.3.3:33", "4.4.4.4:44", "5.5.5.5:55"]
cluster = tf.train.ClusterSpec({"ps": ps_hosts, "worker": worker_hosts})
1.1.3.2 創建任務
接下來啟動若干任務,用戶腳本需要在每一個機器上都運行,一共運行 5 次(3 個 ps,2 個 worker)。每個任務之中,都需要使用同一個 tf.train.ClusterSpec 來了解集群之中所有的任務。然後會啟動一個 tf.distribution.Server服務。
一個 tf.distribution.Server 實例封裝了一組設備和一個 tf.compat.v1.Session 目標,可以參與分佈式訓練。一個服務屬於一個集群(由 tf.train.ClusterSpec 指定),並對應於一個指定作業中的特定任務。該服務可以與同一集群中的任何其他服務通信。
FLAGS = tf.app.flags.FLAGS
server = tf.train.Server(cluster, job_name=FLAGS.job_name, task_index=FLAGS.task_index)
1.1.3.3 指定設備
因為已經啟動了 Server,所以每個任務或者說節點的具體執行邏輯就不同了。代碼之中根據腳本執行的命令參數不同來決定這個Server執行的是哪個任務。
- 如果 FLAGS.job_name == “ps”,程序就執行 join 操作,因為參數服務器是參數更新的服務,只需要等待其他 worker 節點提交更新的參數即可。
- 如果 FLAGS.job_name == “worker”,就執行後續的計算任務。TensorFlow 中計算/參數都可以分離,可以在設備上分配計算節點,也可以在每個設備上分配參數。在分佈式環境下,依然會使用tf.device()函數將節點/操作放在當前任務下。tf.train.replica_device_setter 函數會依據 job 名,自動將計算分配到 worker 上。
if FLAGS.job_name == "ps":
server.join()
elif FLAGS.job_name == "worker":
with tf.device(tf.train.replica_device_setter(
worker_device="/job:worker/task:%d" % FLAGS.task_index,
cluster=cluster)):
1.2 分佈式角度
1.2.1 概念
我們接下來從分佈式業務邏輯/架構角度來具體分析一下。大家知道,Master-Worker 架構是分佈式系統之中非常常見的一種架構組織形式,比如:GFS 之中有 Master,ChunkServer,Spanner 有 Zonemaster 和 Spanserver,Spark 有 driver和executor,Flink 有 JobManager 和 TaskManager。此架構下,Master 通常維護集群元信息,調度任務,Workers 則負責具體計算或者維護具體數據分片。
其實,TensorFlow 分佈式也是採用了 Master-Worker 架構,為了更好的說明,我們給出一個官方的分佈式 TensorFlow 的架構圖,圖上三個角色都是從邏輯視角來看。
- Client:前面的各種概念術語都是為了搭建一個分佈式環境,Client 利用這個分佈式環境進行計算。一個 client通常是一段構造 TensorFlow 計算圖的程序,通常情況下,客戶端通過循環調用 RPC 來讓 master 進行迭代計算(例如訓練)。
- Master:收到執行計算圖的命令之後,Master 負責協調調度,比如對計算圖進行剪枝,優化, 把計算圖拆分成多個子圖,每個子圖分配註冊給不同的 worker,觸發各個 worker 並發執行子圖。
- Worker:負責具體計算其收到的子圖。當接收到註冊子圖消息之後,Worker 會將計算子圖依據本地計算設備進行二次切分,並把二次切分之後的子圖分配到各個設備上,然後啟動計算設備並發執行子圖。Worker 之間可能通過進程間通信完成數據交換。圖中有兩個 worker,下方的 worker 的具體 Job 角色是參數服務器,負責維護參數/更新參數等等,上面的 worker 會把梯度發給參數服務器進行參數更新。
1.2.2 示意圖
圖上的集群包括三個節點,每個節點上都運行一個 TensorFlow Server。這裡 Master,Worker 每一個都是 TensorFlow Server。
圖 3 集群,來自 TensorFlow
1.3 系統角度
1.3.1 概念
我們接下來從具體軟件實現角度來剖析,在具體實現上可以分解為如下概念:
-
TensorFlow Server :Server 是運行 tf.train.Server 實例的進程,是一個集群中的一員,Server 通常包括 Master Service 與一個 Worker Service。Server 可以和集群中的其他 Server 進行通信。
-
Master Service :一個 GRPC service,用於同一系列遠端的分佈式設備進行交互,用來協調調度多個 worker service。
- Master Service 對應了 “//tensorflow/core/protobuf/master_service.proto”,其內部有 CreateSession,RunStep 等接口,所有的 TensorFlow Server 都實現了 Master Service。
- 客戶端可以與 Master Service 交互以執行分佈式 TensorFlow 計算。客戶端一般通過 RPC 形式與一個 Master 之間保持交互式計算,客戶端建立一個客戶端會話,連接到某一個 master,該 master 創建一個 master session。
- 一個 Master Service 會包含多個 “主會話(master sessions)”並且維護其狀態。每個會話封裝了一個計算圖及其相關的狀態,這些 master session 通常對應於同一個 “客戶會話(client session)”(例如一個 tensorflow::Session實例)。
-
Master Session:一個主會話(master session)負責以下工作。
- 起到橋樑的作用,建立 client 與後端運行時的通道,比如可以將 Protobuf 格式的 GraphDef 發送至分佈式 Master。
- 使用布局(placement)算法將每個節點分配到一個設備(本地或遠程)。放置算法可能會根據從系統中的 worker 收集到的統計數據(例如,內存使用、帶寬消耗等)做出決定。
- 為了支持跨設備和跨進程的數據流和資源管理,session 會在計算圖之中插入中間節點和邊。
- 向 worker 發出命令,讓其執行與本 worker 相關的子圖。
-
Worker Session: worker 通過 Worker Session 來標識一個執行序列(註冊計算圖,執行命令),Worker Session 屬於一個 Master Session。
-
Worker service:這是一個 GRPC service,代表 MasterService 在一組本地設備上執行數據流計算圖。一個 worker service 會保持/跟蹤客戶計算圖的多個子圖,這些子圖對應了應該在這個 worker 上執行的節點,也包括那些進程間通信所需的任何額外節點。Worker service 對應 worker_service.proto。所有的 TensorFlow server 也都實現了 worker service。
1.3.2 示意圖
我們現在知道,每個 Server 之上都會運行 MasterService 和 WorkerService 兩個服務,這意味着 server 可能同時扮演 Master 和 Worker 兩個角色,比如回到上圖,圖上的集群包括三個節點,每個節點上都運行一個 TensorFlow Server。這裡 Master,Worker 每一個都是 TensorFlow Server,每個 server 之上都有兩種 service(MasterService 和 WorkerService),只不過在這個系統之中,目前實際有角色意義的分別是 MasterService(Master之上的) 和 WorkerService(兩個 worker 之上的),圖之中用下劃線表示。
圖 4 服務
我們接着看一些其他可能。
- 如果 Client 接入到了集群之中的一個 Server A,則此 Server A 就扮演了 Master 角色,集群其他 Server 則就是 Worker,但是 Server A 同時也可以扮演 Worker 角色。
- Client 可以和 Master 位於同一個進程之內,此時 Client 和 Master 可以直接使用函數調用來交互,避免 RPC 開銷。
- Master 可以和 Worker 位於同一個進程之內,此時 兩者可以直接使用函數調用來交互,避免 RPC 開銷。
- 可以有多個 Client 同時接入到一個集群,比如下圖,此時集群之中有兩個 Server 都可以扮演 Master/Worker 角色,兩個 Server 扮演 Worker 角色:
圖 5 多個Client 接入
1.4 圖操作角度
分佈式運行的核心也是如何操作計算圖,但是計算功能被拆分為 Client,Master 和 Worker 三個角色。Client 負責構造計算圖,Worker 負責執行具體計算,但是 Worker 如何知道應該計算什麼?TensorFlow 在兩者之間插入了一個 Master 角色來負責協調,調度。
在分佈式模式下,對於計算圖會進行分裂,執行操作。
- 從分裂角度看,TF 對於計算圖執行了二級分裂操作:
- MasterSession 生成 ClientGraph,然後通過 SplitByWorker 完成了一級分裂,得到多個 PartitionGraph,再把 PartitionGraph 列表註冊到 Worker 們之上。
- WorkerSession 通過 SplitByDevice 把自己得到的計算圖進行二級分裂,把分裂之後的 PartitionGraph 分配給每個設備。
- 從執行角度來看,計算圖的具體執行只發生在 Worker 之上。
- Master 啟動各個 Worker 並發執行 PartitionGraph 列表。
- Worker 在每個設備上啟動 Executor,執行 PartitionGraph。
因為執行是按照切分來的,所以我們這裡只演示切分如下:
圖 6 切分計算圖
1.5 通信角度
最後,我們從通信角度來對分佈式模式進行分析。TF 的消息傳輸的通信組件叫做 Rendezvous,這是一個從生產者向消費者傳遞張量的抽象,一個 rendezvous 是一個通道(channels)的表(table)。生產者調用 Send() 方法,在一個命名的通道上發送一個張量。消費者調用 Recv() 方法,從一個指定的通道接收一個張量。
在分佈式模式之中,對跨設備的邊會進行分裂,在邊的發送端和接收端會分別插入 Send 節點和 Recv 節點。
- 進程內的 Send 和 Recv 節點通過 IntraProcessRendezvous 實現數據交換。
- 進程間的 Send 和 Recv 節點通過 GrpcRemoteRendezvous 實現數據交換。
比如下圖,左面是原始計算圖,右面是分裂之後的計算圖,5 個節點被分配到兩個 worker 之上。
圖 7 分裂計算圖
我們假設 Worker 0 有兩個 GPU,當插入Send 節點和 Recv 節點,效果如下,其中 Worker 1 發送給 Worker 之間的代表進程間通過 GrpcRemoteRendezvous 實現數據交換,Worker 0 內部兩個 GPU 之間的虛線箭頭代表進程內部通過 IntraProcessRendezvous 實現數據交換。
圖 8 通信角度
我們接下來就看看 Server 的總體概況。
2. Server
2.1 接口
Server 的接口位於 tensorflow/core/protobuf/tensorflow_server.proto,具體如下:
// Defines the configuration of a single TensorFlow server.
message ServerDef {
// The cluster of which this server is a member.
ClusterDef cluster = 1;
// The name of the job of which this server is a member.
//
// NOTE(mrry): The cluster field must contain a JobDef with a name field
// that matches this name.
string job_name = 2;
// The task index of this server in its job.
//
// NOTE: The cluster field must contain a JobDef with a matching name
// and a mapping in its tasks field for this index.
int32 task_index = 3;
// The default configuration for sessions that run on this server.
ConfigProto default_session_config = 4;
// The protocol to be used by this server.
//
// Acceptable values include: "grpc", "grpc+verbs".
string protocol = 5;
// The server port. If not set, then we identify the port from the job_name.
int32 port = 6;
// Device filters for remote tasks in the cluster.
// NOTE: This is an experimental feature and only effective in TensorFlow 2.x.
ClusterDeviceFilters cluster_device_filters = 7;
}
2.2 Python 定義
可以從多個角度來看Server。
- 首先,Server 是一個集群中的一員,負責管理其本地設備集。
- 其次,Server 是基於 gRPC 的服務器,Server 可以和集群中的其他 Server 進行通信。
- 第三,Server是運行 tf.train.Server 實例的進程,tf.train.Server 內部通常包括 Master Service與一個Worker Service,這兩個對外的接口就是 Master 和 Worker 這兩種”服務”。Server 同時可以扮演這兩種角色。
- 第四,Server 的實現是 GrpcServer。
- GrpcServer 內部有一個成員變量 grpc::Server server_ ,這是 GPRC 通信 server,server_ 會監聽消息,並且把命令發送到內部兩個服務 MasterService 和 WorkerService 之中對應的那個。該服務會通過回調函數進行業務處理。
- 當其是 Master 角色時候,對外服務是 MasterService,MasterService 為每一個接入的 Client 啟動一個 MasterSession,MasterSession 被一個全局唯一的 session_handle 表示,此 session_handle 會傳遞給 Client。Master 可以為多個 Client 服務,一個 Client 只能和一個 Master 打交道。
- 當其是 Worker 角色時候,可以為多個 Master 提供服務,其對外服務是 WorkerService,WorkerService 為每個接入的 MasterSession 生成一個 WorkerSession 實例,MasterSession 可以讓 WorkerSession 註冊計算圖,執行命令。
圖 9 GrpcServer 結構
具體Python接口定義在 tensorflow/python/training/server_lib.py 之中。
@tf_export("distribute.Server", v1=["distribute.Server", "train.Server"])
@deprecation.deprecated_endpoints("train.Server")
class Server(object):
"""An in-process TensorFlow server, for use in distributed training.
A tf.distribute.Server instance encapsulates a set of devices and a
tf.compat.v1.Session target that
can participate in distributed training. A server belongs to a
cluster (specified by a tf.train.ClusterSpec), and
corresponds to a particular task in a named job. The server can
communicate with any other server in the same cluster.
"""
def __init__(self,
server_or_cluster_def,
job_name=None,
task_index=None,
protocol=None,
config=None,
start=True):
"""Creates a new server with the given definition.
The job_name, task_index, and protocol arguments are optional, and
override any information provided in server_or_cluster_def.
Args:
server_or_cluster_def: A tf.train.ServerDef or tf.train.ClusterDef
protocol buffer, or a tf.train.ClusterSpec object, describing the
server to be created and/or the cluster of which it is a member.
job_name: (Optional.) Specifies the name of the job of which the server is
a member. Defaults to the value in server_or_cluster_def, if
specified.
task_index: (Optional.) Specifies the task index of the server in its job.
Defaults to the value in server_or_cluster_def, if specified.
Otherwise defaults to 0 if the server's job has only one task.
protocol: (Optional.) Specifies the protocol to be used by the server.
Acceptable values include "grpc", "grpc+verbs". Defaults to the value
in server_or_cluster_def, if specified. Otherwise defaults to
"grpc".
config: (Options.) A tf.compat.v1.ConfigProto that specifies default
configuration options for all sessions that run on this server.
start: (Optional.) Boolean, indicating whether to start the server after
creating it. Defaults to True.
Raises:
tf.errors.OpError: Or one of its subclasses if an error occurs while
creating the TensorFlow server.
"""
self._server_def = _make_server_def(server_or_cluster_def, job_name,
task_index, protocol, config)
self._server = c_api.TF_NewServer(self._server_def.SerializeToString())
if start:
self.start()
TF_NewServer 方法就進入到了C++世界,其調用 tensorflow::NewServer 建立了C++ 世界的Server。
TF_Server* TF_NewServer(const void* proto, size_t proto_len,
TF_Status* status) {
#if defined(IS_MOBILE_PLATFORM) || defined(IS_SLIM_BUILD)
status->status = tensorflow::errors::Unimplemented(
"Server functionality is not supported on mobile");
return nullptr;
#else
tensorflow::ServerDef server_def;
if (!server_def.ParseFromArray(proto, static_cast<int>(proto_len))) {
status->status = InvalidArgument(
"Could not parse provided bytes into a ServerDef protocol buffer");
return nullptr;
}
std::unique_ptr<tensorflow::ServerInterface> out_server;
status->status = tensorflow::NewServer(server_def, &out_server);
if (!status->status.ok()) return nullptr;
return new TF_Server(std::move(out_server));
#endif // defined(IS_MOBILE_PLATFORM) || defined(IS_SLIM_BUILD)
}
然後會通過如下代碼選擇建立何種Server。
// Creates a server based on the given server_def, and stores it in
// *out_server. Returns OK on success, otherwise returns an error.
Status NewServer(const ServerDef& server_def,
std::unique_ptr<ServerInterface>* out_server) {
ServerFactory* factory;
TF_RETURN_IF_ERROR(ServerFactory::GetFactory(server_def, &factory));
return factory->NewServer(server_def, ServerFactory::Options(), out_server);
}
而 GrpcServer 則早就註冊到系統之中,GrpcServerFactory 是工廠類,如果 protocol 是”grpc”,則生成 GrpcServer。
class GrpcServerFactory : public ServerFactory {
public:
bool AcceptsOptions(const ServerDef& server_def) override {
return server_def.protocol() == "grpc";
}
Status NewServer(const ServerDef& server_def, const Options& options,
std::unique_ptr<ServerInterface>* out_server) override {
return GrpcServer::Create(server_def, Env::Default(),
options.local_device_mgr, out_server);
}
};
因此,我們接下來就看看GrpcServer。
2.3 ServerInterface
ServerInterface 是基礎接口,其代表一個輸出Master和Worker服務的 TensorFlow Sever。定義在tensorflow/core/distributed_runtime/server_lib.h 之中。 這個庫會基於註冊/工廠的機制來創建 TensorFlow 服務器對象。每個服務器的實現都必須有一個配套的 ServerFactory,並創建一個靜態的 “registrar”對象,用工廠類的一個實例調用 ServerFactory::Register()。具體如下:
class ServerInterface {
public:
ServerInterface() {}
virtual ~ServerInterface() {}
// Starts the server running asynchronously. Returns OK on success, otherwise
// returns an error.
virtual Status Start() = 0;
// Stops the server asynchronously. Returns OK on success, otherwise returns
// an error.
//
// After calling Stop(), the caller may call Join() to block until the
// server has stopped.
virtual Status Stop() = 0;
// Blocks until the server has stopped. Returns OK on success, otherwise
// returns an error.
virtual Status Join() = 0;
// Returns a target string that can be used to connect to this server using
// tensorflow::NewSession().
virtual const string target() const = 0;
virtual WorkerEnv* worker_env() = 0;
virtual MasterEnv* master_env() = 0;
// Update the set of workers that can be reached by the server
virtual Status UpdateServerDef(const ServerDef& server_def) = 0;
// Functions to operate on service-specific properties.
//
// Add master eager context to local eager service in order to handle enqueue
// requests from remote workers.
virtual Status AddMasterEagerContextToEagerService(
const tensorflow::uint64 context_id, EagerContext* context) = 0;
// Set coordination service agent instance to coordination service RPC handler
virtual Status SetCoordinationServiceAgentInstance(
CoordinationServiceAgent* agent) = 0;
private:
TF_DISALLOW_COPY_AND_ASSIGN(ServerInterface);
};
工廠類定義如下:
class ServerFactory {
public:
struct Options {
// Local DeviceMgr to use.
tensorflow::DeviceMgr* local_device_mgr;
};
// Creates a new server based on the given server_def, and stores
// it in *out_server. Returns OK on success, otherwise returns an
// error.
virtual Status NewServer(const ServerDef& server_def, const Options& options,
std::unique_ptr<ServerInterface>* out_server) = 0;
// Returns true if and only if this factory can create a server
// based on the given server_def.
virtual bool AcceptsOptions(const ServerDef& server_def) = 0;
virtual ~ServerFactory() {}
// For each ServerFactory subclass, an instance of that class must
// be registered by calling this method.
//
// The server_type must be unique to the server factory.
static void Register(const string& server_type, ServerFactory* factory);
// Looks up a factory that can create a server based on the given
// server_def, and stores it in *out_factory. Returns OK on
// success, otherwise returns an error.
static Status GetFactory(const ServerDef& server_def,
ServerFactory** out_factory);
};
2.4 GrpcServer
2.4.1 定義
GrpcServer 是管理當前進程中的 Master 和 Worker 服務的結構,通過 Start()、Stop()、Join() 構成了下面注釋之中的狀態機,
- New 狀態上啟動了 grpc::Server,但是沒有對外提供服務。
- Started 狀態上啟動 MasterService 和 WorkerService 兩個對外的 RPC 服務。
- Stopped 狀態下停止 MasterService 和 WorkerService 兩個服務。
// Represents the current state of the server, which changes as follows:
//
// Join() Join()
// ___ ___
// Start() \ / Stop() \ /
// NEW ---------> STARTED --------> STOPPED
// \ /
// \________________________/
// Stop(), Join()
其主要成員變量是:
- MasterEnv master_env_ : 是 Master 工作所使用的環境,環境之中不擁有這些實際指針;
- worker_env_ : WorkerEnv 類型,是worker工作所使用的環境;
- master_impl_ :具體執行業務操作的 Master 類;
- worker_impl_ :具體執行業務操作的 GrpcWorker;
- master_service_ :GrpcMasterService 實例;
- worker_service_ : GrpcWorkerService 實例;
- master_thread_ : MasterService 用來 RPC polling 的線程;
- worker_thread_ : WorkerService 用來 RPC polling 的線程;
- std::unique_ptr<::grpc::Server> server_ :GPRC 通信 server;
具體來說,就是啟動了若干個線程,分別執行了 GrpcMasterService,GrpcWorkerService,GrpcEagerServiceImpl。
class GrpcServer : public ServerInterface {
private:
Env* env_;
// The port to which this server is bound.
int bound_port_ = 0;
// The host name of this server
string host_name_;
// Guards server configuration, server, and state.
mutex mu_;
enum State { NEW, STARTED, STOPPED };
State state_ TF_GUARDED_BY(mu_);
// Implementation of a TensorFlow master, and RPC polling thread.
MasterEnv master_env_;
std::unique_ptr<Master> master_impl_;
AsyncServiceInterface* master_service_ = nullptr;
std::unique_ptr<Thread> master_thread_ TF_GUARDED_BY(mu_);
std::map<std::string, AsyncServiceInterface*> extra_services_;
std::vector<std::unique_ptr<Thread>> extra_service_threads_
TF_GUARDED_BY(mu_);
// Implementation of a TensorFlow worker, and RPC polling thread.
WorkerEnv worker_env_;
std::unique_ptr<const DeviceMgr> owned_device_manager_;
std::unique_ptr<GrpcWorker> worker_impl_;
AsyncServiceInterface* worker_service_ = nullptr;
std::unique_ptr<Thread> worker_thread_ TF_GUARDED_BY(mu_);
std::unique_ptr<GrpcWorkerEnv> grpc_worker_env_;
// TensorFlow Eager implementation, and RPC polling thread.
AsyncServiceInterface* eager_service_ = nullptr;
std::unique_ptr<Thread> eager_thread_ TF_GUARDED_BY(mu_);
std::shared_ptr<WorkerSession> worker_session_;
// TensorFlow profiler service implementation.
std::unique_ptr<grpc::ProfilerService::Service> profiler_service_ = nullptr;
// The overall server configuration.
ServerDef server_def_ TF_GUARDED_BY(mu_);
std::unique_ptr<::grpc::Server> server_ TF_GUARDED_BY(mu_);
};
2.4.2 初始化
初始化邏輯大致如下:
-
獲取各種相關配置,初始化 MasterEnv 和 WorkerEnv;
-
建立Device Manager;
-
構建device列表;
-
創建 RpcRendezvousMgr;
-
建立server必要設置;
-
創建 Master 以及對應的 GrpcMasterService,GrpcMasterService 是對外提供服務的實體,消息到達時候會調用這裡的消息處理函數。具體業務則由 Master 提供。
-
創建 GrpcWorker 以及對應的 GrpcWorkerService,GrpcWorkerService是對外提供服務的實體,消息到達時候會調用這裡的消息處理函數。具體業務則由 GrpcWorker 提供。
-
調用 builder.BuildAndStart 啟動GRPC 通信服務器 grpc::Server,當啟動之後,GrpcServer 依然是 New 狀態,沒有提供對外服務,需要狀態機轉換到 Started 狀態才會對外提供服務;
-
建立grpc 需要的environment;
-
創建 WorkerCache;
-
創建一個 SessionMgr,並隨後會在這個 SessionMgr 中創建 WorkerSession;
-
設置 MasterSession 的Factory,如果需要時候就會調用創建MasterSession,因為有的任務比如ps是不需要MasterSession的;
-
註冊 LocalMaster;
Status GrpcServer::Init(const GrpcServerOptions& opts) {
mutex_lock l(mu_);
master_env_.env = env_;
worker_env_.env = env_;
// Check parameters before DeviceFactory::AddDevices,
// otherwise if 'task_index=-1' the program will abort.
int requested_port;
TF_RETURN_IF_ERROR(GetHostAndPort(server_def_, &host_name_, &requested_port));
SessionOptions sess_opts;
ConfigProto config = server_def_.default_session_config();
sess_opts.config = config;
// Configure shared devices between master and worker.
string name_prefix =
strings::StrCat("/job:", server_def_.job_name(), "/replica:0",
"/task:", server_def_.task_index());
// 建立Device Manager
if (opts.local_device_mgr == nullptr) {
std::vector<std::unique_ptr<Device>> devices;
TF_RETURN_IF_ERROR(
DeviceFactory::AddDevices(sess_opts, name_prefix, &devices));
worker_env_.device_mgr = new DynamicDeviceMgr(std::move(devices));
owned_device_manager_.reset(worker_env_.device_mgr);
} else {
worker_env_.device_mgr = opts.local_device_mgr;
owned_device_manager_.reset(nullptr);
}
// 構建device列表
worker_env_.local_devices = worker_env_.device_mgr->ListDevices();
master_env_.local_devices = worker_env_.device_mgr->ListDevices();
// 創建了 RpcRendezvousMgr
worker_env_.rendezvous_mgr = opts.rendezvous_mgr_func == nullptr
? new RpcRendezvousMgr(&worker_env_)
: opts.rendezvous_mgr_func(&worker_env_);
string unused;
string default_worker_name;
if (!DeviceNameUtils::SplitDeviceName(master_env_.local_devices[0]->name(),
&default_worker_name, &unused)) {
return errors::Internal("Could not parse worker name.");
}
// 建立server必要設置
::grpc::ServerBuilder builder;
builder.AddListeningPort(strings::StrCat("0.0.0.0:", requested_port),
GetServerCredentials(server_def_), &bound_port_);
builder.SetMaxMessageSize(std::numeric_limits<int32>::max());
bool reuse_port = false;
const Status status =
ReadBoolFromEnvVar("TF_GRPC_REUSE_PORT", false, &reuse_port);
auto server_build_option =
reuse_port
? std::unique_ptr<::grpc::ServerBuilderOption>(new ReusePortOption)
: std::unique_ptr<::grpc::ServerBuilderOption>(new NoReusePortOption);
builder.SetOption(std::move(server_build_option));
// Allow subclasses to specify more args to pass to the gRPC server.
// 創建 Master 以及對應的 GrpcMasterService
MaybeMutateBuilder(&builder, requested_port);
master_impl_ = CreateMaster(&master_env_);
master_service_ = NewGrpcMasterService(master_impl_.get(), config, &builder);
// 創建 GrpcWorker 以及對應的 GrpcWorkerService
worker_impl_ = opts.worker_func ? opts.worker_func(&worker_env_, config)
: NewGrpcWorker(&worker_env_, config);
worker_service_ = NewGrpcWorkerService(worker_impl_.get(), &builder,
opts.worker_service_options)
.release();
eager_service_ = new eager::GrpcEagerServiceImpl(&worker_env_, &builder);
profiler_service_ = profiler::CreateProfilerService();
builder.RegisterService(profiler_service_.get());
// Add any extra services to be started.
extra_services_ = ExtraServices(&builder);
// extra service:
if (opts.service_func != nullptr) {
opts.service_func(&worker_env_, &builder);
}
// 啟動 GRPC 通信 server
server_ = builder.BuildAndStart();
// Create the execution environment for the GRPC workers cache.
// 建立grpc 需要的environment
grpc_worker_env_.reset(CreateGrpcWorkerEnv());
// 創建 WorkerCache
WorkerCacheInterface* worker_cache;
WorkerCacheFactoryOptions worker_cache_factory_options(server_def_);
TF_RETURN_IF_ERROR(
WorkerCacheFactory(worker_cache_factory_options, &worker_cache));
CHECK_NE(nullptr, worker_cache);
if (opts.collective_mgr_func) {
worker_env_.collective_executor_mgr.reset(
opts.collective_mgr_func(config, &worker_env_, worker_cache));
} else {
worker_env_.collective_executor_mgr = CreateProdRpcCollectiveExecutorMgr(
config, worker_env_.device_mgr, MaybeCreateNcclCommunicator(),
worker_cache, default_worker_name);
}
// Set up worker environment.
// 創建一個 SessionMgr,並隨後會在這個 SessionMgr 中創建 WorkerSession
worker_env_.session_mgr = new SessionMgr(
&worker_env_, SessionMgr::WorkerNameFromServerDef(server_def_),
std::unique_ptr<WorkerCacheInterface>(worker_cache),
[this](const ServerDef& server_def, WorkerCacheInterface** worker_cache) {
WorkerCacheFactoryOptions options(server_def);
return WorkerCacheFactory(options, worker_cache);
});
worker_env_.compute_pool = ComputePool(sess_opts);
// Finish setting up master environment.
master_env_.ops = OpRegistry::Global();
master_env_.worker_cache = worker_cache;
master_env_.collective_executor_mgr =
worker_env_.collective_executor_mgr.get();
StatsPublisherFactory stats_factory = opts.stats_factory;
// 設置 MasterSession 的Factory,如果需要時候就會調用創建MasterSession,因為有的任務比如ps是不需要MasterSession的
master_env_.master_session_factory =
[config, stats_factory](
SessionOptions options, const MasterEnv* env,
std::unique_ptr<std::vector<std::unique_ptr<Device>>> remote_devs,
std::unique_ptr<WorkerCacheInterface> worker_cache,
std::unique_ptr<DeviceSet> device_set,
std::vector<string> filtered_worker_list) {
options.config.MergeFrom(config);
return new MasterSession(options, env, std::move(remote_devs),
std::move(worker_cache), std::move(device_set),
std::move(filtered_worker_list),
stats_factory);
};
master_env_.worker_cache_factory =
[this](const WorkerCacheFactoryOptions& options,
WorkerCacheInterface** worker_cache) {
return WorkerCacheFactory(options, worker_cache);
};
// Provide direct access to the master from in-process clients.
// 註冊 LocalMaster
LocalMaster::Register(target(), master_impl_.get(),
config.operation_timeout_in_ms());
return Status::OK();
}
Master
Master 是具體提供業務的對象。上面代碼之中,生成master的相關語句如下
master_impl_ = CreateMaster(&master_env_);
LocalMaster::Register(target(), master_impl_.get(),
config.operation_timeout_in_ms());
由以下代碼可知,GrpcServer 生成的是 Master。
std::unique_ptr<Master> GrpcServer::CreateMaster(MasterEnv* master_env) {
return std::unique_ptr<Master>(new Master(master_env, 0.0));
}
由以下代碼可知,Master在此時對應的target是”grpc://”。
const string GrpcServer::target() const {
return strings::StrCat("grpc://", host_name_, ":", bound_port_);
}
LocalMaster 會把Master註冊到自己內部。
// Provide direct access to the master from in-process clients.
LocalMaster::Register(target(), master_impl_.get(),
config.operation_timeout_in_ms());
Worker
初始化代碼之中,如下代碼創建了worker,默認就是調用了 NewGrpcWorker 創建 GrpcWorker(具體提供業務的對象)。
worker_impl_ = opts.worker_func ? opts.worker_func(&worker_env_, config)
: NewGrpcWorker(&worker_env_, config);
2.4.3 Env
WorkerEnv
WorkerEnv 把各種相關配置歸總在一起,供 Worker 使用,可以認為是 Worker 運行上下文,WorkerEnv 與 Server 具有同樣生命周期,在 Worker 運行時全程可見,其主要變量如下:
-
Env* env :跨平台 API 接口
-
SessionMgr* session_mgr :管理 WorkerSession 集合。
-
std::vector<Device*> local_devices :本地設備集。
-
DeviceMgr* device_mgr :管理本地設備集和遠端設備集。
-
RendezvousMgrInterface* rendezvous_mgr :管理 Rendezvous 實例集。
-
std::unique_ptr
collective_executor_mgr; -
thread::ThreadPool* compute_pool :線程池,每次有算子執行,都從中獲取一個線程。
// The worker environment class, which holds a bag of pointers to
// per-worker singletons.
//
// WorkerEnv does not own its member pointers.
struct WorkerEnv {
Env* env = nullptr;
// session_mgr encapsulates state for each session.
SessionMgr* session_mgr = nullptr;
// The local devices of this worker. Devices are owned by the device_mgr.
//
// REQUIRES: !local_devices.empty().
std::vector<Device*> local_devices;
// device_mgr manages local devices (cpu and gpu). The WorkerService
// is the network interface for managed devices.
//
// Note: Please use the device_mgr associated with your session if appropriate
// instead of this one. Using this device_mgr does not support ClusterSpec
// propagated sessions.
DeviceMgr* device_mgr = nullptr;
// A set of rendezvous keyed by step ids.
RendezvousMgrInterface* rendezvous_mgr = nullptr;
// Generates per-step CollectiveExecutors and has access to utilities
// supporting collective operations.
std::unique_ptr<CollectiveExecutorMgrInterface> collective_executor_mgr;
// A pool of threads for scheduling compute work.
thread::ThreadPool* compute_pool = nullptr;
// Coordination service.
CoordinationServiceInterface* coord_service;
};
WorkerEnv 的幾個 管理類成員變量都很重要,比如 SessionMgr 類,其為 Worker 管理會話,比如會話的產生和銷毀,同時還維護了當前 Worker 的會話句柄到會話的映射。
class SessionMgr {
public:
Status CreateSession(...);
Status DeleteSession(...);
private:
const WorkerEnv* const worker_env_;
const WorkerCacheFactory worker_cache_factory_;
std::map<string, std::unique_ptr<WorkerSession>> sessions_ GUARDED_BY(mu_);
};
MasterEnv
MasterEnv 把各種相關配置歸總在一起,供 master 使用,可以認為是 Master 運行時的上下文,在 Master 的整個生命周期都是可見的。其主要成員變量如下:
- Env* env :跨平台 API 接口。
- vector<Device*> local_devices :本地設備集;
- WorkerCacheFactory worker_cache_factory :工廠類,可以創建 WorkerCacheInterface 實例;
- MasterSessionFactory master_session_factory :工廠類,可以創建 MasterSession 實例;
- WorkerCacheInterface :創建 MasterInterface 實例, MasterInterface 用於調用遠端 MasterService 服務;
- OpRegistryInterface* ops :查詢特定 OP 的元數據;
- CollectiveExecutorMgrInterface* collective_executor_mgr :訪問集合操作。
// The master environment class, which holds a bag of pointers to
// per-master state.
//
// MasterEnv does not own its member pointers.
struct MasterEnv {
Env* env = nullptr;
// Object from which WorkerInterface instances can be obtained. Not owned.
WorkerCacheInterface* worker_cache = nullptr;
// The operation definitions to use. Must be filled before use.
const OpRegistryInterface* ops = nullptr;
// Local devices co-located with this master. Devices are not owned
// by the master service.
//
// REQUIRES: !local_devices.empty().
std::vector<Device*> local_devices;
// Factory for creating master sessions, given session options and a
// vector of devices.
//
// The caller of the function takes ownership of the returned
// MasterSession, which may not be null. Ownership of the
// MasterEnv* is retained by the caller.
std::function<MasterSession*(
SessionOptions, MasterEnv*,
std::unique_ptr<std::vector<std::unique_ptr<Device>>>,
std::unique_ptr<WorkerCacheInterface>,
std::unique_ptr<DeviceSet> device_set,
std::vector<string> filtered_worker_list)>
master_session_factory;
std::function<Status(const WorkerCacheFactoryOptions&,
WorkerCacheInterface**)>
worker_cache_factory;
// Generates per-step CollectiveExecutors and has access to utilities
// supporting collective operations. Not owned.
CollectiveExecutorMgrInterface* collective_executor_mgr = nullptr;
};
2.5 啟動
Python 代碼之中,最後是 start 方法的調用。
@tf_export("distribute.Server", v1=["distribute.Server", "train.Server"])
@deprecation.deprecated_endpoints("train.Server")
class Server(object):
def __init__(self,
server_or_cluster_def,
job_name=None,
task_index=None,
protocol=None,
config=None,
start=True):
self._server_def = _make_server_def(server_or_cluster_def, job_name,
task_index, protocol, config)
self._server = c_api.TF_NewServer(self._server_def.SerializeToString())
if start:
self.start()
在調用之前,Server 是 New 狀態,調用 start 之後,GrpcServer 的狀態從 New 遷移 Started 狀態。Start() 方法之中,會啟動三個獨立線程,分別是 MasterService,WorkerService,EagerService 的消息處理器。至此,GrpcServer 才對外提供 MasterService 和 WorkerService 這兩種服務。
Status GrpcServer::Start() {
mutex_lock l(mu_);
switch (state_) {
case NEW: {
master_thread_.reset(
env_->StartThread(ThreadOptions(), "TF_master_service",
[this] { master_service_->HandleRPCsLoop(); }));
worker_thread_.reset(
env_->StartThread(ThreadOptions(), "TF_worker_service",
[this] { worker_service_->HandleRPCsLoop(); }));
eager_thread_.reset(
env_->StartThread(ThreadOptions(), "TF_eager_service",
[this] { eager_service_->HandleRPCsLoop(); }));
for (const auto& kv : extra_services_) {
const std::string& service_name = kv.first;
AsyncServiceInterface* service = kv.second;
std::unique_ptr<Thread> extra_service_thread;
extra_service_thread.reset(env_->StartThread(
ThreadOptions(), service_name,
[service = service] { service->HandleRPCsLoop(); }));
extra_service_threads_.push_back(std::move(extra_service_thread));
}
state_ = STARTED;
return Status::OK();
}
case STARTED:
return Status::OK();
case STOPPED:
return errors::FailedPrecondition("Server has stopped.");
default:
LOG(FATAL);
}
}
2.6 等待終止服務
啟動之後,需要讓這幾個線程做 Join 操作,因此主線程會掛起直至這兩個線程終止,這樣可以持久地對外提供 MasterService 服務和 WorkerService 服務。
Status GrpcServer::Join() {
mutex_lock l(mu_);
switch (state_) {
case NEW:
// Prevent the server from being started subsequently.
state_ = STOPPED;
return Status::OK();
case STARTED:
case STOPPED:
master_thread_.reset();
worker_thread_.reset();
eager_thread_.reset();
for (auto& thread : extra_service_threads_) {
thread.reset();
}
return Status::OK();
default:
LOG(FATAL);
}
}
至此,TF 分佈式環境總體介紹完畢。
0xFF 參考
//jcf94.com/2018/02/28/2018-02-28-tfunpacking3/
什麼是in-graph replication和between-graph replication?
[騰訊機智] TensorFlow源碼解析(1): 創建會話
TensorFlow 分佈式(Distributed TensorFlow)
tensorflow源碼解析之distributed_runtime
Distributed TensorFlow: A Gentle Introduction
TensorFlow中的Placement啟發式算法模塊——Placer
TensorFlow的圖切割模塊——Graph Partitioner
TensorFlow中的通信機制——Rendezvous(一)本地傳輸