多任务学习中的数据分布问题(一)

今天这个专题源于我在做分布式多任务学习实验时在选取数据集的时候的疑惑,以下我们讨论多任务学习中(尤其是在分布式的环境下)如何选择数据集和定义任务。

多任务学习最初的定义是:”多任务学习是一种归纳迁移机制,基本目标是提高泛化性能。多任务学习通过相关任务训练信号中的领域特定信息来提高泛化能力,利用共享表示采用并行训练的方法学习多个任务”。然而其具体实现手段却有许多(如基于神经网络的和不基于神经网络的,这也是容易让人糊涂的地方),但是不管如何,其关键点——共享表示是核心。

1.经典(非神经网络的)多任务学习

经典(非神经网络的)多任务学习我们已经在博文《分布式多任务学习论文阅读(一):多任务学习速览 》中详细讨论,此处不再赘述。在这种模式中给定\(t\)个学习任务\(\{\mathcal{T}_t\}_{t=1}^T\),每个任务各对应一个数据集\(\mathcal{D}_t = {\{(\bm{x}_{ti}, y_{ti})}_{i=1}^{m_t}\}\)(其中\(\bm{x_{ti}} \in \mathbb{R}^{d}\)\(y_{ti} \in \mathbb{R}\)),然后根据根据\(T\)个任务的训练集学习\(T\)个函数\(\{f_t(\bm{x})\}_{t=1}^{T}\)。在这种模式下,每个任务的模型假设(比如都是线性函数)都常常是相同,导致每个任务的模型(权重)不同的原因归根结底在于每个任务的数据集不同(每个任务的损失函数默认相同,但其实可同可不同)。 此模式优化的目标函数可以写作:

\[\begin{aligned}
\underset{\textbf{W}}{\min}
& \sum_{t=1}^{T}\mathbb{E}_{(\bm{x_{ti}, y_{ti})\sim \mathcal{D}_t}}[L(y_{ti}, f(\bm{x}_{ti}; \bm{w}_t))]+ \lambda g(\textbf{W})\\

=& \sum_{t=1}^{T} [\frac{1}{m_t}\sum_{i=1}^{m_t}L(y_{ti}, f(\bm{x}_{ti}; \bm{w}_t))]+\lambda g(\textbf{W})\\
\end{aligned}
\tag{2}
\]

(此处\(\textbf{W}=(\bm{w}_1,\bm{w}_2,…,\bm{w}_T)\)为所有任务参数构成的矩阵,\(g(\textbf{W})\)编码了任务的相关性)

我们下列所讨论的分布式多任务学习,采用的数据分布假设也大多来自这种情况。

2. 联邦学习和经典多任务学习中的数据分布对比

论文[1][2]在联邦学习的情景下引入了多任务学习,从这篇两篇论文我们可以看到联邦学习和多任务学习的关联和差异。
在标准的联邦学习中,我们需要实现训练一个“元模型”,然后再分发在各任务节点上微调。每个节点任务不共享数据,但是可以共享参数,以此联合训练出各一个全局的模型。也就是说,联邦学习下每个节点的任务是一样的,但是由于数据不独立同分布,每个模型训练出的局部模型差异会很大,就会使得构建一个全局的、通用的模型难度很大。比如同样一个下一个单词预测的任务,同样给定”I love eating,”,但对于下一个单词每个client会给出不同的答案。

[1][2]论文都提出一个思想,如果我们不求训练出一个全局的模型,使每个节点训练各不相同的模型这样一种训练方式,这被冠名为联邦多任务学习了。论文[1][2]都保持了经典多任务学习的假设,不过有些许区别。论文[1]中每个任务的训练数据分布和损失函数都不同。但是论文[2]中假定每个任务不同之处只有训练数据的分布。

3.基于神经网络的多任务学习中的数据分布

基于神经网络的多任务学习(也就是大多数在CV、NLP)中使用的那种,分类和定义其实非常会乱,下面我们来看其中的一些常见方式。

3.1 同样的输入数据,不同的loss

大多数基于神经网络的多任务学习采用的方式是各任务基于同样的输入数据(或者可以看做将不同任务的数据混在一起使用),用不同的loss定义不同任务的。

如CV中使用的深度关系多任务学习模型:

CV多任务学习

NLP中的Joint learning:

NLP多任务学习

推荐系统中的用户序列多任务模型:

NLP多任务学习

3.1 不同的输入数据,不同的loss

我们也可以保持共享表示层这一关键特性不变,但是每个任务有不同的输入数据和不同的loss,如下图所示:
NLP多任务学习
在这种架构中,Input x表示不同任务的输入数据,绿色部分表示不同任务之间共享的层,紫色表示每个任务特定的层,Task x表示不同任务对应的损失函数层。在多任务深度网络中,低层次语义信息的共享有助于减少计算量,同时共享表示层可以使得几个有共性的任务更好的结合相关性信息,任务特定层则可以单独建模任务特定的信息,实现共享信息和任务特定信息的统一。

(注意,在深度网络中,多任务的语义信息还可以从不同的层次输出,例如GoogLeNet中的两个辅助损失层。另外一个例子比如衣服图像检索系统,颜色这类的信息可以从较浅层的时候就进行输出判断,而衣服的样式风格这类的信息,更接近高层语义,需要从更高的层次进行输出,这里的输出指的是每个任务对应的损失层的前一层。)

3.2 不同的输入数据,相同的loss

我们想一下,每个任务对应不同的输入数据,相同的loss的情况。比如我们同一个图像分类网络和交叉熵损失,但一个任务的数据集是男人和女人,一个任务数据集是人和狗,我们将这两个数据集进行联合学习,这是否算是多任务学习?如果是,是否能同时提升人-人分类器的精度和人-狗分类器的精度?(如下图所示)
NLP多任务学习

第一个问题,按照经典多任务学习的分类,这种应该是算的,因为每个任务的数据集不同,直接导致了学得的模型不同,又由于有共享表示这一关键特性,也可以算是多任务学习。至于第二个问题,我觉得是可以的,因为这两个任务虽然数据集不同,但是是互相关联的,比如人的话可能会检测头发,狗的话可能会检测耳朵,但是都有一个检测局部特征的相似性在里面。

参考文献

  • [1] Smith V, Chiang C K, Sanjabi M, et al. Federated multi-task learning[J]. Advances in Neural Information Processing Systems, 2017.
  • [2] Marfoq O, Neglia G, Bellet A, et al. Federated multi-task learning under a mixture of distributions[J]. Advances in Neural Information Processing Systems, 2021, 34.