【图像处理笔记】图像分割之聚类和超像素
0 引言
大多数分割算法都基于图像灰度值的两个基本性质之一:不连续性和相似性。第一类方法根据灰度的突变(如边缘)将图像分割为多个区域:首先寻找边缘线段,然后将这些线段连接为边界的方法来识别区域。第二类方法根据一组预定义的准则把一幅图像分割为多个区域。本节讨论两种相关的区域分割方法:(1)在数据中寻找聚类的经典方法,它与亮度和颜色等变量有关;(2)用聚类从图像中提取“超像素”的现代方法。
1 使用k均值聚类的区域分割
1.1 原理
聚类方法的思想是将样本集合按照其特征的相似性划分为若干类别,使同一类别样本的特征具有较高的相似性,不同类别样本的特征具有较大的差异性。令{z1, z2, z3 …, zn}是样本集合,在图像分割中,样本向量z的每个分量表示一个数值像素属性。例如,分割只基于灰度尺度时,z是一个表示像素灰度的标量。分割的如果是RGB彩色图像,z通常是一个三维向量,这个三维向量的每个分量是RGB三通道的灰度值。k均值聚类的目的就是将样本集合划分为k个满足如下最优准则的不相交的聚类集合C={C1, C2, …, Ck}:
式中,mi是集合Ci中样本的均值向量(或质心),||z-mi||项是Ci中的一个样本到均值mi的欧式距离。换言之,这个公式说,我们感兴趣的是找到集合C={C1, C2, …, Ck},集合中的每个点到该集合的均值的距离之和是最小的。
基于聚类的区域分割,就是基于图像的灰度、颜色、纹理、形状等特征,用聚类算法把图像分成若干类别或区域,使每个点到聚类中心的均值最小。k 均值(k-means)是一种无监督聚类算法。基于 k 均值聚类算法的区域分割,算法步骤为:
(1)初始化算法:规定一组初始均值
(2)将样本分配给聚类:对所有的像素点,计算像素到每个聚类中心的距离,将像素分类到距离最小的一个聚类中;
(3)更新聚类中心:根据分类结果计算出新的聚类中心;
(4)完备性验证:计算当前步骤和前几步中平均向量之间的差的欧几里得范数。计算残差E,即k个范数之和。若E≤T,其中T是一个规定的非负阈值,则停止。否则,返回步骤2。
1.2 cv::kmeans函数
OpenCV提供了函数cv::kmeans来实现 k-means 聚类算法。函数cv::kmeans不仅可以基于灰度、颜色对图像进行区域分割,也可以基于样本的其它特征如纹理、形状进行聚类。
double cv::kmeans(InputArray data, //用于聚类的数据,类型为 CV_32F int K, //设定的聚类数量 InputOutputArray bestLabels, //输出整数数组,用于存储每个样本的聚类类别索引 TermCriteria criteria, //算法终止条件:即最大迭代次数或所需精度 int attempts, //用于指定使用不同初始标记执行算法的次数 int flags, //初始化聚类中心的方法:0=随机初始化 1=kmeans++方法初始化 2=第一次用用户指定的标签初始化,后面attempts-1都用随机或版随机的初始化 OutputArray centers = noArray() //聚类中心的输出矩阵,每个聚类中心占一行 )
示例 图像分割之k均值聚类
Mat src = imread("./14.tif", 0); Mat dataPixels = src.reshape(0, 1);//可以是一列,每一行表示一个样本;或者一行,一列是一个样本;样本的分量数为通道数 dataPixels.convertTo(dataPixels, CV_32FC1);//输入需要是32位浮点型 int numCluster = 3; Mat labels; Mat centers; kmeans(dataPixels, numCluster, labels, TermCriteria(TermCriteria::EPS + TermCriteria::COUNT, 10, 0.1), 3, KMEANS_PP_CENTERS, centers); Mat dst = Mat::zeros(src.size(), CV_8UC1); float* pdata = dataPixels.ptr<float>(0); for (int i = 0; i < src.rows * src.cols; i++) { int k = labels.ptr<int>(i)[0];//每个像素对应的标签k,即属于集合k pdata[i] = centers.ptr<float>(k)[0];//用集合中心替换该像素 } dataPixels.convertTo(dataPixels, CV_8UC1); dst = dataPixels.reshape(0, src.rows);
1.3 cv::kmeans源码
当图片非常大时,对图像进行简单的计算操作,耗时就会变得非常大,常用的加速方法如OpenMp,TBB,OpenCL和CUDA。使用cuda时,图片在cpu和gpu之间的传输时间就达到上百ms,不适合本来就是ms级的计算。在kmeans源码中使用parallel_for_并行计算各个样本到聚类中心的距离。这边写一个简单的例子,了解下parallel_for_的用法。
示例 利用并行计算加速图片旋转
// 方法1:并行 将该方法写成一个类,继承ParallelLoopBody,然后重写(),利用parallel_for_可以开启并行 class trans :public ParallelLoopBody { public: trans(const uchar* _src, uchar*_dst, int _dims, int _istep):src(_src), dst(_dst), dims(_dims), istep(_istep) {} void operator()(const Range& range) const //重载操作符() { for (int n = range.start; n < range.end; ++n) { for (int i = 0; i < dims; i++) dst[i * istep + (istep - 1 - n)] = src[n * dims + i]; } } private: const uchar* src; uchar* dst; int dims; int istep; }; // 方法2 for循环 void rotate(Mat& src, Mat& dst, int srcWidth, int srcHeight) { int istep = src.step; uchar* psrc = src.ptr<uchar>(); uchar* pdst = dst.ptr<uchar>(); for (size_t i = 0; i < srcHeight; i++) for (size_t j = 0; j < srcWidth; j++) pdst[j * istep + (istep-1-i)] = psrc[i * istep + j]; } //调用 uchar* psrc = src.ptr<uchar>(); uchar* pdst = dst.ptr<uchar>(); int dims = src.cols; int istep = src.step; int N = src.rows; rotate(src, dst, ROTATE_90_CLOCKWISE);// opencv提供的方法 3ms rotate(src, dst, src.cols, src.rows);// 自己写的for循环 20ms parallel_for_(Range(0, N), trans(psrc, pdst, dims, istep)); // 并行加速3ms
源码位于opencv路径下sources\modules\core\src\kmeans.cpp中,首先是初始化算法:规定一组初始center,一种是随机产生,另一种是用kmeans++初始化。kmeans++初始化聚类中心是以概率的形式逐个选择聚类中心,并在选择聚类中心时,给距离较远的点更高的权重,即更容易被选择为聚类中心。假设有5个点,随机选择其中一个点为中心,计算其他点到该点的距离的平方分别为10,20,5,15。则选下一个聚类中心时它们的权值为0.2,0.4,0.1和0.3。用代码写就是,距离平方和50,在【0,50】间随机生成一个数,用这个数挨个减去10,再减去20…直到结果小于0,下一个聚类中心就是该点。
// 随机产生聚类中心 // dims 样本向量的分量数 // box 存放了所有样本中每个分量的最大值和最小值 static void generateRandomCenter(int dims, const Vec2f* box, float* center, RNG& rng) { float margin = 1.f / dims; for (int j = 0; j < dims; j++) center[j] = ((float)rng * (1.f + margin * 2.f) - margin) * (box[j][1] - box[j][0]) + box[j][0]; } /* k-means center initialization using the following algorithm: Arthur & Vassilvitskii (2007) k-means++: The Advantages of Careful Seeding */ static void generateCentersPP(const Mat& data, Mat& _out_centers, int K, RNG& rng, int trials) { CV_TRACE_FUNCTION(); const int dims = data.cols, N = data.rows; cv::AutoBuffer<int, 64> _centers(K); int* centers = &_centers[0]; cv::AutoBuffer<float, 0> _dist(N * 3);// 3倍样本数量大小,存不同时刻样本到最近聚类中心的距离 float* dist = &_dist[0], * tdist = dist + N, * tdist2 = tdist + N; double sum0 = 0; // 第一个聚类中心随机生成 centers[0] = (unsigned)rng % N;// %N 即可获得[0,N-1]的随机数 // 计算所有样本到第一个中心的距离,并求和 for (int i = 0; i < N; i++) { dist[i] = hal::normL2Sqr_(data.ptr<float>(i), data.ptr<float>(centers[0]), dims); sum0 += dist[i]; } // 计算第2、3...个聚类中心,离第一个中心越远的点权重越高 for (int k = 1; k < K; k++) { double bestSum = DBL_MAX; int bestCenter = -1; for (int j = 0; j < trials; j++)// 相当于随机抛硬币掉在哪个格子里,做trials次 { double p = (double)rng * sum0;//(double)rng会产生0-1的随机数 int ci = 0; for (; ci < N - 1; ci++) { p -= dist[ci]; if (p <= 0) break; } //选中第ci个样本为聚类中心,计算距离,如果有样本离新聚类中心更近,距离会被更新 parallel_for_(Range(0, N), KMeansPPDistanceComputer(tdist2, data, dist, ci), (double)divUp((size_t)(dims * N), CV_KMEANS_PARALLEL_GRANULARITY)); double s = 0; for (int i = 0; i < N; i++)//所有样本离其最近的聚类中心之和 { s += tdist2[i]; } if (s < bestSum) { bestSum = s; bestCenter = ci; std::swap(tdist, tdist2);// 把总和最小的数据暂存在tdist中 } } if (bestCenter < 0) CV_Error(Error::StsNoConv, "kmeans: can't update cluster center (check input for huge or NaN values)"); centers[k] = bestCenter; sum0 = bestSum; std::swap(dist, tdist);// 把总和最小的数据从tdist放入dist } for (int k = 0; k < K; k++)// centers中存放的是聚类中心对应的样本在样本集合中的索引 { const float* src = data.ptr<float>(centers[k]); float* dst = _out_centers.ptr<float>(k); for (int j = 0; j < dims; j++) dst[j] = src[j];// 把k个聚类中心样本放到_out_centers中 } }
计算距离
// 并行计算每个样本距离中心的距离 // dist 3倍样本数量N的autobuffer,前N个存放上次的N个距离(dist_指向第一个),后N个存放本次计算的N个距离(tdist2_指向第一个) // data 样本向量集合 // ci 计算所有样本和第ci个样本的距离 class KMeansPPDistanceComputer : public ParallelLoopBody { public: KMeansPPDistanceComputer(float* tdist2_, const Mat& data_, const float* dist_, int ci_) : tdist2(tdist2_), data(data_), dist(dist_), ci(ci_)//成员初始化列表的写法 { } void operator()(const cv::Range& range) const CV_OVERRIDE { CV_TRACE_FUNCTION(); const int begin = range.start; const int end = range.end; const int dims = data.cols; for (int i = begin; i < end; i++)//遍历每一行,一行为一个样本向量,一个向量有dims个分量 {//需要计算的是每个样本到离他最近的中心的距离,通过比较上一次dist中的距离和本次的tdist2哪个更小来实现 tdist2[i] = std::min(hal::normL2Sqr_(data.ptr<float>(i), data.ptr<float>(ci), dims), dist[i]); } } private: KMeansPPDistanceComputer& operator=(const KMeansPPDistanceComputer&); // = delete float* tdist2; const Mat& data; const float* dist; const int ci; };
更新标签
// 并行计算每个样本到对应中心的距离,已知样本属于哪个集合,直接计算该样本到集合中心的距离 template<bool onlyDistance> class KMeansDistanceComputer : public ParallelLoopBody { public: KMeansDistanceComputer(double* distances_, int* labels_, const Mat& data_, const Mat& centers_) : distances(distances_), labels(labels_), data(data_), centers(centers_) { } void operator()(const Range& range) const CV_OVERRIDE { CV_TRACE_FUNCTION(); const int begin = range.start; const int end = range.end; const int K = centers.rows; const int dims = centers.cols; for (int i = begin; i < end; ++i) { const float* sample = data.ptr<float>(i); if (onlyDistance)// 只算距离,不重新分配标签 { const float* center = centers.ptr<float>(labels[i]); distances[i] = hal::normL2Sqr_(sample, center, dims); continue; } else // 遍历每一个样本,计算该样本到每一个中心的距离,重新分配标签 { int k_best = 0; double min_dist = DBL_MAX; for (int k = 0; k < K; k++) { const float* center = centers.ptr<float>(k); const double dist = hal::normL2Sqr_(sample, center, dims); if (min_dist > dist) { min_dist = dist; k_best = k; } } distances[i] = min_dist; labels[i] = k_best; } } } private: KMeansDistanceComputer& operator=(const KMeansDistanceComputer&); // = delete double* distances; int* labels; const Mat& data; const Mat& centers; };
kmeans
//_data:特征向量集;K:聚类中心个数;_bestLabels:每个特征向量隶属聚类中心索引 //criteria:迭代算法终止条件;attempts:尝试次数; //flags:第一次尝试初始化采取策略;_centers:存放聚类中心 double cv::kmeans(InputArray _data, int K, InputOutputArray _bestLabels, TermCriteria criteria, int attempts, int flags, OutputArray _centers) { CV_INSTRUMENT_REGION(); const int SPP_TRIALS = 3; Mat data0 = _data.getMat(); const bool isrow = data0.rows == 1;// 输入的数据应该是一行,或者一列的,通道数是每个样本向量的分量数 const int N = isrow ? data0.cols : data0.rows;// N表示样本向量个数 const int dims = (isrow ? 1 : data0.cols) * data0.channels();// 每个样本向量的维度(分量数) const int type = data0.depth();//数据类型,应为32位浮点数 attempts = std::max(attempts, 1);//至少尝试一次 CV_Assert(data0.dims <= 2 && type == CV_32F && K > 0); CV_CheckGE(N, K, "Number of clusters should be more than number of elements"); Mat data(N, dims, CV_32F, data0.ptr(), isrow ? dims * sizeof(float) : static_cast<size_t>(data0.step)); _bestLabels.create(N, 1, CV_32S, -1, true);//_bestLabels为N*1大小矩阵,类型为32为有符号整型,每个样本向量有有一个标签 Mat _labels, best_labels = _bestLabels.getMat(); if (flags & CV_KMEANS_USE_INITIAL_LABELS) // 如果首次是由用户指定的 { CV_Assert((best_labels.cols == 1 || best_labels.rows == 1) && best_labels.cols * best_labels.rows == N && best_labels.type() == CV_32S && best_labels.isContinuous()); best_labels.reshape(1, N).copyTo(_labels); for (int i = 0; i < N; i++)//将内容复制到_labels中 { CV_Assert((unsigned)_labels.at<int>(i) < (unsigned)K); } } else //否则,创建空的_labels { if (!((best_labels.cols == 1 || best_labels.rows == 1) && best_labels.cols * best_labels.rows == N && best_labels.type() == CV_32S && best_labels.isContinuous())) { _bestLabels.create(N, 1, CV_32S); best_labels = _bestLabels.getMat(); } _labels.create(best_labels.size(), best_labels.type()); } int* labels = _labels.ptr<int>(); Mat centers(K, dims, type), old_centers(K, dims, type), temp(1, dims, type); cv::AutoBuffer<int, 64> counters(K); cv::AutoBuffer<double, 64> dists(N); RNG& rng = theRNG(); if (criteria.type & TermCriteria::EPS)//算法精度 criteria.epsilon = std::max(criteria.epsilon, 0.); else criteria.epsilon = FLT_EPSILON; criteria.epsilon *= criteria.epsilon; if (criteria.type & TermCriteria::COUNT)//最大迭代次数 criteria.maxCount = std::min(std::max(criteria.maxCount, 2), 100); else criteria.maxCount = 100; if (K == 1) { attempts = 1; criteria.maxCount = 2; } cv::AutoBuffer<Vec2f, 64> box(dims); if (!(flags & KMEANS_PP_CENTERS))//随机初始化中心的话要计算下范围,在最大小值之间随机生成 { { const float* sample = data.ptr<float>(0); for (int j = 0; j < dims; j++) box[j] = Vec2f(sample[j], sample[j]); } for (int i = 1; i < N; i++) { const float* sample = data.ptr<float>(i); for (int j = 0; j < dims; j++) { float v = sample[j]; box[j][0] = std::min(box[j][0], v); box[j][1] = std::max(box[j][1], v); } } } double best_compactness = DBL_MAX; for (int a = 0; a < attempts; a++)//算法尝试次数为attempts次 { double compactness = 0; for (int iter = 0; ;) { double max_center_shift = iter == 0 ? DBL_MAX : 0.0; swap(centers, old_centers); //循环初始,需要对centers进行初始化操作,这里主要是两种,一个是random,另一个是kmeans++算法 if (iter == 0 && (a > 0 || !(flags & KMEANS_USE_INITIAL_LABELS))) { if (flags & KMEANS_PP_CENTERS) generateCentersPP(data, centers, K, rng, SPP_TRIALS); else { for (int k = 0; k < K; k++) generateRandomCenter(dims, box.data(), centers.ptr<float>(k), rng); } } else //若为人工指定labels,或者不是第一次迭代,将样本划分进不同的集合,根据labels { // compute centers centers = Scalar(0); // 对centers进行初始化操作 for (int k = 0; k < K; k++) counters[k] = 0;// 对counter进行初始化操作,统计每个集合包含样本向量个数 for (int i = 0; i < N; i++)// 将样本按照label分为k类,每一类计算样本值的总和、样本个数 { const float* sample = data.ptr<float>(i); int k = labels[i]; float* center = centers.ptr<float>(k); for (int j = 0; j < dims; j++) center[j] += sample[j]; counters[k]++; } for (int k = 0; k < K; k++)// 遍历所有的集合,看有没有空的集合 { if (counters[k] != 0) continue; // if some cluster appeared to be empty then: // 1. find the biggest cluster // 2. find the farthest from the center point in the biggest cluster // 3. exclude the farthest point from the biggest cluster and form a new 1-point cluster. int max_k = 0; for (int k1 = 1; k1 < K; k1++)// 1. 找最大的样本集合(counters中存放每个集合的样本数) { if (counters[max_k] < counters[k1]) max_k = k1; } double max_dist = 0; int farthest_i = -1; float* base_center = centers.ptr<float>(max_k); float* _base_center = temp.ptr<float>(); // normalized float scale = 1.f / counters[max_k]; for (int j = 0; j < dims; j++) _base_center[j] = base_center[j] * scale; for (int i = 0; i < N; i++)// 2. 找最大集合中离集合最远的点 { if (labels[i] != max_k) continue; const float* sample = data.ptr<float>(i); double dist = hal::normL2Sqr_(sample, _base_center, dims); if (max_dist <= dist) { max_dist = dist; farthest_i = i; } } // 3. 从最大集合中去掉这个最远点,在空集合中加入该点 counters[max_k]--; counters[k]++; labels[farthest_i] = k; const float* sample = data.ptr<float>(farthest_i); float* cur_center = centers.ptr<float>(k); for (int j = 0; j < dims; j++) { base_center[j] -= sample[j];//最大集合减去该样本的值 cur_center[j] += sample[j];//空集合加上该样本的值 } } for (int k = 0; k < K; k++)// 此时所有的集合都是有样本的 { float* center = centers.ptr<float>(k); CV_Assert(counters[k] != 0); float scale = 1.f / counters[k]; for (int j = 0; j < dims; j++)// center中是样本值的和,除以样本数量等于聚类中心 center[j] *= scale; if (iter > 0)// 计算本次循环和上次聚类中心的差距,差距小于criteria.epsilon则为最后一次迭代 { double dist = 0; const float* old_center = old_centers.ptr<float>(k); for (int j = 0; j < dims; j++) { double t = center[j] - old_center[j]; dist += t * t; } max_center_shift = std::max(max_center_shift, dist); } } } bool isLastIter = (++iter == MAX(criteria.maxCount, 2) || max_center_shift <= criteria.epsilon); if (isLastIter)//是最后一次的话,就再计算下每个样本离聚类中心的距离,不重新分配标签以防出现空集合 { // don't re-assign labels to avoid creation of empty clusters parallel_for_(Range(0, N), KMeansDistanceComputer<true>(dists.data(), labels, data, centers), (double)divUp((size_t)(dims * N), CV_KMEANS_PARALLEL_GRANULARITY)); compactness = sum(Mat(Size(N, 1), CV_64F, &dists[0]))[0];// 记录距离和 break; } else // 不是最后一次的话,计算距离的同时还要重新分配下标签,可能会导致空集合 { // assign labels parallel_for_(Range(0, N), KMeansDistanceComputer<false>(dists.data(), labels, data, centers), (double)divUp((size_t)(dims * N * K), CV_KMEANS_PARALLEL_GRANULARITY)); } } //compactness将记录所有距离,这里的距离是指,所有的特征向量到其聚类中心的距离之和,用于评价当前的聚类结果 if (compactness < best_compactness) { best_compactness = compactness; if (_centers.needed()) { if (_centers.fixedType() && _centers.channels() == dims) centers.reshape(dims).copyTo(_centers); else centers.copyTo(_centers); } _labels.copyTo(best_labels); } } return best_compactness; }
2 使用超像素的区域分割
超像素图像分割基于依赖于图像的颜色信息及空间关系信息,将图像分割为远超于目标个数、远小于像素数量的超像素块,达到尽可能保留图像中所有目标的边缘信息的目的,从而更好的辅助后续视觉任务(如目标检测、目标跟踪、语义分割等)。
超像素是由一系列位置相邻,颜色、亮度、纹理等特征相似的像素点组成的小区域,我们将其视为具有代表性的大“像素”,称为超像素。超像素技术通过像素的组合得到少量(相对于像素数量)具有感知意义的超像素区域,代替大量原始像素表达图像特征,可以极大地降低图像处理的复杂度、减小计算量。超像素分割的结果是覆盖整个图像的子区域的集合,或从图像中提取的轮廓线的集合。 超像素的数量越少,丧失的细节特征越多,但仍然能基本保留主要区域之间的边界及图像的基本拓扑。
常用的超像素分割方法有:简单线性迭代聚类(Simple Linear Iterative Clustering,SLIC)、能量驱动采样(Super-pixels Extracted via Energy-Driven Sampling,SEEDS)和线性谱聚类(Linear Spectral Clustering,LSC)。SLIC超像素算法是对上节讨论的k均值算法的一种改进,通常使用(但不限于)包含三个颜色分量和两个空间坐标的五维向量。
OpenCV 在 ximgproc 模块提供了ximgproc.createSuperpixelSLIC函数实现SLIC算法。需要编译opencv_contrib模块,可以参考VS2019编译Opencv4.6.0GPU版本,记得勾选ximgproc。
示例 SLIC超像素区域分割
#include<opencv2/ximgproc.hpp> using namespace ximgproc; ... Mat src = imread("./14.tif"); Mat slicLabel, slicMask, slicColor, slicDst; Ptr<SuperpixelLSC> slic = createSuperpixelLSC(src); slic->iterate(10);//迭代次数 slic->getLabels(slicLabel);//获取labels slic->getLabelContourMask(slicMask);//获取超像素的边界 int number = slic->getNumberOfSuperpixels();//获取超像素的数量 src.setTo(Scalar(255, 255, 255), slicMask);
参考
1. 冈萨雷斯《数字图像处理(第四版)》Chapter 10(所有图片可在链接中下载)
2. 【youcans 的 OpenCV 例程200篇】171.SLIC 超像素区域分割