什么是基数排序？

2019 年 11 月 12 日
筆記

老读者可能比较熟悉，刚开始的时候写了一个排序算法系列，把常见的排序算法都写了，有兴趣的可以在公众号内的目录菜单栏中选择数据结构与算法查看。

但是还是有少数的排序算法没写，下面的一篇就是。这篇文章用漫画的形式讲解了基数排序，通俗易懂。

————— 第二天 —————

————————————

什么是计数排序呢？让我们举例说明一下。

给定20个随机整数的值如下：

9，3，5，4，9，1，2，7，8，1，3，6，5，3，4，0，10，9 ，7，9

如何最快地把这些无序的随机整数排序？

由于这些整数的范围是从0到10这11个数，我们可以创建一个长度11的空数组，数组从0到10的下标，对应着待排序的随机整数值0到10：

接下来遍历这个无序的随机数列，每一个整数按照其值对号入座，对应数组下标的元素进行加1操作。

比如第一个整数是9，那么数组下标为9的元素加1：

第二个整数是3，那么数组下标为3的元素加1：

继续遍历数列并修改数组……

最终，数列遍历完毕时，数组的状态如下：

数组每一个下标位置的值，代表了数列中对应整数出现的次数。

有了这个“统计结果”，排序就很简单了。直接遍历数组，输出数组元素的下标值，元素的值是几，就输出几次：

0，1，1，2，3，3，3，4，4，5，5，6，7，7，8，9，9，9，9，10

显然，这个输出的数列已经是有序的了。

这就是计数排序的朴素版本。

为了实现稳定排序（排序后，相等元素原本的先后顺序不变），真正的计数排序要稍微复杂一些，感兴趣的小伙伴可以读一读这篇：

漫画：什么是计数排序？

计数排序有什么局限呢？让我们看两个特殊的需求：

需求A，为一组给定的手机号排序：

18914021920

13223132981

13566632981

13660891039

13361323035

……..

按照计数排序的思路，我们要根据手机号的取值范围，创建一个空数组。

可是，11位手机号有多少种组合？恐怕要建立一个大得不可想象的数组，才能装下所有可能出现的11位手机号！

需求B，为一组英文单词排序：

banana

apple

orange

peach

cherry

……..

计数排序适合的场景是对整数做排序，如果遇到英文单词，就无能为力了。

如何有效处理诸如手机号、英文单词等复杂元素的排序呢？仅仅靠一次计数排序很难实现。

这时候，我们不妨把排序工作拆分成多个阶段，每一个阶段只根据一个字符进行计数排序，一共排序k轮（k是元素长度）。

或许这样的描述有些抽象，我们来举一个例子。

数组中有若干个字符串元素，每个字符串元素都是由三个英文字母组成：

bda，cfd，qwe，yui，abc，rrr，uee

如何将这些字符串按照字母顺序排序呢？

由于每个字符串的长度是3个字符，我们可以把排序工作拆分成3轮：

第一轮：按照最低位字符排序。排序过程使用计数排序，把字母的ascii码对应到数组下标，第一轮排序结果如下：

第二轮：在第一轮排序结果的基础上，按照第二位字符排序。

需要注意的是，这里使用的计数排序必须是稳定排序，这样才能保证第一轮排出的先后顺序在第二轮还能继续保持。

比如在第一轮排序后，元素uue在元素yui之前。那么第二轮排序时，两者的第二位字符虽然同样是u，但先后顺序万万不能变，否则第一轮排序就白做了。

第三轮：在第二轮排序结果的基础上，按照最高位字符排序。

如此一来，这些字符串的顺序就排好了。

像这样把字符串元素按位拆分，每一位进行一次计数排序的算法，就是基数排序（Radix Sort）。

基数排序既可以从高位优先进行排序（Most Significant Digit first，简称MSD），也可以从低位优先进行排序（Least Significant Digit first，简称LSD）。

刚才我们所举的例子，就是典型的LSD方式的基数排序。

什么意思呢？比如给定如下几个单词：

banana

apple

orange

ape

这里最长的单词有6个字符，其余不足6个字符的单词在末尾补0即可：

banana

apple0

orange

ape000

he0000

在排序时，我们把字符0当做是比a更小的字符，排序结果如下：

ape000

apple0

banana

he0000

orange

//ascii码的取值范围public static final int ASCII_RANGE = 128;    public static String[]  radixSort(String[] array,int maxLength){    //排序结果数组，用于存储每一次按位排序的临时结果    String[] sortedArray = new String[array.length];    //从个位开始比较，一直比较到最高位    for(int k=maxLength-1;k>=0;k--)    {        //计数排序的过程，分成三步：        //1.创建辅助排序的统计数组，并把待排序的字符对号入座，        //这里为了代码简洁，直接使用ascii码范围作为数组长度        int[] count = new int[ASCII_RANGE];        for(int i=0;i<array.length;i++)        {            int index = getCharIndex(array[i],k);            count[index]++;        }        //2.统计数组做变形，后面的元素等于前面的元素之和        for(int i=1;i<count.length;i++)        {            count[i] = count[i] + count[i-1];        }        //3.倒序遍历原始数列，从统计数组找到正确位置，输出到结果数组        for(int i=array.length-1;i>=0;i--) {            int index = getCharIndex(array[i],k);            int sortedIndex = count[index]-1;            sortedArray[sortedIndex] = array[i];            count[index]--;        }        //下一轮排序需要以上一轮的排序结果为基础，因此把结果复制给array        array = sortedArray.clone();    }      return array;}    //获取字符串第k位字符所对应的ascii码序号private static int getCharIndex(String str, int k){    //如果字符串长度小于k，直接返回0，相当于给不存在的位置补0    if(str.length() < k+1){        return 0;    }    return str.charAt(k);}    public static void main(String[] args){    String[] array = {"qd","abc", "qwe","hhh","a","cws", "ope"};    System.out.println(Arrays.toString(radixSort(array, 3)));}

这段代码基于一个大循环来实现，循环进行k次，k就是数组中最长字符串元素的字符数。

在循环体内，执行的是计数排序的逻辑。这个稳定的计数排序算法不太好理解，在小灰往期的漫画中有进行详细讲解（漫画：什么是计数排序？）。