归并排序:高效算法的深度解析
一、归并排序概述
归并排序是一种基于分治思想的经典排序算法。它的核心操作分为三个主要步骤:分割、排序和合并。
首先是分割步骤,将待排序的数组不断地分成更小的子数组,直到每个子数组中只有一个元素。例如,对于一个包含多个元素的数组,不断地进行对半分割,直到每个子部分都只有一个元素为止。
接着是排序步骤,由于单个元素的子数组本身就是有序的,所以在这个阶段实际上并没有真正的排序操作。
最后是合并步骤,将两个已排序的子数组合并成一个更大的有序数组。在合并过程中,通过比较两个子数组的元素,将较小的元素依次放入新的数组中,直到两个子数组中的所有元素都被处理完毕。这个过程不断重复,最终将所有的子数组合并成一个完全有序的数组。
归并排序的时间复杂度为 ,其中 是待排序数组的长度。这是因为每次分割操作将问题规模减半,而合并操作的时间复杂度与问题规模呈线性关系。归并排序的稳定性使得它在某些特定的应用场景中具有优势,特别是当需要保持相等元素的相对顺序时。总的来说,归并排序以其高效和稳定的特性,在计算机科学的各种领域中都有广泛的应用。
二、归并排序的核心步骤
(一)分割过程
- 递归实现分割:按照深度优先方式,先拆左边再拆右边,设定递归终止条件。在归并排序中,递归实现分割是一种常见的方法。首先,找到数组的中间位置,将数组分为左右两部分。然后,对左右两部分分别进行递归调用,继续分割,直到每个子数组中只有一个元素为止。这个过程可以看作是深度优先的方式,先深入到最左边的子数组进行分割,然后再逐步返回并处理右边的子数组。递归的终止条件是当子数组的长度为 1 或 0 时,因为单个元素的子数组本身就是有序的。
例如,对于一个长度为 8 的数组,首先找到中间位置,分为左右两个长度为 4 的子数组。然后对这两个子数组继续进行分割,直到每个子数组的长度为 1。在这个过程中,递归的深度为 。
- 非递归实现分割:借助栈机制,考虑细节进行深度优先的拆分过程。非递归实现分割可以借助栈的数据结构来模拟递归的过程。首先,将整个数组的范围压入栈中。然后,从栈中弹出一个范围,进行分割,并将分割后的两个子范围压入栈中。重复这个过程,直到栈为空。在这个过程中,需要考虑一些细节问题,比如如何确定子数组的范围、如何处理边界情况等。
例如,假设我们有一个长度为 8 的数组,初始时将范围 [0, 7] 压入栈中。弹出这个范围后,将其分为 [0, 3] 和 [4, 7],并将这两个子范围压入栈中。接着,继续弹出栈顶的范围进行分割,直到每个子数组的长度为 1。
(二)合并过程
- 比较两个子数组元素,较小元素放入新数组,对应指针前进。在合并过程中,首先比较两个已排序的子数组的首元素。将较小的元素放入一个新的数组中,并将对应子数组的指针向前移动一位。然后继续比较两个子数组的下一个元素,重复这个过程,直到其中一个子数组的所有元素都被处理完毕。
例如,假设有两个子数组 A=[2, 4, 6] 和 B=[1, 3, 5]。首先比较 A [0] 和 B [0],因为 1<2,所以将 1 放入新数组中,并将 B 的指针向前移动一位。接着比较 A [0] 和 B [1],因为 2<3,所以将 2 放入新数组中,并将 A 的指针向前移动一位。
- 处理剩余元素,直接放入新数组,因每一组内元素有序。当一个子数组的所有元素都被处理完毕后,另一个子数组中可能还有剩余的元素。由于每个子数组本身是有序的,所以可以直接将剩余的元素依次放入新数组中。
例如,在上一步的例子中,当比较完 A [2] 和 B [2] 后,B 子数组中的元素已经全部处理完毕,而 A 子数组中还有元素 4 和 6。这时,可以直接将 4 和 6 依次放入新数组中。
三、归并排序的代码实现
(一)多种语言示例
- C 语言代码实现:
在 C 语言中实现归并排序通常需要以下几个关键步骤。首先是申请空间,就像这样:
#define N 7 void merge(int arr[], int low, int mid, int high){ int i, k; int *tmp = (int *)malloc((high-low+1)*sizeof(int)); |
接着在合并过程中,比较两个子数组的元素,将较小的元素放入临时数组tmp中:
for(k=0; left_low<=left_high && right_low<=right_high; k++){ if(arr[left_low]<=arr[right_low]){ tmp[k] = arr[left_low++]; }else{ tmp[k] = arr[right_low++]; } } |
最后,如果一个子数组还有剩余元素,直接复制到临时数组中,并将临时数组的元素复制回原数组:
if(left_low <= left_high){ for(i=left_low;i<=left_high;i++) tmp[k++] = arr[i]; } if(right_low <= right_high){ for(i=right_low; i<=right_high; i++) tmp[k++] = arr[i]; } for(i=0; i<high-low+1; i++) arr[low+i] = tmp[i]; free(tmp); return; |
- C++ 代码实现:
- 递归实现:
C++ 的归并排序可以通过递归的方式实现。先找到中间位置,将数组分成两部分,分别进行递归排序,然后再合并。
void mergeSort(int A[],int p,int r){ if(p<r){ int q=(p+r)/2; mergeSort(A,p,q); mergeSort(A,q+1,r); merge(A,p,q,r); } return; } |
- 循环实现:
也可以通过循环的方式实现归并排序。循环中每次将数组分成大小为size的子数组,然后进行合并。当size大于等于数组长度时,排序完成。
void mergeSortIterative(vector<int>& arr) { int n = arr.size(); for (int size = 1; size < n; size *= 2) { for (int left = 0; left < n - size; left += 2 * size) { int mid = left + size - 1; int right = min(left + 2 * size - 1, n - 1); merge(arr, left, mid, right); } } } |
这种方式展示了一些精妙的代码优化成果,通过循环逐步合并子数组,减少了递归带来的开销。
- Java 代码实现:
- 手写归并排序:
在 Java 中,手写归并排序需要明确功能、寻找递推关系、确定终止条件。首先确定分界点,将待排序数组分成左右两部分,然后递归处理左右数组部分。最后将排序好的左右两部分数组合并成新数组,并确保合并后的数组依然有序。
public static int[] temp; public static void merge_sort(int[] q, int l, int r) { if (l >= r) { return; } int mid = (l + r) / 2; merge_sort(q, l, mid); merge_sort(q, mid + 1, r); int k = 0, i = l, j = mid + 1; temp = new int[r - l + 1]; while (i <= mid && j <= r) { if (q[i] <= q[j]) { temp[k++] = q[i++]; } else { temp[k++] = q[j++]; } } while (i <= mid) { temp[k++] = q[i++]; } while (j <= r) { temp[k++] = q[j++]; } for (i = l, j = 0; i <= r; i++, j++) { q[i] = temp[j]; } } |
- 分析性能:
归并排序在 Java 中的时间复杂度为 ,其中 是待排序数组的长度。空间复杂度为 ,因为需要一个临时数组来存储排序过程中的数据。归并排序是稳定的排序算法,这意味着相等元素的相对顺序在排序后不会改变。
- Python 代码实现:
- 多路归并排序:
在 Python 中,可以实现多路归并排序。多路归并排序通常借助优先队列或自己实现小顶堆来处理大规模数据集。首先,将每个数据块分别排序,然后将这些有序的数据块进行多路归并。
def merge(lst1, lst2): lst3 = [] i1, i2 = 0, 0 n1, n2 = len(lst1), len(lst2) while i1 < n1 and i2 < n2: if lst1[i1] < lst2[i2]: lst3.append(lst1[i1]) i1 = i1 + 1 else: lst3.append(lst2[i2]) i2 = i2 + 1 if i1 == n1: for i in lst2[i2:]: lst3.append(i) else: for i in lst1[i1:]: lst3.append(i) return lst3 def mergeSort(nums): n = len(nums) if n <= 1: return nums m = n // 2 left = mergeSort(nums[:m]) right = mergeSort(nums[m:]) return merge(left, right) |
- 处理大规模数据集:
对于大规模数据集,多路归并排序可以有效地利用内存和处理器资源,提高排序效率。通过将数据集分成多个较小的数据块,分别进行排序,然后再进行合并,可以减少内存占用和排序时间。
- PHP 代码实现:
- 展示合并和拆分过程的具体代码:
在 PHP 中,归并排序可以通过递归和非递归两种方式实现。以下是递归方式的实现代码:
function mergeSort(&$arr, $left, $right) { if ($left < $right) { $mid = floor(($left + $right) / 2); mergeSort($arr, $left, $mid); mergeSort($arr, $mid + 1, $right); merge($arr, $left, $mid, $right); } } function merge(&$arr, $left, $mid, $right) { $i = $left; $j = $mid + 1; $temp = array(); while ($i <= $mid && $j <= $right) { if ($arr[$i] < $arr[$j]) { $temp[] = $arr[$i]; $i++; } else { $temp[] = $arr[$j]; $j++; } } while ($i <= $mid) { $temp[] = $arr[$i]; $i++; } while ($j <= $right) { $temp[] = $arr[$j]; $j++; } for($k = 0; $k < count($temp); $k++) { $arr[$left + $k] = $temp[$k]; } } |
非递归方式的实现代码如下:
function mSort(&$arr) { $len = count($arr); $size = 1; while ($size <= $len - 1) { $left = 0; while ($left + $size <= $len - 1) { $mid = $left + $size - 1; $right = $mid + $size; if ($right > $len - 1) { $right = $len - 1; } merge($arr, $left, $mid, $right); $left = $right + 1; } $size *= 2; } } function merge(&$arr, $left, $mid, $right) { $i = $left; $j = $mid + 1; $temp = array(); while ($i <= $mid && $j <= $right) { if ($arr[$i] < $arr[$j]) { $temp[] = $arr[$i]; $i++; } else { $temp[] = $arr[$j]; $j++; } } while ($i <= $mid) { $temp[] = $arr[$i]; $i++; } while ($j <= $right) { $temp[] = $arr[$j]; $j++; } for ($i = $left, $k = 0; $i <= $right; $i++, $k++) { $arr[$i] = $temp[$k]; } } |
这些代码展示了归并排序在 PHP 中的具体实现,帮助理解归并排序的整体流程。
(二)代码性能分析
- 时间复杂度:
- 无论在最坏、最佳还是平均情况下,归并排序的时间复杂度均为 。这是因为每次分割操作将问题规模减半,而合并操作的时间复杂度与问题规模呈线性关系。例如,对于一个长度为 的数组,分割操作需要进行 次,每次分割后的合并操作需要 的时间复杂度,所以总的时间复杂度为 。
- 空间复杂度:
- 归并排序在排序过程中需要使用辅助数组,空间复杂度为 。这是因为在合并过程中,需要一个临时数组来存储合并后的结果。例如,对于一个长度为 的数组,在合并过程中需要一个长度为 的临时数组来存储合并后的结果。
- 稳定性:
- 归并排序是一种稳定排序。这意味着在排序过程中,相等元素的相对顺序不会改变。例如,对于一个包含多个相等元素的数组,归并排序会保持这些相等元素的相对顺序不变。
- 是否原地排序:
- 归并排序不是原地排序,因为它需要使用辅助数组来存储合并后的结果。原地排序是指在排序过程中不需要额外的存储空间,只需要在原数组上进行操作。例如,冒泡排序、插入排序和选择排序都是原地排序算法。
四、归并排序的应用场景
归并排序在处理大规模数据集方面具有显著优势,尤其适用于小内存排序大文件等情况。
例如,在面对外存中有 100G 的字符串文件,而只有 1G 内存的情况下,归并排序可以发挥重要作用。首先将 100G 的内容分成若干个小部分,每个部分不超过 500MB。分别读取这些小部分进行排序,然后写入到外存中,这样就得到了若干个已经排好序的小部分。接着进行多路归并排序,对于多个已经排好序的小部分,每次取出它们各自的最小值,找到最小值中的最小值,写入到外存,同时将最小值所在外存区域指针向右移动。每次比较最小值需要比较 k-1 次,总共有 n-1 轮,所以时间复杂度为 O ((n-1)*(k-1))。这里还可以使用胜者树(完全二叉树)优化找最小值的过程,对第一次的查找建立一颗胜者树,找到最小值后,读取最小值所在外存区域的新值,然后修改胜者树对应节点的值,沿着从该结点到根结点的路径修改这棵二叉树,最多操作 log (k) 次。这样总体排序的时间复杂度就可以降为 O (nlogk)。
此外,使用 Python 实现多 (K) 路归并外部排序,可以解决小内存排序大文件问题。绕不开归并核心思想,分治,先拆成小文件,再排序,最后合并所有碎片文件成一个大文件。首先,大文件拆分成多个 block_size 大的小文件,每个小文件排好序。然后,将拆分成的小文件合并起来,然后将归并的东西写到大文件里面去,这里用到的是多路归并的方法。
在实际工作中,多个有序数列合并成一个,大文件或多个大文件合并成一个并排序的需求常见并不少见。比如现在有四路数据:a0:[1, 3, 6, 7],a1: [],a2: [3, 5, 7, 19],a3: [9, 12, 87, 98]。可以使用多路归并排序的方法,先保存每路最小值,用 min_map 保存每一路的当前最小值,然后获取最小值中的最小值,将其取出并检查被取出值的那一路是否还剩下其他元素,如果存在,则修改 min_map 里面对应的值,如果不存在,则删除掉 min_map 里面对应的记录,以表示该路已经没有元素需要遍历了。最终将多个有序数组合并起来。
总的来说,归并排序以其高效的处理大规模数据集的能力,在实际应用中具有广泛的应用场景。