문법/Python
[Python] Heap(힙) / heapq 모듈
jungmin.park
2023. 10. 27. 20:47
1. 힙(Heap) 이란?
- 힙 : 데이터에서 최대값과 최소값을 빠르게 찾기 위해 고안된 완전 이진 트리(Complete Binary Tree)
- 완전 이진 트리 : 노드를 삽입할 때 최하단 왼쪽 노드부터 차례대로 삽입하는 트리
- 힙을 사용하는 이유
- 배열에 데이터를 넣고, 최대값과 최소값을 찾으려면 O(n)이 걸림
- 이에 반해, 힙에 데이터를 넣고 최대값과 최소값을 찾으면 O(logn)이 걸림
- 우선순위 큐와 같이 최대값 또는 최소값을 빠르게 찾아야 하는 자료구조 및 알고리즘 구현 등에 활용됨.
2. 힙(Heap) 구조
- 힙 property : A가 B의 부모노드이면 A의 키값과 B의 키값 사이에는 대소 관계를 성립한다.
- 각 노드의 값은 해당 노드의 자식 노드가 가진 값보다 항상 크거나/작거나 같다
- 최소 힙: 부모 노드의 키값이 자식 노드의 키값보다 항상 작은 힙
- 최대 힙: 부모 노드의 키값이 자식 노드의 키값보다 항상 큰 힙
3. 이진 탐색 트리와 힙의 공통점과 차이점
- 공통점 : 힙과 이진 탐색 트리는 모두 이진 트리임
- 차이점:
- 힙은 각 노드의 값이 자식 노드보다 크거나 같음(Max Heap의 경우)
- 이진 탐색 트리는 왼쪽 자식 노드의 값이 가장 작고, 그 다음 부모 노드, 그 다음 오른쪽 노드의 값이 가장 큼
- 힙은 이진 탐색 트리의 조건인 자식 노드에서 작은 값은 왼쪽, 큰 값은 오른쪽이라는 조건은 없음
- 힙은 왼쪽 및 오른쪽 자식 노드의 값은 오른쪽이 클 수도 있고, 왼쪽이 클 수도 있음.
- 이진 탐색 트리는 탐색을 위한 구조, 힙은 최대/최소값 검색을 위한 구조 중 하나로 이해하면 됨
4. 힙(Heap) 동작
데이터 삽입하기
- 힙은 완전 이진 트리이므로, 삽입할 노드는 기본적으로 왼쪽 최하단부 노드부터 채워지는 형태로 삽입
삽입할 데이터가 힙의 처음으로 들어가는 경우
* 삽입된 데이터는 바로 root가 된다.
삽입할 데이터가 힙의 데이터보다 클 경우(Max Heap의 예)
- 삽입된 데이터는 완전 이진 트리 구조에 맞추어, 최하단부 왼쪽 노드부터 채워짐
- 채워진 노드 위치에서, 부모 노드보다 값이 클 경우, 부모 노드와 위치를 바꿔주는 작업을 반복
[15,10,8,5,4] -> 20 데이터 추가 -> [15,10,8,5,4,20] |
20의 부모노드 20의 인덱스 // 2를 하면 부모노드 8을 찾을 수 있음
값이 작기 때문에 8과 20 swap
[15,10,8,5,4,20] -> [15,10,20,5,4,8] |
20은 또 다시 부모노드인 15와 값을 비교해서 20이 더 크기 때문에 자리를 swap 한다.
[15,10,20,5,4,8] -> [20,10,15,5,4,8] |
데이터 삭제하기(Max Heap 의 예)
- 삭제는 최상단 노드(root 노드)를 삭제하는 것이 일반적
- 힙의 용도는 최대값 또는 최소값을 root 노드에 넣어서, 최대값과 최소값을 바로 꺼내 쓸 수 있도록 하는 것
- 상단의 데이터 삭제 시 : 가장 최하단 노드와 root 노드의 값을 swap 해준뒤 최하단 노드(root 노드)를 pop 한다.
- root노드(현재 최하단 노드의 값)의 값이 child node와 비교하며 값이 작으면 left child node, right child node 를 비교하여 가장 큰 값과 swap 해준다 이 작업을 반복함
[20,10,15,5,4,8] -> [8,10,15,5,4,20] 20 pop |
8은 왼쪽, 오른쪽 자식 노드와 비교하면서 자리를 바꿔준다.
8의 왼쪽 자식노드(10) 오른쪽 자식노드(15)
- 10 < 15 : 오른쪽 자식노드가 더 크다.
- 15 > 8 : 루트노드보다 오른쪽 자식노드가 더 크기 때문에 15가 루트로 와야한다.
[8,10,15,5,4,20] -> [15,10,8,5,4,20] |
8은 다시 왼쪽 노드(5) 오른쪽 노드(4)와 비교한다.
8이 더 크기 때문에 종료한다.
5. 힙(Heap) 시간 복잡도
- depth(트리의 높이)를 h라고 표기한다면,
- n개의 노드를 가지는 heap 에 데이터 삽입 또는 삭제시, 최악의 경우 root 노드에서 leaf 노드까지 비교해야 하므로 h = logN에 가까우므로 시간 복잡도는 O(logn)
heapq 모듈
- 파이썬 heapq 모듈은 heapq (priority queue) 알고리즘을 제공한다.
- 파이썬에서 힙은 최소 힙(min heap)을 디폴트값으로 제공한다.
- heapq는 내장 모듈로 별도 설치 없이 바로 사용할 수 있다.
heappush(heap, item) | 힙 불변성을 유지하면서 값 항목을 힙에 추가한다. |
heappop(heap) | 힙에서 가장 작은 항목을 꺼내고 반환다. 힙이 비어 있으면 IndexError 발생 |
heappushpop(heap, item) | 힙에 항목을 푸시한 다음 힙에서 가장 작은 항목을 꺼내고 반환한다. heappush()/heappop() 에 대한 개별 호출하는 것보다 더 효율적으로 작용 |
heapify(x) | 리스트 x를 즉각적으로 heap으로 변환함 |
heapreplace(heap, item) | 힙에서 가장 작은 항목(root)을 팝하고 반환하여 새 항목도 푸시한다. 힙의 크기는 변경되지 않으며 힙이 비어 있으면 IndexError 발생 heappushpop() 대신 사용하는 것이 좋다. |
merge(*iterables, key, reverse) | 여러 입력을 단일 출력으로 합친다. |
nlargest(n, iterable, key=None) | iterable로 정의된 데이터세트에서 가장 큰 n개의 요소가 포함된 목록을 반환 |
nsmallest(n, iterable, key=None) | iterable로 정의된 데이터세트에서 가장 작은 n개의 요소가 포함된 목록을 반환 |