Azure SQL에 도입된 새로운 집계 함수 APPROX_COUNT_DISTINCT
· Version : Azure SQL
다양한 서비스를 운영하다보면 서비스에 따른 중요 포인트가 조금씩 다른 경우가 있다. 예를들어 정확한 숫자(결과값)을 중요시하는 서비스(일일 매출, 재고량 등)가 있으며, 빠른 응답을 (실시간 데이터 사용량, DB의 전체 데이터 ROW 수 등의 대시보드 등) 중요시하는 서비스가 있다. 물론 응답성을 중시한다고 해서 데이터가 틀리면 안되겠지만 허용되는 오차범위에서 최대한 빠른 응답이 필요할 때가 있다. 이번 포스트에서는 매우 큰 데이터 세트 전체에 대한 집계에 대해 빠른 응답을 할 수있는 Azure SQL의 APPROX_COUNT_DISTINCT에 대해서 다루어 본다.
Azure SQL의 새로운 집계함수인 APPROX_COUNT_DISTINCT 는 NULL이 아닌 고유한 값이 있는 그룹의 대략적인 수를 반환한다. 이 함수는 큰 데이터 시나리오에 사용하도록 설계되었으며 아래 조건에 최적화 되어 있다.
· 수백만행 이상의 데이터 세트에 대한 액세스
· 많은 수의 고유한 값을 가진 열의 집계
이러한 조건을 가정하면 대부분의 작업에서 정확도 오차는 2%이내가 된다. 또한 APPROX_COUNT_DISTINCT는 정확도 오차는 COUNT DISTINCT에서 20%이상 되어서는 안된다.
APPROX_COUNT_DISTINCT는 고유 카운트를 계산할때, COUNT DISTINCT 보다 훨씬 적은 메모리를 사용한다. 이러한 이유 때문에 데이터 집합에 수십억개의 행이 있더라도 디스크를 사용하지 않고 메모리에서 계산을 수행할 가능성이 훨씬 크다. 일반적으로 COUNT DISTINCT의 경우 메모리가 부족하면 tempdb를 사용하므로 큰 성능 저하를 초래(일반적으로 디스크가 가장 느리기 때문)한다. APPROX_COUNT_DISTINCT는 tempdb를 사용하지 않고 내부적 알고리즘을 사용하므로 결과적으로 APPROX_COUNT_DISTINCT는 COUNT DISTINCT보다 훨씬 빠르게 실행된다.
아래 두 그림은 일반적인 COUNT(DISTINCT ())를 사용한 것과 APPROX_COUNT_DISTINCT를 사용한 경우이다.
[DISTINCT COUNT]
[APPROX_COUNT_DISTINCT]
COUNT DISTINCT의 경우 정렬 연산자가 추가되어 있으므며 APPROX_COUNT_DISTINCT 경우 Hash match에 대한 Stream Aggregate로 대체 된다는 것을 알 수 있다. 또한 두 계획은 모두 동일한 클러스터된 인덱스 검색을 사용하며 COUNT DISTINCT의 경우 검색에 95%의 비용을 사용하지만, APPROX_COUNT_DISTINCT의 경우99%가 검색에 사용되는 것을 알 수 있다. 이 뜻은 전통적인 COUNT DISTINCT 작업은 외부의 스캔 처리 작업이 더 많다는 것을 의미한다.
APPROX_COUNT_DISTINCT를 사용할 경우 실행 계획에 아래와 같은 연산자를 확인할 수 있다.
<ScalarOperator ScalarString=”APPROX_COUNT_DISTINCT_CONVERT([globalagg1004])”> |
[참고자료]
2018-09-10 / Sungwook Kang / http://sqlmvp.kr
Azure SQL, count distinct, APPROX_COUNT_DISTINCT
'SQL Server > SQL on Azure' 카테고리의 다른 글
Azure SQL Managed Instance 에서 SQL Agent의 Job history 기록 보관하기 (0) | 2019.03.26 |
---|---|
Azure VM에서 SQL Server에 대한 저장소 구성 지침 (0) | 2019.03.26 |
Azure SQL의 데이터베이스 소유권 체인 (0) | 2019.03.26 |
Azure SQL의 내부 디스크 할당 방법 및 저장 가능 용량 확인 (0) | 2019.03.26 |
Azure SQL에서 이메일 보내기 (0) | 2019.03.26 |