컬럼스토어 인덱스 동시성

Column Store Index Concurrency and Isolation Levels

 

  • Version : SQL Server 2012, 2014

 

클러스터 컬럼 스토어와 동시성

클러스터 컬럼스토어 인덱스(Clustered column index(CCI))는 기본적으로 데이터웨어하우스 시나리오에 기반하여 디자인 되어 있다.

 

  • 한 번 쓰고 여러 번 읽기 : CCI는 쿼리 성능에 최적화 되어 있다. 이는 기둥 형식으로 압축된 데이터에서 필요한 컬럼만 가져와서 성능을 높인다.
  • 대량 데이터 가져오기 및 세류(천천히) 데이터 로드 : 인서트 오퍼레이션

 

INSERT / UPDATE를 지원하지만 이러한 작업은 대량의 작업에 최적화 되어 있지 않다. 사실 동시성 경우 DELETE / UPDATE 경우 블록킹이 발생 할 수 있으며 대량의 delta row groups로 이어질 수 있다. 동시성 모델에는 새로운 잠금 리소스 ROWGROUP이 있다.

 

잠금이 발생하는 시나리오에 대해 트랜잭션 격리 수준으로 알아 보자.

 

트랜잭션 격리 수준 지원 (Transaction Isolation levels Supported)

  • Read Uncommitted : 대부분 DW 쿼리에 대한 작업이며 쿼리가 실행 되는 동안 PDW 어플라이언스에서 CCI에 엑세스할 때 read uncommitted 로 DML에 대한 동시성이 차단되지 않도록 한다.
  • Read Committed : 잠금 기반으로 실행되며 DML에 대한 블록킹을 제공한다.

 

RCSI는 하나 이상의 CCI 테이블을 포함하여 사용하는 경우 CCI 이외의 모든 테이블은 read committed 격리 수준에서 non-blocking 의미로 액세스 할 수 있다. 하지만 CCI는 불가능하다.

If RCSI is enabled on the database containing one or more tables with CCI, all tables other than CCI can be accessed with non-blocking semantics under read committed isolation level but not for CCI

 

Example : SQL Server 2014

select

    is_read_committed_snapshot_on, snapshot_isolation_state_desc,snapshot_isolation_state

from sys.databases where name='AdventureWorksDW2012'

 

 

CREATE TABLE [dbo].[T_ACCOUNT](

[accountkey] [int] IDENTITY(1,1) NOT NULL,

[accountdescription] [nvarchar](50) NULL

) ON [PRIMARY]

 

-- create a CCI

CREATE CLUSTERED COLUMNSTORE INDEX ACCOUNT_CCI ON T_ACCOUNT

 

세션 1

세션 2

세션3

use AdventureWorksDW2012

go

 

-- Do a DML transaction on CCI but don't commit

begin tran

    insert into T_ACCOUNT (accountdescription )

    values ('value-1');

   
 

set transaction isolation level read committed

go

 

select * from t_account

--You will see CCI query is blocked on session-1 as shown using the query below

 
   

select

    request_session_id as spid,

    resource_type as rt,

    resource_database_id as rdb,

    (case resource_type

        WHEN 'OBJECT' then object_name(resource_associated_entity_id)

        WHEN 'DATABASE' then ' '

        ELSE (select object_name(object_id)

            from sys.partitions

            where hobt_id=resource_associated_entity_id)

    END) as objname,

    resource_description as rd,

    request_mode as rm,

    request_status as rs

from sys.dm_tran_locks

 

 

이 데이터베이스는 기본적으로 non-blocking read committed 격리 수준의 행 버전 관리를 사용하지만 CCI는 잠금 기반의 read committed로 접근한다.

 

  • Snapshot Isolation : 이는 CCI를 포함하는 데이터베이스에서 사용 할 수 있다. CCI 이외의 디스크 기반 테이블은 스냅샷 격리에서 액세스 할 수 있지만 CCI에 대한 액세스가 허용되지 않으며 다음과 같은 에러가 발생한다.

Msg 35371, Level 16, State 1, Line 26

SNAPSHOT isolation level is not supported on a table which has a clustered columnstore index.

 

  • Repeatable Read : CCI에서 지원

set transaction isolation level repeatable read

go

 

begin tran

select * from t_account

 

 

Serializable : CCI에서 지원

set transaction isolation level serializable

go

 

begin tran

    select * from t_account

go

 

 

 

 

[참고자료]

http://blogs.msdn.com/b/sqlserverstorageengine/archive/2014/07/27/clustered-column-store-index-concurrency-and-isolation-level.aspx

 

 

2014-09-23 / 강성욱 / http://sqlmvp.kr

 

SQL Server 2012, 컬럼스토어 인덱스, 행 그룹, Column Store Index, 메모리 인덱스, SQL, 데이터베이스, 대용량 데이터베이스, Delta Row Group, Compress Row Group, 트랜잭션 격리수즌, read uncommitted, transaction isolation level, 스냅샷 격리수준

컬럼스토어 인덱스 ROW와 ROWGROUP 영향

 

  • Version : SQL Server 2012, 2014

 

SQL Server 메모리 내 Columnstore 인덱스는 열 기반 데이터 저장소 및 열 기반 쿼리 처리를 사용하여 데이터를 저장하고 관리한다. Columnstore 인덱스는 주로 대량 로드 및 읽기 전용 쿼리를 수행하는 데이터웨어 하우징 작업에 효과적이다.

 

columnstore index는 columnstore라는 칼럼 데이터 형식을 사용하여 데이터를 저장, 검색 및 관리하는 기술이다. SQL Server는 클러스터형 columnstore 인덱스와 비클러스터형 columnstore 인덱스를 모두 지원한다. 둘 다 동일한 메모리 내 columnstore 기술을 사용하지만 용도와 지원 기능에 차이가 있다. columnstore 인덱스는 전체 테이블 검색을 사용하는 쿼리에는 뛰어난 성능을 제공하지만 특정 값을 찾아 데이터를 검색하는 쿼리에는 부적합하다.

 

자세한 내용은 컬럼스토어에 대한 마이크로소프트 공식 문서를 참고 한다.

  • Cloumnstore 인덱스 소개 :

http://msdn.microsoft.com/ko-kr/library/gg492088(v=sql.120).aspx

 

이번 포스트는 컬럼스토어 인덱스에서 Row와 rowgoup에 대한 영향으로 SQL Server Storage Engine Blog를 읽고 이해한 내용을 정리한 것으로 번역의 오류나 기술적 오류가 있음을 미리 알려둔다. 자세한 내용은 원문을 참고 하길 바란다.

 

컬럼스토어 인덱스가 가지고 있는 로우에 대한 그룹을 RowGroup이라고 한다. RowGroup에는 두 가지 타입의 그룹이 있다.

  • Delta RowGroup : 기존의 행 스토리지 형식으로 데이터를 저장
  • Compressed RowGroup : 컬럼 스토리지 형식의 높은 행 압축 수준으로 저장

 

컬럼스토어에 대한 압축은 RowGroup 행의 수에 의존 한다. RowGroup은 Columnsotre 형식으로 동시에 압축되는 행 그룹이다. 성능과 압축률을 높이기 위해 columnstore 인덱스는 테이블을 여러 행 그룹으로 조각화한 후 각 행 그룹을 열 방식으로 압축 한다. 행 그룹의 행수는 압축률을 높일 만큼 크고 메모리 내 작업을 활용할 만큼 작아야 한다.

우리는 실험에서 RowGroup이 102,400+ 행에 대해 더 좋은 컬럼 압축을 달성 할 수 있음을 발견했다. 이를 바탕으로 컬럼스토어 인덱스 가이드 라인은 다음과 같다.

  • 100000 + 행을 로드할 때 압축된 rowgroup을 직접 로드 한다. (대규모 대량 로드 중에 대부분 행은 deltastore를 통과하지 않고 columnstore로 곧바로 이동한다.)
  • 일반 인서트는 Delta RowGroup에 행을 로드 한다. 행번호 1,048,576에 도달하면 RowGroup은 닫히고 튜플무브(tuple move)라는 백그라운드 스레드가 컬럼스토어 형식으로 변환하여 저장한다.
  • 나머지 행은 columnstore 또는 deltastore에 추가된다. 행수가 행 그룹당 최대행보다 적으면 deltastore에 추가 된다.

 

RowGroup 크기에 영향을 미치는 요인은 다음과 같다.

  • 병럴처리 정도(DOP)
  • 사전의 크기
  • 메모리

인덱스 만들기는 메모리가 제한되지 않는한 기본적으로 병렬작업이다. 병렬 작업은 많은 메모리를 필요로 하다. 메모리가 충분하면 동일한 열에 B-tree를 작성할 때 보다 1.5배 많은 메모리가 columnstore 인덱스를 만드는데 사용된다. 충분한 메모리가 없는 경우 메모리에 맞게 자동으로 MAXDOP을 줄인다.

 

예제와 함께 각각 요인을 살펴보자. 다음 스크립트는 데이터를 생성하고 컬럼스토어 인덱스를 생성한다. (매우 오랜시간 동안 스크립트가 실행 된다.)

  • 클러스터형 컬럼스토어 인덱스 : SQL Server 2014 지원
  • 비클러스터형 컬럼스토어 인덱스 : SQL Server 2012 ~ 2014 지원

CREATE TABLE dbo.t_colstore (

c1 int NOT NULL,

c2 INT NOT NULL,

c3 char(40) NOT NULL,

c4 char(1000) NOT NULL

)

go

 

set nocount on

go

 

-- load 2000000 rows

declare @outerloop int = 0

declare @i int = 0

 

while (@outerloop < 2000000)

begin

    Select @i = 0

    

    while (@i < 2000)

    begin

        insert t_colstore values (@i + @outerloop, @i + @outerloop, 'a',

        concat (CONVERT(varchar, @i + @outerloop), (replicate ('b', 950))))

        set @i += 1;

    end

 

set @outerloop = @outerloop + @i

 

set @i = 0

end

go

 

CREATE CLUSTERED COLUMNSTORE INDEX t_colstore_cci ON t_colstore with (maxdop = 1)

 

생성된 컬럼스토어의 RowGroup과 각 그룹에 포함된 행을 살펴보자. 필자가 테스트한 결과로는 39개의 그룹과 각 그룹당 45468의 행이 포함되어 있다.

select * from sys.column_store_row_groups where object_id = object_id('t_colstore')

 

 

위에 설명에서는 행번호 1,048,576에 도달해야만 세그먼트 그룹이 닫히고 새로운 세그먼트 그룹으로 저장된다고 하였는데 왜 이런 현상이 발생한 걸까? 이는 사전의 크기(16MB)가 가득차게 되면 자동으로 RowGroup의 크기를 줄인다. 즉 메모리가 부족한 경우 로우 카운트가 1048576에 도달하지 않더라도 현재의 세그먼트를 닫는다.

 

 

[참고자료]

http://msdn.microsoft.com/ko-kr/library/gg492088(v=sql.120).aspx

 

 

2014-09-15 / 강성욱 / http://sqlmvp.kr

 

SQL Server 2012, 컬럼스토어 인덱스, 행 그룹, Column Store Index, 메모리 인덱스, SQL, 데이터베이스, 대용량 데이터베이스, Delta Row Group, Compress Row Group, 인덱스 압축

 

RANDBETWEEN 함수 만들기

 

  • Version : SQL Server 2005, 2008, 2008R2, 2012, 2014

 

엑셀에 포함되어 있는 함수인 RANDBETWEEN(범위 난수 발생)을 SQL에서 구현하는 방법에 대해서 알아 본다.

 

엑셀에서는 다음과 같이 RANDBETWEEN 함수를 사용하여 범위에 포함되어 있는 난수를 생성하는 함수가 있다.

 

SQL Server에서도 RAND() 함수를 사용하여 두 수 사이의 난수를 생성할 수 있다.

select cast(round((75-25)*rand()+25, 0) as integer) as RandBetweenValue

 

 

위의 쿼리를 원하는 범위에 따라 재사용이 가능하도록 함수를 생성한다. 다음과 같은 오류가 발생 할 것이다.

create function randbetween(@bottom int, @top int)

returns int

 

as

 

begin

    return (select cast(round((@top-bottom)*rand() + @bottom,0) as integer))

end

go

 

 

 

이 문제는 임의의 숫자를 포함하는 뷰를 사용하면 해결할 수 있다.

create view vRandomNumber

as

    select rand() as RandomNumber

go

 

create function randbetween(@bottom int, @top int)

returns int

 

as

 

begin

    return (select cast(round((@top-@bottom)* RandomNumber + @bottom,0) as integer) from vRandomNumber)

end

go

 

select dbo.randbetween(25, 75)

 

 

 

함수에서 사용할 수 없는 오퍼레이터를 뷰로 해결하여 사용자가 원하는 범위 내애서 난수를 발생시키는 방법에 대해서 알아 보았다.

 

[참고자료]

http://www.mssqltips.com/sqlservertip/3297/create-your-own-randbetween-function-in-tsql/

 

2014-08-05 / 강성욱 / http://sqlmvp.kr

 

 

MS SQL, SQLServer, 난수 발생, RAND(), 랜덤 생성, RandBetween, 함수 생성,SQL tip, 데이터베이스

TempDB 파일 사이즈 증가 시 경고 받기

 

  • Version : SQL Server 2005, 2008, 2008R2, 2012, 2014

 

 

SQL Server를 운영하면서 모니터링해야 할 항목들이 있다. 특히 시스템 데이터베이스의 경우 SQL Server를 운영하는데 필수적인 사항으로 이상이 발견되었을 때 즉시 알림을 받을 수 있도록 해야 한다.

 

이번 포스트는 시스템 데이터베이스에서 가장 많이 사용되고 있는 tempdb의 파일 사이즈 증가 시 알림을 받기 위한 방법으로 SQL Serve Agent 기능을 활용하는 방법에 대해서 알아본다.

 

경고 작업을 생성하기 위해 SSMS를 실행하여 SQL Server Agent에서 경고를 선택 한다. 경고에 사용할 이름을 입력하고 유형을 선택 한다. 데이터파일의 증가는 성능 모니터 정보를 검사 할 수 있도록 performance condition alert를 선택 한다.

 

카운터의 이름을 입력한다. (대소문자 주의) 그리고 모니터링 하려는 대상의 인스턴스명을 입력 한다. 데이터파일의 증가에 대한 경고가 목적이기 때문에 초과(rises above) 를 선택한다. 실습에서는 초과 값을 10000킬로바이트(단위 : KB)로 설정 하였다.

 


응답 탭으로 이동하여 체크박스를 선택하고 [새 작업]을 클릭하여 작업을 생성한다. 작업을 생성하는 과정은 SQL Server Agent 작업 등록과 동일하다. (작업 등록 완료 후 SQL Server Agent에도 등록되어 있음을 확인 할 수 있다.)

 

작업의 이름을 등록 한다.

 

 

단계 이름을 설정하고 해당 이벤트가 발생 했을 때 실행 할 쿼리를 입력 한다. 아래 예제 쿼리는 tempdb가 증가하였을 때 메일을 발송하는 예제 쿼리이다.

 

데이터베이스 메일에 대한 설정은 다음 아티클을 참고 한다.

 

 

DECLARE @xml NVARCHAR(MAX)DECLARE @body NVARCHAR(MAX)

SET @xml =CAST((

SELECT TOP 5 --Change number accordingly

su.Session_ID AS 'td','',

ss.Login_Name AS 'td','',

rq.Command AS 'td','',

su.Task_Alloc AS 'td','',

su.Task_Dealloc AS 'td','',

--Find Offending Query Text:

(SELECT SUBSTRING(text, rq.statement_start_offset/2 + 1,

(CASE WHEN statement_end_offset = -1

THEN LEN(CONVERT(nvarchar(max),text)) * 2

ELSE statement_end_offset

END - rq.statement_start_offset)/2)

FROM sys.dm_exec_sql_text(sql_handle)) AS 'td'

FROM

(SELECT su.session_id, su.request_id,

SUM(su.internal_objects_alloc_page_count + su.user_objects_alloc_page_count) AS Task_Alloc,

SUM(su.internal_objects_dealloc_page_count + su.user_objects_dealloc_page_count) AS Task_Dealloc

FROM sys.dm_db_task_space_usage AS su

GROUP BY session_id, request_id) AS su,

sys.dm_exec_sessions AS ss,

sys.dm_exec_requests AS rq

WHERE su.session_id = rq.session_id

AND(su.request_id = rq.request_id)

AND (ss.session_id = su.session_id)

AND su.session_id > 50 --sessions 50 and below are system sessions and should not be killed

AND su.session_id <> (SELECT @@SPID) --Eliminates current user session from results

ORDER BY su.task_alloc DESC --The largest "Task Allocation/Deallocation" is probably the query that is causing the db growth

FOR XML PATH ('tr'), ELEMENTS ) AS NVARCHAR(MAX))

--BODY OF EMAIL - Edit for your environment

SET @body ='<html><H1>Tempdb Large Query</H1>

<body bgcolor=white>The query below with the <u>highest task allocation

and high task deallocation</u> is most likely growing the tempdb. NOTE: Please <b>do not kill system tasks</b>

that may be showing up in the table below.

<U>Only kill the query that is being run by a user and has the highest task allocation/deallocation.</U><BR>

<BR>

To stop the query from running, do the following:<BR>

<BR>

1. Open <b>SQL Server Management Studio</b><BR>

2. <b>Connect to database engine using Windows Authentication</b><BR>

3. Click on <b>"New Query"</b><BR>

4. Type <b>KILL [type session_id number from table below];</b> - It should look something like this: KILL 537; <BR>

5. Hit the <b>F5</b> button to run the query<BR>

<BR>

This should kill the session/query that is growing the large query. It will also kick the individual out of the application.<BR>

You have just stopped the growth of the tempdb, without having to restart SQL Services, and have the large-running query available for your review.

<BR>

<BR>

<table border = 2><tr><th>Session_ID</th><th>Login_Name</th><th>Command</th><th>Task_Alloc</th><th>Task_Dealloc</th><th>Query_Text</th></tr>'

SET @body = @body + @xml +'</table></body></html>'

--Send email to recipients:

EXEC msdb.dbo.sp_send_dbmail

@recipients =N'dba@domain.com', --Insert the TO: email Address here

@copy_recipients ='dba_Manager@domain.com', --Insert the CC: Address here; If multiple addresses, separate them by a comma (,)

@body = @body,@body_format ='HTML',

@importance ='High',

@subject ='THIS IS A TEST', --Provide a subject for the email

@profile_name = 'DatabaseMailProfile' --Database Mail profile here

 

 

작업 생성이 완료 되었으면 위에서 생성한 작업을 선택하고 확인을 클릭한다.

 

 

Tempdb가 증가 하였을 때 메일이 발송되며 메일은 다음과 같은 형식이다.

 

 

[참고자료]

http://www.mssqltips.com/sqlservertip/3276/sql-server-alert-for-tempdb-growing-out-of-control/

 

2014-07-22 / 강성욱 / http://sqlmvp.kr

 

Sqlserver, tempdb, 데이터베이스, DBA, DB 모니터링, SQL Mail, 데이터 파일 증가, 템프DB, 성능 카운터, Job agent, 잡에이전트

 

+ Recent posts