주메뉴 바로가기 본문 바로가기

알림

콘솔 이동 시 로그인이 필요합니다.

로그인하시겠습니까?

아니요

닫기

주문 불가 알림

주문권한이 없습니다.

콘솔에 접근할 수 없는 계정입니다.

확인

닫기

알림

신용카드 등록이 필요합니다.

신용카드 등록 페이지로 이동하시겠습니까?

아니요

닫기

Cloud Z 홍보센터

Cloud Z 뉴스 상세
Cloud Z 블로그Digital OPS와 SRE의 실현, Cloud Z CARE 를 소개합니다! 등록일 2019-12-03 | 조회수 1084
[디지털 트랜스포메이션와 비즈니스 속도]
우리가 따뜻한 이불 속에서 단잠을 이루는 새벽, 다른 한쪽에서는 배송 전쟁이 벌어지죠.
2015년 마켓컬리가 시작한 새벽 배송 시장이 10배 정도 커지면서 9개 업체가 뛰어들어 승부를 벌이기 때문입니다.
O2O(Online to Offline) 비즈니스 모델인 새벽 배송은
디지털 비즈니스 시스템 개발을 시작으로 물류/유통망 및 배송 네트워크 구축
그리고 이 모든 과정을 풀 콜드 체인(Full cold chain)으로 엮어야 하는 진입 장벽이 높은 사업입니다.
디지털 비즈니스 강자인 위메프와 티몬이 사업을 접은 이유이기도 하죠.

이마트, 현대백화점 같은 후발 기업 입장에서 시장 진입 전략을 생각해보죠.
물류와 배송 서비스등 확보된 역량은 빼놓고 온라인 시스템 구축만 생각해보죠.
전통적 IT 전략을 채택한다면 서비스 기획/설계 후에 최대한 빠른 개발을 목표로 개발에 들어가겠죠.
개발이 끝나면 여러 테스트 후에 서비스를 배포하고 안정화 기간을 거쳐 운영에 들어갑니다.
어느 정도의 시간이 필요할까요? 1년, 2년? 정확한 예측은 힘들지만 꽤 걸리겠죠.
그동안 선두 업체는 시장 장악력을 높이고 격차는 더 벌어집니다.
시장 진입이 1, 2년 늦어질 때 후발 업체의 실패 가능성은 얼마나 커질까요?
비즈니스 속도는 디지털 비즈니스의 가장 큰 특징 중 하나입니다.


[Digital OPS와 SRE의 필요성]
디지털 비즈니스의 속도를 맞추는 동시에 안정성도 확보해야 하는 기업의 고민은
SW 개발과 운영을 통합한 DevOps 등의 Digital OPS(디지털 운영) 모델을 만들어냈죠.
운영 안정성을 중시하는 전통적 IT 방식은 자연스레 원인 분석과 재발 방지에 집중합니다.
반면 Digital OPS는 서비스 안정성이 완벽할 수 없다는 인식하에 장애 가능성을 인정하고
장애의 빠른 인지/전파, 상황 공유와 복구에 집중하는 전략을 택합니다.

이 과정에서 당연히 가용성 문제가 등장하고, 기업은 속도를 유지하면서 가용성을 잃지 않는 방법을 찾게 됩니다.
이것이 SRE(Site Reliability Engineering)가 나온 상황적 배경이죠.
SRE는 변화된 운영 환경에 적용할 수 있는 상세 가이드와 사례를 통해
속도와 가용성의 두 마리 토끼를 잡는 방안을 제시합니다.
SRE는 Reliability Operation(운영 안정성), Evaluation of Automation(자동화 평가),
Incident Response(장애 대응), Monitoring & Alerting(모니터링 및 알림)
그리고 Postmortem(사후 분석)의 5개 영역을 지원합니다.


 (그림: Digital OPS (디지털 운영) 진행 단계)

효율적 Digital OPS에는 Automation(자동화), integration(연동), Collaboration(협업)의 3대 조건이 필요합니다.
먼저 자동화를 통해 장애 인지부터 조치까지 사람의 개입을 최소화하고 처리 속도와 정확도를 높여야 합니다.
다음은 장애 관련 서비스 및 애플리케이션의 광범위한 연동인데
멀티-클라우드 환경이 보편화되는 상황을 고려할 때 아주 중요합니다.
세 번째는 협업입니다. 장애 인지부터 복구까지 개발팀, 운영팀, 고객 대응팀
그리고 고객까지 많은 인원이 참여하게 되죠.
따라서 이들간의 협업이 장애 대응 능력과 수준을 좌우하게 됩니다.


[SK㈜ C&C Digital OPS]
디지털 트랜스포메이션과 멀티 클라우드 운영에 요구되는 SRE 철학과 방법론을 제대로 반영하고
Automation (자동화), integration (연동), Collaboration (협업) 3대 조건을 갖춘
“다양한 서비스 이벤트의 신속한 인지/전파/조치를 위한 자동화 체계”가 SK㈜ C&C Digital OPS입니다.


[SK㈜ C&C Digital OPS의 차별점]


 (그림: SK㈜ C&C Digital OPS 서비스)

Digital OPS는 위 그림처럼 모니터링 서비스를 이용한 장애 인지부터
전파, 처리 및 사후 분석 과정 전체를 지원하는 End to End 서비스입니다.
업무별로 사일로 (Silo)화된 서비스는 대응력 저하의 주범이죠.
Digital OPS의 출발점인 모니터링 서비스는 Cloud Z Mon를 기본으로
AWS CloudWatch, Azure Monitor 및 Dynatrace 등을 통합 지원해 멀티-클라우드 사용 기업의 고민을 덜었습니다.
도입한 클라우드 종류만큼 별도 서비스를 운영한다는 것은 생각만해도 힘들죠.

더불어 전화, 이메일, SMS, 웹서비스 및 슬랙(Slack)을 이용한 협업 채널을 활용해
상황 전파, 정보 공유, 대응 속도와 처리 능력을 크게 높였습니다.
그리고 꾸준한 자동화 기능–이벤트 감지, 통보 등- 추가를 통해 사용자 편리성을 높이고 있습니다.

Digital OPS 서비스가 잘 구현 되었어도 아직 100점을 줄 수는 없습니다.
바로 운영 조직의 실제 대응력이란 이슈가 남아 있기 때문이죠.
SK㈜ C&C는 실제 장애 상황과 동일한 환경에서 진행하는 연 2회 모의 장애 훈련을 통해
운영 조직 체계와 대응력을 높이는 것도 잊지 않고 있습니다.

그럼 SK㈜ C&C Digital OPS를 이루고 있는 주요 서비스를 살펴보겠습니다:

● Cloud Z MON: Cloud Z, AWS, Azure, 구글 및 프라이빗 클라우드에서 운영 중인 다양한 클라우드 자원과
    서비스 상태를 실시간 모니터링하고 시각화해 제공하는 통합 모니터링 서비스입니다.
    클라우드 자원별 지표, 지표별 차트 그리고 지표별 임계값 등을 포함한 대시보드를 운영 환경에 따라
    유연하게 구성해 사용할 수 있습니다. 


 (그림: Cloud Z MON 서비스 구성)

 (그림: Cloud Z MON 실화면(Dashboard 및 Alert Manager))
 
● Cloud Z CARE Alert: Z CARE Alert는 모니터링이 감지한 이벤트를 빠르고 정확하게 각 담당자에게
    통보하는 역할을 합니다. 자동으로 이벤트를 감지하고 실시간 전파합니다.
    다양한 모니터링 서비스 연계가 가능하고 장애 특성에 따라 다양한 전달 정책(Escalation rule)을
    설정할 수 있습니다. 담당자 직책과 중요도 등으로 우선 순위를 설정하고 그에 따라
    통보 채널을 매핑해 운영함으로써 트래픽 부하를 조절할 수 있습니다.
 

 (그림: Z CARE Alert 실화면 (Alert Escalation 및 MTTA/R 관리))
 
 (그림: Z CARE Alert 실화면 (Alert Escalation 및 MTTA/R 관리))
 
● Cloud Z CARE Channel: 발견된 문제 해결을 위해 담당자간 실시간 소통과 처리 방안을 전파하는 서비스입니다.
    자동화 기능을 적용해 운영자에게 필요한 모든 이벤트 정보를 발생 즉시 수신하고 동시에 전파할 수 있습니다.
    발생 장애의 최적임자가 참여해 처리할 수 있는 방안을 보장하고, 모든 조치 과정과 결과를
    사후 분석 작업과 연계해 개선 효과를 높이도록 구현되어 있습니다. 관련 자료는 영구 보존되고
    자동 검색 봇(Bot) 등을 이용해 손쉽게 참조할 수 있습니다. 
 

 (그림: Z CARE Channel 구성)
 
● 사후 분석 (Postmortem): 사후 분석은 장애 처리 과정에서 조직이 얻은 경험, 정보와 자료를 컨퍼런스,
    소모임(meet up) 및 교육 등으로 공유하고 내재화하는 과정입니다. 장애 원인 분석과 더불어
    인지/전파/조치 사항과 각 과정에서 학습한 결과(Lesson learned)를 공유합니다.
    이를 통해 장애 발생을 지속적으로 낮추고 대응 능력을 높이는 것을 목표로 합니다.
    그런데, 무엇보다 중요한 것은 비난하지 않는 문화, 책임 소재를 따지기 보다
    공유를 통한 장애 예방에 집중하는 조직 문화입니다.  


[SK㈜ C&C Digital OPS 로드맵]
SK㈜ C&C Digital OPS는 서비스의 부족한 부분을 보완하고 지속 개선해서
“SRE 기반의 멀티 클라우드 통합 운영관리 시스템”이 되는 비전을 갖고 있습니다.
현재 Digital OPS에 멀티-클라우드 통합 대시보드(서비스 그룹별 자원 관리 가능)와
서비스 콜렉터를 연계한 Multi-Cloud Management Platform을 다음 버전에서 선보일 예정입니다.

 
“Digital OPS 서비스와 프로세스를 이용하면 장애 발생 시 모든 사람이 장애 상황에 대해
빠르게 공유할 수 있고, 관련자들이 이 내용을 전달 받고 즉시 Follow 함으로써
추가적인 보고 없이 신속하게 장애 처리를 할 수 있다는 점이 큰 장점입니다!”

홍장헌 수석(플랫폼 Operation 그룹)


● Cloud Z CARE 관련 문의: 홍장헌 수석 (jhhong@sk.com)

목록


quick 메뉴