000001871277_1425351249536_0.35266743797617006

Description
1. 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에 한하여 자유롭게 l 이 저작물을 복제, 배포,…

Please download to get full document.

View again

of 133
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
Information
Category:

Slides

Publish on:

Views: 0 | Pages: 133

Extension: PDF | Download: 0

Share
Transcript
  • 1. 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에 한하여 자유롭게 l 이 저작물을 복제, 배포, 전송, 전시, 공연 및 방송할 수 있습니다. 다음과 같은 조건을 따라야 합니다: l 귀하는, 이 저작물의 재이용이나 배포의 경우, 이 저작물에 적용된 이용허락조건 을 명확하게 나타내어야 합니다. l 저작권자로부터 별도의 허가를 받으면 이러한 조건들은 적용되지 않습니다. 저작권법에 따른 이용자의 권리는 위의 내용에 의하여 영향을 받지 않습니다. 이것은 이용허락규약(Legal Code)을 이해하기 쉽게 요약한 것입니다. Disclaimer 저작자표시. 귀하는 원저작자를 표시하여야 합니다. 비영리. 귀하는 이 저작물을 영리 목적으로 이용할 수 없습니다. 변경금지. 귀하는 이 저작물을 개작, 변형 또는 가공할 수 없습니다.
  • 2. 빅 데 이 터 환 경 을 고 려 한 데 이 터 마 이 닝 기 법 을 이 용 한 서 버 장 애 예 측 모 델 임 복 출 박사 학위 논문 빅 데이터 환경을 고려한 데이터마이닝 기법을 이용한 서버 장애 예측 모델 APredictionModelofServerFailure usingDatamininginBigDataEnvironment 2015년 02월 중 부 대 학 교 대 학 원 정 보 과 학 과 임 복 출
  • 3. 박 사 학 위 논 문 빅 데이터 환경을 고려한 데이터마이닝 기법을 이용한 서버 장애 예측 모델 APredictionModelofServerFailure usingDatamininginBigDataEnvironment 2015년 02월 중 부 대 학 교 대 학 원 정 보 과 학 과 임 복 출
  • 4. 빅 데이터 환경을 고려한 데이터마이닝 기법을 이용한 서버 장애 예측 모델 APredictionModelofServerFailure usingDatamininginBigDataEnvironment 지도교수 김 순 곤 이 논문을 박사학위 논문으로 제출함. 2015년 02월 중 부 대 학 교 대 학 원 정 보 과 학 과 임 복 출
  • 5. 임복출의 박사학위 논문을 인준함. 심사위원장 고 응 남 인 심 사 위 원 이 강 수 인 심 사 위 원 박 인 규 인 심 사 위 원 박 종 훈 인 심 사 위 원 김 순 곤 인 2014년 12월 일 중 부 대 학 교 대 학 원
  • 6. -i- 목 차 목 차 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ ⅰ 표 목 차 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ ⅳ 그림목차 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ ⅵ 제 1장 서론 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 1 제 1절 연구의 필요성 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 1 제 2절 논문의 구성 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 3 제 2장 관련 연구 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 5 제 1절 빅 데이터 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 5 1.빅 데이터 연관 기술 동향 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 5 2.빅 데이터 개요 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 8 3.빅 데이터 활용 단계별 특징 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 13 제 2절 서버 성능 모니터링 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 21 1.서버 성능 모니터링 개요 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 21 2.모니터링 분야별 구성요소 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 24 3.서버 모니터링 솔루션 비교 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 28
  • 7. -ii- 제 3절 데이터마이닝 기법 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 33 1.데이터마이닝 기법 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 33 2.예측과 시계열 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 35 제 3장 서버 장애 모니터링 감시항목 도출 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 40 제 1절 서버 장애 모니터링 지표 도출 절차 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 42 제 2절 서버 모니터링 데이터 수집 및 감시항목 검증 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 46 1.장애 이력 데이터 수집 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 47 2.장애 이력 데이터 빈도 분석 결과 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 48 3.장애 요인별 교차 분석 결과 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 53 4.서버 모니터링 상세 데이터 수집 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 56 제 3절 감시항목 도출 결과 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 58 제 4장 빅 데이터 환경을 고려한 서버 장애 예측 모형 설계 ‧‧‧‧‧‧‧‧‧‧‧ 59 제 1절 서버 장애 모니터링 요구사항 분류 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 59 1.서버 장애에 영향을 주는 항목 검증을 위한 가설 수립 ‧‧‧‧‧‧‧‧‧‧‧ 59 2.가설 검증을 위한 요구사항 도출 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 61 제 2절 시계열 예측 모형 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 77 1.예측 모형 구조 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 77 2.시계열 분석 및 예측 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 79
  • 8. -iii- 제 5장 예측 모형 적용 실험 및 결과 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 84 제 1절 구축 환경 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 84 1.HadoopPlatform,모니터링 환경 구축 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 84 2.데이터 수집 환경 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 87 3.데이터 분석 환경 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 88 제 2절 예측 모형 분석 및 검증 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 92 1.예측 모형 검증을 위한 데이터 수집 및 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 92 2.예측 모형 검증 결과 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 96 제 6장 결론 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 101 참고문헌 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 104 ABSTRACT ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 112 감사의 글 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 117
  • 9. -iv- 표 목 차 [표 1]주요기관 IT 10대 전망 비교 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 5 [표 2]빅 데이터의 다양한 정의 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 9 [표 3]빅 데이터 요소 기술 분류 및 해당기술 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 14 [표 4]빅 데이터 저장 기술 관련 용어 정리 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 16 [표 5]성능을 나타내는 일반적인 지표 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 22 [표 6]서버의 주요 모니터링 구성요소 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 25 [표 7]네트워크의 주요 모니터링 구성요소 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 26 [표 8]스토리지의 주요 모니터링 구성요소 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 26 [표 9]응용 프로그램의 주요 모니터링 구성요소 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 27 [표 10]데이터 마이닝 기법의 종류 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 34 [표 11]데이터 마이닝 활용분야 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 35 [표 12]예측기법 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 36 [표 13]정보시스템 운영·관리 지침 감시항목 요약 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 42 [표 14]상용 및 오픈소스 기반 솔루션 감시항목 요약 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 43 [표 15]1차 도출 감시항목 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 45 [표 16]실제 A사의 분석결과 요약 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 46 [표 17]2차 도출 감시항목 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 58 [표 18]CPU,Memory,Disk등에 관한 가설 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 59 [표 19]Process,Queue등에 관한 가설 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 60 [표 20]네트워크 Node,Port등에 관한 가설 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 60
  • 10. -v- [표 21]Web,WAS 등에 관한 가설 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 61 [표 22]CPU 사용량 가설 수정 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 63 [표 23]활성 프로세스의 CPU 사용량 가설 수정 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 67 [표 24]활성 프로세스의 Memory사용량 가설 수정 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 68 [표 25]특정 프로세스의 Thread개수 가설 대체 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 71 [표 26]네트워크 관련 가설 수정 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 73 [표 27]3차(최종)도출 감시항목 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 76 [표 28]감시항목별 임계치 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 78 [표 29]구축 환경 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 86 [표 30]Esper를 위한 Synapse설정 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 87 [표 31]로그 데이터 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 93 [표 32]R console내용 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 97
  • 11. -vi- 그 림 목 차 [그림 1]기술 트렌드의 빅 데이터 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 6 [그림 2]2013년도 가트너 하이프 사이클 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 7 [그림 3]빅 데이터 정의에 대한 설문 결과 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 8 [그림 4]빅 데이터의 4가지 차원 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 11 [그림 5]빅 데이터로부터 지식 활용 단계 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 13 [그림 6]주요 빅 데이터 요소 기술 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 14 [그림 7]빅 데이터 아키텍처와 프로세싱 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 17 [그림 8]고도화된 분석 기법 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 18 [그림 9]PredictionModels ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 19 [그림 10]Esper구성도 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 20 [그림 11]제니퍼에서 제공하는 실시간 모니터링 화면 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 29 [그림 12]시스매니저원에서 제공하는 통합 모니터링 화면 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 30 [그림 13]Nagios에서 제공하는 화면 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 30 [그림 14]Ganglia에서 제공하는 화면 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 31 [그림 15]Zabbix에서 제공하는 화면 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 32 [그림 16]시계열의 구성요소 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 37 [그림 17]시계열의 패턴 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 38 [그림 18]추세분석법 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 39 [그림 19]연구 방법 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 41 [그림 20]감시항목 도출 과정 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 44
  • 12. -vii- [그림 21]A사 운영서비스 개념도 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 47 [그림 22]서버별 장애 발생 요약 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 48 [그림 23]감시 영역별 장애 발생 요약 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 49 [그림 24]감시 부분별 장애 발생 요약 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 50 [그림 25]감시 상세별 장애 발생 요약 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 51 [그림 26]일자별(상),일자/시간별(하)장애 발생 요약 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 52 [그림 27]서버별 감시 영역 교차 분석 요약 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 53 [그림 28]서버별 감시 부분 교차 분석 요약 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 54 [그림 29]서버별 감시 상세 교차 분석 요약 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 54 [그림 30]장애 발생 일자별 서버 교차 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 55 [그림 31]시스템 모니터링 데이터 요약 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 56 [그림 32]응용 소프트웨어 모니터링 데이터 요약 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 57 [그림 33]CPU 사용량 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 62 [그림 34]Memory사용량 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 64 [그림 35]Disk사용량 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 65 [그림 36]활성화 프로세스의 CPU 사용량 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 66 [그림 37]활성화 프로세스의 Memory사용량 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 68 [그림 38]프로세스 개수 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 69 [그림 39]프로세스 사용량 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 70 [그림 40]네트워크 사용량 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 72 [그림 41]웹 로그 응답유형별 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 74
  • 13. -viii- [그림 42]웹 로그 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 75 [그림 43]빅 데이터 환경을 고려한 서버 장애 모니터링 예측 모형 ‧‧‧‧‧‧‧‧‧ 79 [그림 44]정상 운영시 1번(좌),2번(우)서버의 시계열 분석 및 예측 ‧‧‧‧‧‧‧ 80 [그림 45]장애 기점 1번(좌),2번(우)서버의 시계열 분석 및 예측 ‧‧‧‧‧‧‧‧‧ 81 [그림 46]예측 모형의 비교 검증 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 82 [그림 47]시계열 예측값과 실제 측정값 비교 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 83 [그림 48]시스템 구성도 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 84 [그림 49]모듈 구성도 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 85 [그림 50]HadoopPlatform Architecture‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 86 [그림 51]Ganglia와 Synapse연동 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 87 [그림 52]HadoopPlatform ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 88 [그림 53]Hadoop- Namenode ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 89 [그림 54]Ganglia구축 화면 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 90 [그림 55]Map/Reduce과정 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 91 [그림 56]부하 시나리오 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 92 [그림 57]JMeter시험용 부하 데이타 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 94 [그림 58]측정 데이타 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 95 [그림 59]부하량과 CPU사용량 기준 시계열 예측 데이타 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 95 [그림 60]부하량과 CPU사용량 시계열 예측 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 96 [그림 61]RStudio데이터 로딩 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 98
  • 14. -ix- [그림 62]RStudio를 통한 시계열 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 99 [그림 63]RStudio를 통한 시계열 예측 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 100
  • 15. -1- 제 1장 서론 제 1절 연구의 필요성 정보통신기술의 발달과 가속화된 디지털 혁신으로 현대 사회는 무수히 많은 데 이터가 실시간으로 발생하고 있다.데이터량의 급속한 증가는 2007년 아이폰 도입 을 시작으로 확산된 스마트폰(Device)과 모바일 플랫폼(Platform)을 통해 다양한 콘 텐츠(Contents)와 애플리케이션(Application)에 접근하게 되면서 더더욱 빨라졌다. IDC 디지털 유니버스(IDC DigitalUniverse)의 보고서에 따르면 2012년에 생산되고 복제된 정보의 양이 2.8제타바이트(ZettaBytes)에 달하고 있으며,매 2년마다 그 양 이 2배씩 증가한다고 하였다.세계적으로 생성과 복제 및 유통되는 데이터량이 2020년에는 40제타바이트에 달할 것으로 전망하였다[1,2]. 서버 성능 모니터링 분야에서는 에이전트 기반의 클라이언트가 모니터링 데이터 를 중앙 서버에 전송하여 집적하고 있는 구조가 현재 운영되는 서버 구성의 기본 구조로 통용되고 있다.이런 구조로 인하여 제한적인 서버 성능 모니터링만 제공하 고 있다.예를 들어 부하 균등화를 해결하거나 시스템의 성능 및 정상 여부를 확인 한다.또한 시스템에 문제나 오류가 있는 경우 안정된 서버에 우회하도록 하여 정 상적인 서비스를 제공하는 정도이다. 빅 데이터(Big Data)의 영향력이 증대되는 환경에서 시대적 상황에 맞춰 정보시 스템 모니터링 시스템도 변화가 필요하다.실시간으로 발생되는 대량의 데이터 기 반의 성능 관리가 가능해야 한다.실시간 대처를 위하여 ①시스템 복잡도 및 규모 의 확대에 따라 확장성 있는 서버 성능 모니터링 시스템의 설계를 어떻게 할 것인 가,②이질적 환경에 이식성 있는 시스템을 어떻게 설계할 것인가,③서버 성능 모 니터링을 위하여 발생되는 수많은 데이터를 수집,분석하여 어떻게 실시간으로 대 처할 수 있는가가 중요한 고려사항이다.
  • 16. -2- 빅 데이터에 관한 연구들은 다양한 부분에서 진행되었다.관련 연구를 살펴보면, 국가별 공공·행정 분야의 활용뿐만 아니라 국·내외 기업들도 다양한 부분에 활용하 고 있다[3-8].단순 활용분야 외에 빅 데이터 기반의 예측 정보를 제공하기 위한 다 양한 연구도 진행되었다.교통량 분석을 통한 사고율 예측,주가지수 예측을 위한 뉴스 데이터의 활용 연구,SNS 빅 데이터를 활용한 연구,또한 빅 데이터의 3가지 특징(규모,다양성,속도)과 속성을 통한 재난 대응의 의사결정 영향도 연구 등이 있다.빅 데이터 자체를 활용하는 연구뿐만 아니라 빅 데이터 기반 기술인 하둡과 관련된 다양한 연구도 진행되었다[9-15].하지만 정보시스템 모니터링 분야에서의 빅 데이터 활용 연구는 미흡한 실정이다. 서버 성능 모니터링 분야에서는 오픈소스 기반의 솔루션에서 빅 데이터 세부 기 술을 감시하는 정도의 빅 데이터 연계가 진행되고 있다.서버 성능 모니터링 분야 에서는 데이터 마이닝 기법을 활용한 연구가 진행되었다.회귀 알고리즘을 통한 서 버관리나 우선순위 모니터링,인공신경망을 통한 차량 고장 예측 등이다.또한 서버 성능의 분류나 예측에 관한 연구도 진행되었다[16-24].하지만 무수히 많은 데이터 가 실시간으로 발생하는 빅 데이터 시대에 맞춘 서버 성능 감시 및 수집,처리 연 구는 미흡하다.장애 대응 및 예측을 위하여 데이터 마이닝 기법 중 시계열 예측 연구 분야를 살펴보면,항공수요 예측이나 시스템 오류나 이상 징후에 대한 예측과 HTTP에서 발생되는 공격 탐지,시계열 예측 모델을 이용한 TCP 성능 분석 등의 연구가 진행되었다[25-27].시계열 예측을 이용하면 서버 성능 모니터링을 통하여 장애발생 이전의 예측 및 대응이 가능한 시스템 제안이 가능할 것이다. 본 논문에서는 빅 데이터 환경을 고려한 서버 장애 예측 모델을 제시하고자 하 였다.서버 성능 모니터링시 장애발생 후 대응이나 조치가 아닌 사전 예측 대응을 위한 방안을 제시하고자 하였다.이를 위하여 빅 데이터,정보시스템 운영·관리 지 침을 비롯한 서버 모니터링과 데이터 마이닝과 시계열 분석 및 예측에 대하여 개념 부터 활용사례에 관하여 과거 국내·외 논문들을 분석하였다.
  • 17. -3- 빅 데이터 환경을 고려한 서버 장애 예측을 위한 감시항목을 도출하기 위하여 정보시스템 운영·관리 지침 중 장애와 관련한 지침(이하 장애 모니터링을 위한 운 영·관리 지침)과 상용 및 오픈소스 기반 모니터링 솔루션에서 제시하는 감시항목을 분석,비교,검토하여 1차로 감시항목을 도출하였다.도출 감시항목의 적정성을 판 단하기 위하여 실제 A사 운영서비스의 모니터링 데이터를 수집하였다.수집된 장애 이력 데이터의 빈도 및 교차 분석을 통하여 1차 도출 감시항목과 추가된 감시항목 을 2차로 도출하였다.2차 도출 감시항목을 기준으로 모니터링을 위한 가설을 수립 하였다.수립된 가설의 적정성을 검증하고자 실제 A사의 감시 상세 데이터를 분석 하였다.분석을 통하여 유의한 영향을 미친다고 판단되는 가설을 수정 및 대체하였 다.사전 예측 및 대응을 위하여 기존의 데이터 분석과 추가적인 감시 데이터를 수 집하였다.수집 데이터를 기준으로 시계열 분석 및 예측을 진행하여 도식화된 모델 을 비교 분석하였다. 도출된 감시항목과 수립된 가설의 적용 및 적정성을 분석하고자 빅 데이터 관련 기술을 이용하여 실시간 모니터링 실험 환경을 구축하였다.빅 데이터 환경은 Hadoop등과 같은 빅 데이터 기반 기술을 적용하였다.실시간 수집 처리를 위하여 CEP 기술의 오픈소스 Esper를 적용하였다.분석 결과의 시계열 예측 모형을 시각 화하기 위하여 상용 분석툴(SPSS)과 오픈 소스 R에서 시각화를 진행하였다.비교 진행은 빅 데이터 환경을 고려한 모니터링 환경 구축시 오픈 소스를 이용한 시각화 가 가능하기 때문이다.구축한 실험 환경을 빅 데이터 환경을 고려한 서버 모니터 링 시스템 아키텍처로 제안하였다. 제 2절 논문의 구성 2011년 이후 빅 데이터 관련 산업이 이슈화되었다.개념적으로 빅 데이터란 기 존의 데이터 수집,저장,관리 분석하는 역량을 넘어서서 대량의 데이터를 고속으로
  • 18. -4- 수집,검색분석을 하는 차세대 기술과 관련한 서버,스토리지,소프트웨어 서비스 산업이라고 할 수 있다.물론 예전부터 대용량 데이터 처리 분야가 이미 존재하고 있었다.하지만 최근에 더욱 크게 각광받고 그 활용성에 대한 기대가 높은 것은 불 확실한 미래에 대한 보다 정확한 예측이 가능하기 때문이다. 본 논문에서는 빅 데이터 환경을 고려한 서버 장애 예측을 위하여 빅 데이터 수 집,저장,분석하는 기술에 대하여 분석하였다.서버 성능 모니터링을 분석하기 위 하여 기존의 장애 모니터링을 위한 운영·관리 지침의 감시 항목의 연구와 솔루션을 비교 분석하였다.분석한 결과를 토대로 빅 데이터 환경을 고려한 서버 장애 모니 터링 감시항목을 도출하였다.도출된 요소들이 실제 서비스 운영과 어떤 연관이 있 는지 검증하기 위하여 기존의 모니터링 데이터를 수집,가공,처리,분석하였다.기 존 모니터링은 실제 상용 서비스로 운영되는 A사의 서비스 감시 데이터를 기반으 로 진행하였다.수집한 데이터는 운영서비스의 데이터 저장 공간의 제약으로 인하 여 2013년부터 2014년까지의 약 6개월간의 데이터를 기준으로 진행하였다.가설 검 증을 통하여 서버 장애 예측 모형을 제안하고 빅 데이터 환경을 고려한 실험 환경 을 구축하였다.구축한 실험 환경을 빅 데이터 환경을 고려한 서버 장애 모니터링 시스템 아키텍처로 제안하였다. 본 논문에서는 제 1장은 서론으로 연구의 필요성과 논문의 구성을 기술하였다. 제 2장은 관련 연구로서 빅 데이터,서버 성능 모니터링,데이터마이닝 기법을 기 술하였다.제 3장은 서버 장애 모니터링 감시항목을 도출하였다.제 4장은 빅 데 이터 환경을 고려한 서버 장애 예측 모형 설계를 진행하였다.제 5장은 예측 모형 적용 실험 및 결과 분석을 진행하였다.마지막으로 제 6장은 결론에 관하여 언급 하였다.
  • 19. -5- 제 2장 관련연구 본 장에서는 빅 데이터와 관련하여 빅 데이터의 개요와 빅 데이터 처리 단계별 특징,빅 데이터 환경과 관련 기술,빅 데이터 솔루션 등의 내용을 소개하였다.서 버 성능 모니터링과 관련하여 정보시스템 운영 및 관리에 대하여 소개하고 상용 및 오픈소스 기반 솔루션을 비교하였다.그리고 서버 장애의 분석과 예측을 위하여 데 이터마이닝과 시계열 분석 및 예측 기법에 대하여 기술하였다. 제 1절 빅 데이터 관련 기술 1.빅 데이터 연관 기술 동향 최근 몇 년간 빅 데이터는 ICT 시장의 가장 큰 화두였다.매년 여러 기관에서 발표하는 주요 IT 기술 부분에서도 몇 년째 언급되고 있다.가트너,IDC,IEEE,주 니퍼 리서치에서 조사한 2014년 IT 주요기술을 살펴보면 다음 [표 1]과 같다[28]. 가트더 2014년 10대 전략 기술 트렌드 IDC 2014년 10대 전망 IEEE 컴퓨터학회 2014년 10대 기술 트렌드 주니퍼 리서치 2014년 10대 기술 트렌드 1.모바일 기기 다양화 및 관리 1.전 세계 IT 지출 5% 성 장(국내 시장은 3.7% 감소) 1.모바일 클라우드의 출현 1.스마트 도시 2.모바일 웹과 애플리케이 션 2.중국을 중심으로 한 신흥 시장의 부활 2.사물인터넷에서 사물 웹 으로 2.모바일 기술이 가져올 개 도국 농업 혁신 3.만물인터넷(IoE) 3.제3의 플랫폼,AWS 주 도 속 벤더 지출 가속화 3. 빅데이터에서 익스트림 데이터까지 3.웨어러블 분수령의 해 4.하이브리드 클라우드 및 서비스 브로커로서의 IT 4.모바일 기기 맹공 지속 4.3D 프린팅이 가져올 혁 명 4.아이패드와 태블릿이 가 져올 교육 환경의 변화 5.클라우드/클라이언트 아 키텍처 5.클라우드 글로벌 경쟁 치 열 5.새로운 교육 시스템과 관 련 기술 5.모바일 피트니스 확산으 로 모바일 헬스 시장 꿈툴 6.개인 클라우드 시대 6.빅데이터 분석 수요 급증 6.차세대 모바일 네트워크 6.전 세계 LTE 가입자 2 배 확대,LTE-A 시작 [표 1]주요기관 IT 10대 전망 비교
  • 20. -6- 7. SDx(Software Defined Anything) 7.소셜 기술,기업 애플리 케이션으로 통합 7.프라이버시와 아이덴티티 의 균형 7.모바일 맥락 인식 가속화 8.웹 스케일 IT 8.IT 하드웨어 벤더 ‘클라 우드 퍼스트’직면 8.스마트 헬스케어 8.가정용 게임 시장 분열 9.스마트 머신 9.산업별 혁신 플랫폼 대거 등장 9.전자정부 9.더욱 개인화되는 클라우 드 10.3D 프린팅 10.IoT,새로운 형태의 산 업 파트너십 요구 10.클라우드 컴퓨팅의 과학 적 활용 10.3D 프린터 출하 쇄도 2011년부터 3년 연속 주요기관의 기술 트렌드 리스트에 오른 빅 데이터는 2014 년에도 관련 기술의 수요가 계속해서 증가할 것으로 전망된다.IDC에 따르면 2014 년 빅 데이터 기술과 서비스에 대한 지출이 140억 달러를 돌파하며 30%가량 성장 할 것이라 한다.여러 기관에서 발표한 기술 트렌드의 빅 데이터 위치를 도식화하 면 다음 [그림 1]과 같다. [그림 1]기술 트렌드의 빅 데이터 빅 데이터 분석 기술에 대한 수요가 공급을 앞지르는 가운데,대용량 데이터와 실시간 데이터 스트림을 다루는 ‘데이터에 최적화된 클라우드 플랫폼’의 개발 레이 스가 본격화될 것이다.그리고 이에 대한 부가가치를 제공하는 콘텐츠 업체와 데이 터 브로커들도 급증할 것이다. 한편,가트너는 빅 데이터를 2014년 10대 전략 기술에 포함하지 않았다.지난 2012년부터 줄곧 전략 기술에 포함하며 중요성을 강조했던 것과는 다른 양상이다. 이와 관련해 가트너 데이비드 설리 부사장은 ‘향후 빅 데이터는 좀 더 넓은 범위의 정보 관리 전략 안에 포함하는 전략적인 접근의 형태로 변해 가고 있는 중’이라며
  • 21. -7- ‘이번에 발표한 10대 전략 기술에도 이미 빅 데이터가 포함되거나 관련 기술이 복 합적으로 작용하고 있다’고 설명했다. 2013년도에 가트너에서 발표한 하이프 사이클을 통해 빅 데이터 기술의 성숙도 를 살펴보면 다음 [그림 2]와 같다. [그림 2]2013년도 가트너 하이프 사이클 하이프 사이클은 기술의 성숙도를 표현하기 위한 시각적 도구이다.하이프 사이 클은 5단계로 구성된다.단계는 기술 촉발(Technology Trigger),부풀려진 기대의 정점(Peak ofInflated Expectations),환멸 단계(Trough ofDisillusionment),계몽 단계(Slope ofEnlightenment),생산성 안정 단계(Plateau ofProductivity)이다.빅 데이터는 2013년도에 ‘Peak ofInflatedExpectations'단계에 있는 것을 볼 수 있으
  • 22. -8- 며,해당 단계는 일부의 성공적 사례와 다수의 실패 사례가 있다는 것을 의미한다. 그 만큼 빅 데이터 기술에 대하여 많은 기업들이 도입 의지와 필요성을 가지고 있 다고 예측할 수 있다.또한 더 많은 빅 데이터 관련 기술 응용 분야가 나올 수 있 다고도 예측할 수 있다[29]. 2.빅 데이터 개요 빅 데이터는 기술 분야뿐 아니라 다양한 분야에서 여러 가지 의미로 사용되고 있다.빅 데이터 정의에 대해서 ‘Said BusinessSchool’에서 설문 조사를 진행하였 다.설문에서 응답자들은 응답자들이 생각하는 빅 데이터의 정의를 보기 중에서 최 대한 두 가지씩 선택하도록 하였다.설문에 응답한 총 응답자 수는 1,144명 정도이 며,조사결과는 다음 [그림 3]과 같다[30]. [그림 3]빅 데이터 정의에 대한 설문 결과
  • 23. -9- 조사 결과를 요약하면 데이터의 발생지가 제한적이지 않고 다양한 매체(미디어) 로 증가했다.이를 통하여 발생되는 데이터가 대량이며 실시간 정보성 데이터가 증 가하고 이를 분석하는 것이 필요하다는 것이다.다양하게 발표되고 정의되고 있는 빅 데이터의 정의를 살펴보면,‘기존 데이터베이스 관리 방식의 데이터 수집,저장, 검색,관리,분석,시각화 등이 어려운 거대 데이터세트(HugeDataset)규모’로,그 정의는 주관적이며 앞으로도 계속 변화될 것이다.또한 ‘데이터량 기준에 대해 산업 분야에 따라 상대적이며 몇 십 테라바이트에서 수 페타 바이트까지 그 범위로 본 다’라는 단위의 관점에서 빅 데이터를 다음과 같이 정의한다.대용량 데이터를 처리 하는 기술,운영체제,기반 아키텍처,프로세스 등을 일괄로 포함해서 설명하기도 한다[12]. - 맥킨지(McKinsey)에서 DB의 규모에 초점을 맞추어,‘일반적인 데이터베이스 소프트웨어가 저장,관리,분석할 수 있는 범위를 초과하는 규모의 데이터’라고 정 의하였다. - IDC에서 DB가 아니라 업무 수행에 초점을 맞추어,‘Big Data는 다양한 종류 의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴,분석을 지원하도록 고안된 차세대 기술 및 아키텍처’라고 정의하였다.이외에 여러 기관에서 정의한 빅 데이터의 정의를 정리하면 다음 [표 2]와 같다[13]. 구분 정의 McKinsey -일반적인 데이터베이스 소프트웨어가 저장,관리,분석할 수 있는 범위를 초과 하는 규모의 데이터 -수십 테라바이트에서 향후 페타(Peta:1015 )바이트,엑사(Exa:1018 )바이트,제 타(Zeta:1021 )바이트 크기의 대용량 데이터 TDWIResearch -빅 데이터는 단지 그 크기가 방대하다기 보다는 종류와 형식이 다양하고,데이 터의 생성과 소비가 매우 빨라 기존의 데이터 처리 방식으로는 관리 및 분석이 어 려운 데이터 [표 2]빅 데이터의 다양한 정의
  • 24. -10- O'Reilly -전통적인 데이터베이스 시스템 처리 용량을 넘어서는 데이터 채승병 -기존의 관리 및 분석체계로는 감당할 수 없을 정도의 거대한 데이터의 집합 IDC -다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고,데이터 의 초고속 수집,발굴,분석을 지원하도록 고안된 차세대 기술 및 아키텍처 김형준 -빅 데이터란 시스템,서비스,조직(회사)등에서 주어진 비용,시간 내에 처리 가능한 데이터 범위를 넘어서는 데이터 영목양개(鈴木良介) -사업에 도움이 되는 지식을 이끌어 내기 위한 고해상(高解像),고빈도생성(高頻 度生成),다양(多樣)한 특성을 지니는 데이터 실제 지난 10년 간 인터넷과 컴퓨팅의 발전과 모바일 기기와 센서들의 진화,페 이스북이나 트위터와 같은 소셜 네트워크의 출현 등으로 기업 내·외부에 데이터 량 의 폭증을 이끌었다.여기서 발생되는 데이터나 텍스트 및 문서,통화 기록,대규모 의 전자상거래 목록 등이 빅 데이터에 해당된다.예를 들어 웹 로그,RFID,센서 네 트워크,SNS 데이터,인터넷 텍스트 및 문서,인터넷 검색 인덱싱,음성 통화 기록, 각 종 학문적 연구 기록,군사 경계 기록,게놈 데이터를 포함한 의료 정보,사진이 나 동영상 자료,전자 상거래의 정보 등이 빅 데이터인 것이다[12]. 빅 데이터의 특징은 3가지 차원, 즉 규모(Volume), 다양성(Variety), 속도 (Velocity)를 의미하며 3V라 한다[13].근래에 들어 추가적으로 정확성(Veracity)이 라는 네 번째 중요한 차원을 하나 더 고려해야 한다.정확성을 빅 데이터의 네 번 째 특징으로 추가한 것은 특정 유형의 데이터에 내재되어 있는 불확실성을 인식하 고 관리하는 일의 중요성을 강조하기 위해서이다.빅 데이터의 4가지 차원에 대해 도식화하면 다음 [그림 4]와 같다[15,30].
  • 25. -11- [그림 4]빅 데이터의 4가지 차원 2.1규모(Volume):데이터 양 빅 데이터 하면 가장 먼저 연상되는 규모는 기업들이 전반적인 의사 결정 능력 을 향상시키기 위하여 활용하려 노력하는 데이터의 양을 의미한다.데이터의 규모 는 전례 없는 속도로 급증하고 있다.정말 ‘대규모’가 어느 정도의 규모인지는 산업 별,지역별로 차이가 많지만,일반적인 수준은 PT(Peta Bytes)나 ZT(Zeta Bytes) 수준의 데이터 규모이다. 2.2다양성(Variety):데이터의 다양한 형태와 소스 다양성은 정형,반정형,비정형 데이터를 전부 포함하는 복잡하고 다양한 형태의 데이터를 관리하는 것과 관련이 있다.기업들은 기업 내·외부의 전통적 또는 비전통
  • 26. -12- 적 소스에서 유입되는 복잡한 데이터를 취합하고 분석하여야 한다.센서와 스마트 기기,소셜 협업(SocialCollaboration)기술의 폭발적 발전으로 인해 텍스트,웹 데 이터,트위터 메시지,센서 데이터,오디오,비디오,클릭 스트림,로그 파일 등 수많 은 형태의 데이터가 생산되고 있다. 2.3속도(Velocity):데이터의 이동 데이터의 생산,처리,분석되는 속도도 지속적으로 증가하고 있다.데이터가 실 시간으로 생성된다는 점과 스트리밍 데이터를 비즈니스 프로세스와 의사 결정 과정 에 도입하여야 한다는 점이 속도를 높이는 데 기여하고 있다.속도는 반응시간,즉 데이터가 생산 혹은 수집되는 시간과 그 데이터에 접근할 수 있는 시간 사이의 격 차에도 영향을 미친다.오늘날 데이터는 전통적인 시스템이 수집하고 저장,분석하 기가 불가능한 속도로 끊임없이 생산되고 있다.실시간 사기 적발(FraudDetection) 이나 다채널 ‘실시간’마케팅 같이 시간에 민감한 프로세스들은 특정 유형의 데이터 들을 실시간으로 분석할 수 있어야 효과적인 비즈니스 도구가 된다. 2.4정확성(Veracity):데이터의 불확실성 정확성은 일정 유형의 데이터에 부여할 수 있는 신뢰 수준을 의미한다.높은 데 이터 품질을 유지하는 것은 빅 데이터의 중요한 요구사항이다.실로 어려운 과제이 며 최상의 데이터 정제(DataCleansing)기법을 사용해도 날씨나 경제,고객의 미래 구매 결정 같은 일부 데이터의 본질적인 불확실성은 제거할 수 없다.불확실한 주 변 상황을 더 잘 이해하고자 하는 경영진은 반드시 빅 데이터의 불확실성을 인식하 여 데이터의 정확성을 고려하여야 한다.
  • 27. -13- 3.빅 데이터 활용 단계별 특징 빅 데이터로부터 지식을 발굴해 활용하기 까지는 여러 단계를 거친다.먼저 발 굴하고자 하는 지식과 관련된 다양한 데이터 소스로부터 데이터를 수집한다.수집 한 데이터에서 필요없는 데이터를 필터링하거나 적절한 형태로 가공하는 등 전처리 단계를 거친다.그 후에 정보를 체계적으로 저장하고 관리하면서 유용한 지식이나 내재된 지식
  • Similar documents
    We Need Your Support
    Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

    Thanks to everyone for your continued support.

    No, Thanks