Data Engineering
빅데이터에 대하여
안모
2023. 7. 2. 12:30
단순히 데이터 규모 때문에 다양성과 복잡성도 포함하여 빅데이터이다.
일반적으로 빅데이터는 기존 데이터 베이스의 용량을 초과한다. 또 디지털로 모니터링 할 수 있는 모든 곳에서 생성된다.
빅데이터의 진정한 가치는 데이터를 분석하고 이해할 수 있는 정도에 따라 측정된다.
빅데이터는 일반적으로 구조와 색인 편리성 여부를 따라 세 가지 유형으로 분류된다.
- 정형: 조직화와 검색이 가장 간단하다. 관계형 데이터베이스의 행과 열 구조가 대표적이다. 범주화가 용이해 검색 및 분석 알고리즘을 간단히 정의 할 수 있다.
- 비정형: 소셜 미디어 게시글, 오디오 파일, 이미지, 고객 의견 등 행과 열 구조로 정형화 하기 쉽지 읺다. 주로 nosql 데이터 베이스에 저장되고 분석에 비용이 많이 든다.
- 반정형: 정형과 비정형의 하이브리드. 전자메일이 대표적인 예시로, 메시지 본문은 비정형 데이터가 포함되지만 발신자와 수신자, 제목, 날짜 등 구조화된 속성도 포함된다.
빅데이터를 정의하느 것은 최소 5가지 특징(5V)이 있어야 한다.
- 볼륨(volume): 데이터량은 빅데이터의 중요한 특징이다.
- 속도(velocity): 데이터가 생성되는 동안 빠르게 처리, 분석, 구성할 수 있어야 한다.
- 다양성(Vairety): 일반적으로 빅데이터는 정형, 비정형, 반정형 데이터의 조합으로 구성된다.
- 정확성(Veracity): 빅데이터는 정확성과 관련성 적시성을 가져야 가치가 있다.
- 가치(Value): 빅데이터 분석은 경쟁우위와 서비스 향상을 지원할 인사이트를 제공해야 한다.