ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 정미나 > 데이터 분석 > 데이터 관련 용어 설명해드림
    DB/DB 2023. 1. 8. 21:38

    ---

    https://youtu.be/tLvMdIxxiQE

    데이터베이스, 데이터레이크, 데이터웨어하우스, ETL, BI

     

    ---

    데이터베이스 : 사이트를 이용할 때 생성되는 데이터를 저장하는 곳

    원천데이터 : 상품명, 가격, 결제는 카드인지, 배송지 주소.. 가 데이터베이스에 쌓인다 

     

    ---

    근데

     

    고객은 그냥 물건을 사는거지만 

    시스템 내부에서는 데이터가 모두 한통(테이블 말고 데이터베이스)에 담기는 것이 아닐 수가 있다

    MSA 아키텍처일 수도 있고 멀티 클라우드 환경을 이용할 수도 있기 때문

    상품 데이터는 MySQL에 담고, 결제 데이터는 MongoDB에 담는 식으로 설계를 할 수가 있다.

     

    도메인의 성격에 맞게 데이터베이스 설계를 하게 되면 비즈니스적으로는 성능이 좋아지겠지만 데이터적으로는 서로 단절이 됨. 데이터 사일로 현상이 생길 수가 있다

    *사일로 현상 : 각 도메인의 데이터들이 단절돼서 생기는 불일치 현상, 상품의 가격이라는 데이터는 상품시스템에도 필요하고 주문 시스템에도 필요한 데이터인데 상품 DB와 주문DB에 각기 저장돼 있으면 정합성이 틀어지게 되는 현상이 생길 수 있다.

     

    이런 현상을 보완하기 위해서 애플리케이션에선 오케스트레이션 사가 패턴 등을 이용하기도 한다(이건 알아서 알아보기)

    데이터 측면에서 데이터의 단절 문제를 해결하기 위해 데이터 레이크라는게 등장한다

     

    ---

    마케팅이나 고객 분석 같은 영역에서는 모든 데이터를 한데 모아서 봐야 하는 니즈가 생길 수 있다. 그래서 각각의 데이터들을 모두 한데 모으는 거라고 보면 된다

    데이터 레이크는 방대한 양의 원천 데이터가 모두 한곳에 그대로 저장되는 저장소인데 아까 데이터들이 각기 다른 데이터베이스에 저장될 수 있었기 때문에 각 데이터들의 형식도 다 다를 수가 있다

    근데 이런 데이터를 가공하지 않고 전부 그대로 데이터 레이크에 때려 넣는다

    그래서 데이터 레이크를 거대한 데이터의 창고 정도라고 이해하면 쉬울 것

     

    이 데이터를 사용하기 좋게 가공해서

    흔히 DW라고 부르는 데이터 웨어하우스에 적재를 할 수도 있고

    데이터 마트라는 곳에 적재를 할 수도 있다

     

    ---

    이렇게 데이터를 쓰기 좋은 형태로 가공하여 적재하는 시스템을 ETL(Extract, Transform, Load)라고 부른다

    DW의 데이터를 이용해서 만드는 데이터 분석 시스템을 BI(Business Intelligence)라고 부른다

     

    데이터 레이크 : 모든 데이터들의 집합소

    데이터 마트, 데이터 웨어하우스 : 그 중에서 필요한 데이터만 발라내서 저장

    마트가 웨어하우스보다 좀 더 세분화 된 소규모 저장소

     

    ---

    데이터 분석에 대한 추세가 계속해서 변화하고 있어서 요즘은 데이터 레이크하우스(데이터레이크+데이터웨어하우스) 라는 것도 나옴. 그 말은 산업이 활발하게 진행되고 있고, 열심히 공부하면 먹고 살 수가 있다는 말

Designed by Tistory.