이 글의 목표는 두 가지입니다:
1. 데이터 웨어하우징의 역사, 기술, 트렌드에 대한 개요를 제공하는 것입니다.
2. 독자가 흥미를 느끼는 특정 투자에 대해 자세히 알아볼 수 있는 진입점을 제공합니다.
이 글에서 '데이터 웨어하우스'에 대해 논의하는 동안 데이터 공간의 통합 추세에 대해 언급하는 것이 중요하다고 생각합니다. 대규모 데이터 제공업체들이 계속해서 플랫폼 접근 방식으로 전환하는 것을 목격하고 있습니다. 이들은 데이터 파이의 한 조각을 소유하는 것이 아니라 모든 데이터를 소유하기를 원합니다.
이 때문에 데이터 웨어하우스는 더 광범위한 데이터 플랫폼에 통합될 수 있습니다. 데이터 웨어하우스와 데이터 레이크하우스와 같은 아키텍처는 밀접하게 연관되어 있으며, 레이크하우스는 본질적으로 분리된 웨어하우스입니다. 그래서 제가 공유하는 그래픽에서 이 두 가지를 함께 참조할 것입니다.
이 글을 세분화해서 설명하겠습니다:
1. 데이터 웨어하우스의 개요와 투자자들이 그토록 많은 관심을 갖는 이유
2. 데이터 웨어하우징의 역사
3. 기술 개요
4. 시장 개요
5. 데이터 웨어하우스 동향
항상 그렇듯이 저는 이 분야를 연구하는 투자자임을 밝히고 싶습니다. 제 목표는 이 분야를 단순화하고, 흥미로운 투자 기회를 찾고, 그 과정에서 독자들에게 약간의 가치를 제공하는 것입니다.
1. 데이터 웨어하우스의 개요 및 투자자가 데이터에 관심을 갖는 이유
데이터 웨어하우스는 회사 데이터의 중앙 저장소입니다. 데이터 웨어하우스는 분석, 즉 전통적으로 비즈니스 인텔리전스 유형의 워크로드에 최적화되어 있습니다. 회사의 모든 데이터를 한 곳에 모아두면 보안, 규정 준수, 거버넌스를 한 곳에서 중앙 집중화하면서 회사 전체 데이터에 대한 분석을 실행할 수 있다는 이점이 있습니다.
데이터 공간을 크게 소스, 인프라, 스토리지, 분석, 서비스로 나눌 수 있습니다. 데이터 웨어하우스는 아래에 표시된 데이터 분석 가치 사슬의 스토리지 섹션에 정확히 들어맞습니다. 데이터 플랫폼은 전체 스택을 소유하고자 합니다.

그렇다면 투자자들이 데이터에 관심을 갖는 이유는 무엇일까요?
세 가지 주요 이유가 있습니다:
1. 데이터와 AI의 연관성 - 자주 언급했듯이, AI와 머신러닝 모델은 학습된 데이터만큼만 우수합니다. 데이터 산업은 AI와 밀접한 관계를 맺고 있기 때문에 AI에 관심이 있는 투자자들이 공통적으로 관심을 갖는 분야입니다.
2. "데이터는 새로운 석유" - 기업의 고유한 데이터 자산은 경쟁 우위를 제공하지만, 그 데이터를 활용할 수 있을 때만 가능합니다. 기업들은 데이터에서 가치 있는 인사이트를 얻기 위해 막대한 비용을 지불할 것입니다. 데이터는 IT 예산에서 큰 비중을 차지하는 항목이며, 투자자들은 이에 대한 비용을 지불할 것입니다.
3. 엔터프라이즈 데이터의 해자 - 일단 기업이 데이터 플랫폼을 선택하면, 그 플랫폼에서 마이그레이션하는 것은 엄청난 작업입니다. 기업의 애플리케이션과 비즈니스 프로세스는 데이터 인프라를 기반으로 구축되며, 백엔드를 변경하는 데 따르는 위험은 일반적으로 너무 커서 ROI를 정당화하기 어렵습니다.
이러한 항목 외에도 데이터 분야는 빠르게 성장하고 있으며, 수많은 상장 기업이 20% 이상의 매출 성장률을 기록하고 있고, 향후 몇 년 내에 기업공개(IPO)를 할 가능성이 있는 수많은 데이터 유니콘이 사모 시장에 등장하고 있습니다. 이 모든 것을 합치면 높은 수요, 명확한 성장 촉매제, 지속 가능한 해자를 만들 수 있는 잠재력을 갖춘 빠르게 성장하는 시장을 확보하게 됩니다.
또한 40년 동안 몇몇 기업이 이 분야를 지배해 온 역사가 있습니다.
2. 데이터 웨어하우스의 역사
데이터 웨어하우스의 역사에는 SQL의 초창기, 90년대와 2000년대 하드웨어 기반 애플리케이션, 그리고 현대의 클라우드 시대가 포함됩니다.
SQL과 데이터 웨어하우스의 부상
SQL(관계형) 데이터베이스는 1970년대 말과 1980년대 초에 처음 상용화되었으며, Oracle과 IBM 같은 회사가 이 분야의 초기 리더였습니다(그리고 40여 년이 지난 지금도 SQL 데이터베이스를 통해 수십억 달러를 벌어들이고 있습니다).
이러한 초기 데이터베이스는 비즈니스 활동을 기록하고 매출, 직원, 고객 데이터를 저장했습니다. 이러한 데이터베이스는 트랜잭션 워크로드(데이터 삽입, 업데이트, 내보내기)를 위한 온라인 트랜잭션 처리(OLTP) 데이터베이스로 간주되었습니다. 관계형 데이터베이스가 인기를 끌면서 기업들은 데이터에서 인사이트를 얻어 비즈니스 의사결정을 내리는 데 도움이 되는 분석에 사용하기 시작했습니다.
하지만 이러한 새로운 분석 워크로드는 주로 읽기 전용이었습니다. 즉, 빠른 트랜잭션에는 최적화할 필요가 없었지만 보고를 위해 가져와야 하는 대량의 데이터를 저장하는 데는 최적화할 필요가 있었습니다.
1985년 빌 인몬은 "데이터 웨어하우스"라는 용어를 "경영진의 의사 결정을 지원하는 주제 중심의 비휘발성, 통합, 시간 가변 데이터 모음"이라는 의미로 처음 만들었습니다. 이 아키텍처의 기본은 다음과 같습니다:

하드웨어 기반 애플리케이션
초창기 데이터 웨어하우스의 아키텍처는 서버에 데이터베이스 소프트웨어가 설치된 디스크 드라이브(스토리지)에 연결된 대형 서버(컴퓨팅)와 같은 형태였습니다. 이 아키텍처에는 문제가 있었습니다. 가장 큰 문제는 컴퓨팅 병목현상이었습니다. 데이터가 충분히 저장되면 서버가 쿼리 수요를 따라잡을 수 없었습니다. 이로 인해 병렬 처리(또는 오늘날의 MPP)와 공유 스토리지 아키텍처가 등장하게 되었습니다:

이를 통해 회사는 하나의 스토리지 위치에서 여러 서버를 사용할 수 있어 컴퓨팅 병목 현상을 없앨 수 있었습니다. 하지만 안타깝게도 이 문제는 금방 복잡해졌습니다.
데이터 관리 프로세스를 간소화하기 위해 Teradata와 같은 기업들은 컴퓨팅과 스토리지를 결합한 하드웨어 기반 어플라이언스를 출시했습니다(나중에 Snowflake는 컴퓨팅과 스토리지를 다시 분리했습니다). 기업은 이 ...


![[IT] 클라우드 입문서 from EricFlaningam](https://substackcdn.com/image/fetch/w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fa5dd9214-bd20-4ca4-902e-9acfecc83e67_1400x900.png)
![[IT] 데이터 센터 입문서 from EricFlaningam](https://substackcdn.com/image/fetch/w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F485fe217-a70d-4b7b-856d-55feda4941a0_1400x900.png)
![[IT] 사이버 보안 입문서 from EricFlaningam](https://substackcdn.com/image/fetch/w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F2ab35b19-b6ad-4c4d-9771-ede36a15a215_800x520.jpeg)
![[IT] 반도체 산업 입문서 from EricFlaningam](https://substackcdn.com/image/fetch/w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F87175303-b5c4-41e9-a98e-79f3b3a770de_1600x900.png)
![[IT] 데이터 산업 입문서 from EricFlaningam](https://substackcdn.com/image/fetch/w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7fe05e09-e983-46ee-b517-63b26495e87d_1400x900.png)