[IT] 데이터 산업 입문서 from EricFlaningam

[IT] 데이터 산업 입문서 from EricFlaningam

avatar
퀄리티기업연구소
2024.07.08조회수 9회

이 글의 목표는 세 가지입니다:

1. 최신 데이터 환경에 대한 개요를 제공합니다.

2. 이러한 환경에서 인기 있는 데이터 회사가 어디에 속하는지 이해합니다.

3. 독자가 가장 흥미를 느끼는 투자 기회를 더 깊이 파고들 수 있는 출발점을 제공합니다.

한 가지 중요한 고지 사항을 말씀드리고 싶습니다. 데이터 산업은 엄청나게 세분화되어 있습니다. 수백 개의 데이터 틈새 시장에서 경쟁하는 데이터 회사가 1000개나 됩니다. 게다가 저는 데이터 전문가가 아니라 이 분야를 연구하는 투자자일 뿐입니다. 중요한 기업과 중요한 틈새 시장을 놓칠 수도 있습니다. 하지만 이 글의 목표는 데이터 산업에 대한 포괄적인 심층 분석이 아니라 이 분야를 단순화하는 것입니다.

간결함을 위해 데이터 플랫폼의 역사, 현대 데이터 플랫폼의 모습, 데이터 생태계에서 중요한 기업(주로 공개 기업)의 세 가지 단계로 이 글을 구성했습니다.

이 입문서를 활용하는 방법에 대한 참고 사항: 저는 이 입문서를 이 분야를 소개하고 주요 기술, 주요 플레이어, 생태계에서 이들의 위치를 이해하는 데 사용합니다. 그런 다음 특정 투자 방법론에 대한 잠재력을 바탕으로 기업을 더 자세히 살펴봅니다. 여러분도 비슷한 방식으로 사용하시기를 권장합니다.

먼저 업계를 단순화한 이 이미지를 공유하면서 시작하겠습니다. 자세한 내용은 나중에 설명하겠습니다.

데이터 플랫폼의 역사

현대 기술의 많은 기원과 마찬가지로 엔터프라이즈 데이터 관리 분야도 IBM 연구실에서 시작되었습니다. 1970년, IBM의 한 연구원이 데이터 뱅크를 위한 관계형 모델을 이론화했습니다. IBM은 1974년 최초의 관계형 데이터베이스 관리 시스템(RDBMS)을 개발했고, 1976년 Multics 관계형 데이터 스토어라는 이름으로 처음 상업적으로 판매했습니다. 이 핵심 제품은 테이블 컬렉션의 데이터와 데이터를 조작할 수 있는 기능이라는 두 가지 기능을 제공했습니다.

IBM 시스템은 이후 SQL, DB2, Oracle로 발전했습니다. 오라클은 1979년 CIA를 첫 번째 주요 고객으로 삼아 개발되었습니다. 시간이 지나면서 오라클은 세계 최대의 데이터베이스 관리 회사가 될 때까지 오라클 데이터 생태계를 계속 발전시켰습니다. 80년대에는 SQL이 데이터 업계의 표준 언어가 되었고, 이는 오늘날까지도 그대로 유지되고 있습니다.

RDBMS는 보고 및 분석에 적합하지 않았기 때문에 80년대 후반에 데이터 웨어하우스가 (IBM 연구진에 의해) 발명되었습니다. 데이터 웨어하우스는 증가하는 데이터의 양을 활용하기 위한 비즈니스 분석을 용이하게 하도록 설계되었습니다. 온프레미스 데이터 웨어하우스는 스토리지 용량을 빠르게 초과하기 때문에 고객은 데이터센터 용량에 계속 투자해야 했습니다. 이로 인해 데이터 웨어하우스는 비용이 많이 드는 솔루션이 되었습니다.

90년대에 데이터 업계는 IBM, Oracle, Microsoft가 3대 업체로 통합되는 시기를 보냈습니다. 시스템은 복잡하고, 온프레미스 방식이었으며, 비용이 많이 들었습니다.

클라우드의 탄생

인터넷과 클라우드가 업계에 다시 활기를 불어넣었습니다. 2006년에 AWS가 출시되었습니다.

클라우드는 소규모 기업들에게 데이터 웨어하우스와 빅 데이터 분석을 활용할 수 있는 기회를 제공했습니다. 이를 통해 기술 스타트업은 값비싼 데이터 센터를 구축하지 않고도 서비스 개발을 시작할 수 있는 길이 열렸습니다. 이는 궁극적으로 오늘날 수천 개의 SaaS 기업과 데이터 제품이 시장에 출시되는 계기가 되었습니다.

비슷한 시기에 비정형 데이터를 수용하는 데이터베이스 관리 도구인 NoSQL 시스템이 발명되었습니다. MongoDB는 2007년에 설립되었습니다.

데이터의 급격한 증가와 함께 Hadoop은 최초의 오픈 소스 빅 데이터 처리 도구로 등장했습니다. 많은 기업들이 처음으로 방대한 양의 비정형 데이터를 분석할 수 있게 되었습니다. 이로 인해 방대한 양의 데이터를 저장하는 저장소인 데이터 레이크가 등장했으며, 주로 Amazon S3 버킷에 저장되었습니다.

그러나 Hadoop은 복잡하고 보안이 제한적이며 스트리밍을 지원하지 않았습니다. 이로 인해 2009년에 Apache Spark가 개발되었습니다. Spark는 사용하기 더 쉬웠고 데이터 스트리밍과 같은 기능을 지원했습니다. 아파치 스파크의 발명가들은 2013년에 데이터브릭스를 설립했습니다.

2012년에는 스노우플레이크가 출시되었습니다. 스노우플레이크는 컴퓨팅과 스토리지의 분리라는 데이터 웨어하우징의 중요한 변화를 가져왔습니다. 컴퓨팅은 데이터를 변환하고 구성하는 데 필요한 컴퓨팅 성능을 의미합니다. 스토리지는 데이터를 실제로 저장하는 것을 말합니다. 이를 통해 조직은 비용과 성능을 크게 절감할 수 있었습니다.

스노우플레이크와 데이터브릭스는 클라우드 시대를 대표하는 데이터 회사로 성장하게 됩니다.

궁극적으로 기업들은 데이터 웨어하우스의 컴퓨팅 성능, NoSQL의 유연성, 클라우드의 탄력성을 모두 필요로 했습니다.

그렇게 현대의 클라우드 데이터 에코시스템이 탄생했습니다.


최신 데이터 에코시스템

최신 데이터 생태계는 클라우드 기반 데이터 웨어하우스, 빅 데이터 처리, NoSQL과 같은 유연한 스토리지 시스템을 중심으로 합니다. 그런 다음 통합 가시성, 보안, 비즈니스 인텔리전스, 그리고 점점 더 증가하는 AI 워크로드와 같은 서비스가 핵심 스토리지 및 컴퓨팅 기능을 중심으로 생태계를 구성합니다.

현대의 데이터 자산은 심하게 파편화되어 있습니다. 기업들은 데이터를 수집, 변환, 저장, 시각화, 보안 및 관리하기 위해 다양한 도구를 사용합니다.

최신 데이터 리포지토리에 대한 인기 있는 비전은 데이터 레이크와 데이터 웨어하우스의 최고의 기능을 통합하는 아키텍처인 데이터 레이크하우스입니다. 스노우플레이크와 데이터브릭스도 이 비전을 달성하기 위해 노력하고 있습니다.

최근 몇 년 동안 여러 가지 새로운 데이터 아키텍처가 등장하고 있습니다. 이들은 모두 수년 전 RDBMS에 대한 동일한 비전, 즉 자동화된 의사 결정을 가능하게 하는 통합 데이터 저장소를 추구합니다.

이제 최신 데이터 에코시스템에 대해 자세히 알아보겠습니다.

데이터 에코시스템

먼저 업계의 파편화로 인해 이 공간을 단순한 그래픽으로 단순화하기가 어렵다는 점을 말씀드리고 싶습니다. 예를 들어, 데이터 통합과 오케스트레이션은 제외되었지만 업계에서 중요한 부분입니다. 제 생각에는 업계를 제대로 단순화하기 위해서는 이러한 양보가 필요하다고 생각합니다. 업계에 대한 종합적인 시각을 보려면 Matt Turck의 전망에서 확인하세요.

또 다른 중요한 면책 조항은 이러한 세그먼트 간의 경계가 모호하다는 것입니다. 수집과 처리는 서로 섞여 있습니다. 통합은 데이터 프로세스 전반에 걸쳐 진행됩니다. 보안, 통합 가시성, 거버넌스는 모두 데이터 관리를 위해 함께 작동합니다. 데이터 레이크, 웨어하우스, 데이터베이스 간에 데이터 저장소의 경계가 점점 더 모호해지고 있습니다.

마지막으로, 이러한 기업 중 상당수는 프로세스의 여러 단계를 완료합니다. 예를 들어, Snowflake와 Databricks는 모두 준비, 저장, 데이터 관리, 애플리케이션에 걸쳐 서비스를 제공합니다. Datadog은 보안, 통합 가시성, 거버넌스를 제공합니다. 이 이미지는 업계를 단순화하기 위한 것으로, 각 단계에 있는 회사들을 모두 포괄적으로 보여주는 것은 아닙니다.

이 이미지는 업계를 시각화하기 위한 정신적 모델입니다. 이 멘탈 모델에는 유연성을 발휘할 수 있는 여지가 있습니다.

1. 데이터 소개

오늘날 데이터는 다양한 형식으로 측정되고 소싱될 수 있습니다. 데이터의 핵심은 1과 0으로 저장됩니다. 반도체 수준에서는 이것이 메모리가 작동하는 방식입니다. 각 트랜지스터는 1 또는 0으로 표시되며, 한 단계 높은 수준에서는 데이터를 정수, 부동 소수점, 문자, 문자열, 배열 또는 날짜/시간으로 저장할 수 있습니다. 이 외에도 몇 가지가 더 있지만, 이것이 주요 데이터 유형입니다.

모든 정형 데이터의 핵심은 이러한 형식에 있습니다. SQL 데이터베이스와 같은 정형 데이터에는 미리 정의된 데이터 유형이 있습니다. 예를 들어 열은 정수로 미리 정의되어 있습니다. 이러한 열에는 정수 데이터 유형만 저장할 수 있습니다.

비정형 데이터는 미리 정의된 구조 없이 저장된 데이터입니다. 여기에는 텍스트, 이미지나 동영상과 같은 BLOB 데이터, 바이너리 형식의 원시 데이터 또는 비정형 데이터를 표현하는 언어인 XML이 포함됩니다. 비정형 데이터는 생성되는 데이터의 80~90%를 차지하며 그 수는 계속 증가하고 있습니다. 마지막으로 반정형 데이터는 미리 정의된 데이터 모델이 없지만 데이터 객체와 배열을 정의하기 위한 몇 가지 규칙을 가지고 있습니다. JSON은 가장 일반적인 반정형 데이터 형식입니다.

2. 소스 및 준비

생성되는 데이터의 종류가 다양하기 때문에 데이터 소스도 다양합니다. 일반적인 데이터 소스에는 엔터프라이즈 앱, 엑셀 시트, SQL 데이터베이스, 웹 페이지, API 및 IoT 센서가 포함됩니다. 그런 다음 해당 데이터를 스토리지로 가져와야 합니다.

수집은 프로세스의 첫 번째 단계로, 다양한 소스의 데이터를 데이터 플랫폼으로 가져올 수 있습니다. 수집에는 배치와 스트리밍의 두 가지 유형이 있습니다. 일괄 수집은 주기적으로 데이터를 수집하여 스토리지에 로드합니다. 스트리밍은 실시간 처리로, 데이터가 생성되는 즉시 로드합니다. 널리 사용되는 도구로는 Confluent, Apache Kafka, Fivetran, StreamSets 등이 있습니다.

그런 다음 데이터를 스토리지 형식으로 변환하는 등의 처리가 이루어집니다. Dbt는 변환을 위한 인기 있는 도구입니다. 데이터브릭은 수집과 처리를 모두 수행할 수 있으며 빅 데이터 처리에 특화되어 있습니다.

여기서 ETL(추출-변환-로드)과 ELT(추출-로드-변환)의 중요한 개념이 떠오릅니다. 전통적으로 기업들은 비용을 절감하기 위해 데이터를 변환(컴퓨팅)한 다음 데이터 웨어하우스(스토리지)에 로드했습니다. 이제 클라우드 기반 데이터 웨어하우스와 레이크는 스토리지와 컴퓨팅을 분리하므로 스토리지 계층 내에서 비용 효율적으로 변환을 수행할 수 있습니다. ELT는 데이터 엔지니어가 특정 요구 사항에 따라 자유롭게 변환을 개발할 수 있도록 해줍니다.

마지막으로, 데이터 통합은 실제로는 수명 주기 전반에 걸쳐 수행되지만 준비 범주에 포함시켰습니다.

통합은 데이터를 통합된 형식으로 결합하는 프로세스입니다. 여기에는 변환도 포함될 수 있습니다. 오케스트레이션에는 데이터의 흐름을 예약, 관리 및 모니터링하는 프로세스를 둘러싼 다양한 도구가 포함됩니다. 데이터 파이프라인은 오케스트레이션의 하위 부문입니다. 파이프라인은 소스 간에 데이터가 전송되는 방식을 정의하며 수집, 변환, 분석이 포함될 수 있습니다.

이 섹션의 용어 정의가 얼마나 복잡한지 이해하셨기를 바랍니다. 미묘한 차이가 있는 동일한 프로세스를 정의하기 위해 다양한 용어가 사용됩니다.

이해해야 할 중요한 부분은 데이터를 저장하고 분석하기 전에 데이터를 정리하고 변환해야 한다는 것입니다.

3. 스토리지

스토리지는 현대 데이터 자산의 중심에 있습니다. 각광을 받고 있는 대부분의 기업들: 스노우플레이크, 몽고DB, 데이터브릭스, Azure, AWS, GCP 등은 데이터 전략의 기둥으로 삼고 이를 둘러싼 에코시스템을 갖추고 있습니다.

처리 후 데이터의 흐름은 특정 기업의 아키텍처에 따라 달라집니다. 널리 사용되는 아키텍처는 모든 데이터를 데이터 레이크에 저장하는 것입니다. 이는 정리되지 않은 데이터의 저장소로, 대부분 AWS, Azure 또는 GCP의 클라우드 스토리지에 저장됩니다. 그런 다음 데이터가 변환되어 일반적으로 트랜잭션 작업에 사용되는 특정 데이터베이스에 추가됩니다. 마지막으로, 이러한 모든 데이터베이스는 데이터 웨어하우스​에서 관리되며, 일반적으로 비즈니스 인텔리전스를 보다 효율적으로 만드는 데 사용됩니다.

데이터 웨어하우스/레이크하우스:

데이터 웨어하우스는 최신 데이터 자산의 중심입니다. 데이터 관리를 위한 중앙 저장소라고 생각하면 됩니다. 원시 데이터는 데이터 웨어하우스에서 정리할 수 있는 형태로 변환됩니다. 그런 다음 데이터 웨어하우스에서 데이터를 가져와 AI/ML 워크플로우, 비즈니스 인텔리전스 및 웹사이트와 같은 고객 대면 애플리케이션에 사용합니다.

데이터 웨어하우스는 온프레미스 또는 클라우드에 구축할 수 있습니다. 클라우드 기반 데이터 웨어하우징은 세계에서 가장 뜨거운 시장 중 하나입니다. 주요 업체는 크게 5곳입니다: Snowflake, 데이터브릭스, 구글 빅쿼리, 아마존 레드시프트, 마이크로소프트 시냅스*(시냅스는 마이크로소프트의 데이터 웨어하우스이지만, 마이크로소프트는 패브릭을 주요 제품으로 삼고 있습니다).

전통적으로 데이터 레이크는 모든 유형의 데이터를 저장하는 반면, 데이터 웨어하우스는 정형 데이터만 저장합니다. 그러나 데이터 웨어하우스가 비정형 데이터에 대한 지원을 제공함에 따라 그 경계가 모호해지고 있습니다. 이로 인해 데이터 레이크하우스는 데이터브릭스에서 활발하게 판매되고 있습니다.

레이크하우스의 비전은 데이터베이스와 데이터 웨어하우스의 필요성을 없애는 것입니다. 데이터 레이크에 데이터를 '간단하게' 저장하고 불필요한 중간 단계를 많이 없앨 수 있습니다. 이러한 비전을 달성할 수 있는 기업은 거의 없습니다.

관계형 데이터베이스:

관계형 데이터베이스 또는 SQL 데이터베이스는 가장 일반적인 유형의 데이터베이스입니다. 구조화된 데이터로 구성된 테이블 모음으로, 공통 변수로 연관되어 있습니다.

Oracle은 세계에서 가장 큰 관계형 데이터베이스 관리 시스템(RDBMS)입니다. 그다음으로 MySQL, Microsoft SQL Server, PostgreSQL(오픈 소스 대안)이 그 뒤를 잇고 있습니다.

비관계형 데이터베이스:

또는 비관계형 데이터베이스 또는 NoSQL 데이터베이스는 데이터가 서로 관련이 없는 데이터베이스입니다.

NoSQL 데이터베이스는 주로 센서 데이터, 웹 로그, 미디어, 오디오 등과 같은 비정형 데이터를 저장합니다.

NoSQL 데이터베이스에는 키-값, 문서, 와이드 컬럼, 그래프 데이터베이스의 네 가지 주요 유형이 있습니다.

가장 많이 사용되는 것은 문서 데이터베이스인 MongoDB입니다. 데이터는 키와 값이라는 두 가지 변수와 함께 JSON 파일(반정형)에 저장됩니다.

데이터 레이크:

앞서 언급했듯이 데이터 레이크는 회사의 모든 데이터를 저장하는 곳입니다. 이는 일반적으로 비정형 데이터이며 클라우드 객체 스토리지에 저장됩니다. 가장 일반적인 것은 단순 스토리지 서비스인 Amazon S3입니다. Microsoft에는 BLOB 스토리지가 있고, GCP에는 Google 클라우드 스토리지가 있습니다.

데이터 레이크가 필요한 데이터의 유일한 소스가 되는 것이 비전이지만, 가까운 미래에 이러한 비전이 실현될 수 있을지는 회의적입니다.

4. 애플리케이션

이 섹션에서는 애플리케이션을 데이터의 모든 사용 사례로 간주합니다. 각 사용 사례마다 고유한 섹션이 될 수 있으므로 여기서는 많은 시간을 할애하지 않겠습니다.

현재 가장 인기 있는 사용 사례는 AI/ML입니다. 이 다이어그램이 AI 데이터 흐름을 잘 시각화하고 있다고 생각합니다. AI 모델은 데이터 레이크와 데이터 웨어하우스 모두에서 데이터 저장소와 지속적으로 ...

회원가입만 해도
이 글을 무료로 읽을 수 있어요.

이미 계정이 있으신가요?로그인하기
댓글 0
avatar
퀄리티기업연구소
구독자 1,191명구독중 99명
"투자의 질을 중시하며, 장기적 안목으로 시장을 바라봅니다. 비단 재테크뿐만 아니라 인생 전반에 걸쳐 복리의 힘을 믿고, 그 원칙을 실천에 옮기는 곳입니다. 여기서는 깊이 있는 분석과 지속 가능한 성장 전략을 공유하며, 함께 성장하는 지혜를 나눕니다."