저자의 Data Lake 시리즈의 세 번째 책으로, Data Lake 플랫폼의 청사진(Blueprint)을 설계하기 위한 실무자들을 위한 책이다. Data Lake의 전체 플랫폼을 어떻게 설계할지에 대한 내용을 기술하였다.
Data Catalog는 ‘사용자 Self-Service Layer’의 하나의 구성요소에 불과하지만, Data Lake 플랫폼은 많은 구성요소와 기술요소를 포함하고 있는 복잡한 시스템이다. Data Lake 아키텍트는 이러한 많은 구성요소를 정의하고 기술을 검토하고 아키텍처를 설계해야 한다.
하지만 이들 아키텍트가 참고할 수 있는 자료는 사실상 해외 자료 몇 권과 이를 번역한 자료 정도이며, 이 자료들은 ‘람다 아키텍처’를 기반으로 한 아주 대략적인 구현 모습만을 제공하고 있다. Data Lake 설계를 위한 참고 자료가 부족한 상황에서, 저자의 지난 3년간의 Data Lake 프로젝트 수행과 리서치 경험을 바탕으로 좀 더 종합적인 관점에서 설계를 위한 기초 자료를 제공한다.
기업의 비즈니스 방향을 고려한 빅데이터 서비스 플랫폼을 설계하자!
글로벌 대형 기업들은 ‘디지털 전환(Digital Transformation)’을 핵심 현안으로 추진하고 있습니다. 이 과정에서 Data Lake 구축은 가장 중요한 과제 중 하나일 것입니다. 다른 기업들처럼 ‘람다 아키텍처‘를 기반으로 하여 하둡 에코시스템을 활용해서 구축하면 되는 것일까요? 아니면 AWS 혹은 Azure의 Public Cloud 서비스를 활용하여 구축하면 되는 것일까요? 우리 기업의 비즈니스에 적합한 Data Lake 아키텍처는 무엇일까요? 이러한 ‘중요한 질문들’에 대한 해답을 얻고자 한다면 이 책을 반드시 읽어야 할 것입니다.
• 빅데이터 참조 아키텍처(람다 vs. 카파)
• 빅데이터 솔루션 아키텍처(Cloudera vs. AWS vs. Azure)
• Data Lake 아키텍처 설계 기본원칙
• 단기와 장기 개념 아키텍처의 설계
• 아키텍처 설계 시 주요 의사결정 사항
• 구성요소별 상세 아키텍처 설계
이 책은 저자의 Data Lake 시리즈의 세 번째 책으로, Data Lake 플랫폼의 청사진(Blueprint)을 설계하기 위한 실무자들을 위한 책이다.
첫 번째 책인 《차세대 빅데이터 플랫폼 Data Lake》는 Data Lake 플랫폼의 전반적인 개요를 다루었고, Data Lake가 무엇이고, 무엇을 목적으로 하는지를 알려 준다. 두 번째 책인 《Data Catalog 만들기》는 Data Lake 플랫폼의 핵심 서비스라고 할 수 있는 Data Catalog 서비스를 소개하고, 이를 어떻게 설계하고 구축해야 하는지에 대한 방법론과 예시를 중심으로 기술하였다. 세 번째 책인 이 책에서는 Data Lake의 전체 플랫폼을 어떻게 설계할지에 대한 내용을 기술하였다.
Data Catalog는 ‘사용자 Self-Service Layer’의 하나의 구성요소에 불과하지만, Data Lake 플랫폼은 많은 구성요소와 기술요소를 포함하고 있는 복잡한 시스템이다. Data Lake 아키텍트는 이러한 많은 구성요소를 정의하고 기술을 검토하고 아키텍처를 설계해야 한다.
하지만 이들 아키텍트가 참고할 수 있는 자료는 사실상 해외 자료 몇 권과 이를 번역한 자료 정도이며, 이 자료들은 ‘람다 아키텍처’를 기반으로 한 아주 대략적인 구현 모습만을 제공하고 있다. Data Lake 설계를 위한 참고 자료가 부족한 상황에서, 저자의 지난 3년간의 Data Lake 프로젝트 수행과 리서치 경험을 바탕으로 좀 더 종합적인 관점에서 설계를 위한 기초 자료를 제공한다.
정보제공 :