Data Mesh의 개념 Data Mesh란, 기업 내에서 대규모 데이터 처리와 분석을 위한 분산 시스템 아키텍처를 구현하는 접근 방식으로, 기업 내의 다양한 조직 단위 간의 데이터 공유와 협업을 장려하고, 더욱 신뢰성 높은 데이터 관리 및 운영을 지향하는 개념입니다. 좀더 구체적으로 이야기 하면, 멀티 클라우드, Edge Computing 등 분산 데이터/컴퓨팅 환경에서 실시간 분석, 머신러닝 등 고도화, 세부화되어 증가하고 있는 데이터 활용 수요를 지원하기 위한 데이터 플랫폼 아키텍처라 할 수 있다 Data Mesh가 등장한 배경은, 기존의 중앙 집중형 데이터 관리 아키텍처에서 발생하는 한계와 문제점들이 주요 요인이다. 중앙 집중형 데이터 관리는 데이터 품질, 접근성, 확장성, 유연성 등의 면에서 한..
Object Storage란 무엇인가? Object Storage(객체 저장소)는 객체라고 하는 비정형 형식으로 데이터를 저장하고 관리하는 기술이다. 조직에서는 사진, 동영상, 이메일, 웹 페이지, 센서 데이터 및 오디오 파일과 같은 다량의 비정형 데이터를 생성하고 분석한다. 클라우드 객체 스토리지 시스템은 이 데이터를 여러 대의 물리적 디바이스에 분산하지만 사용자는 단일의 가상 스토리지 리포지토리에서 효율적으로 콘텐츠에 액세스할 수 있다. 객체 스토리지 솔루션은 규모와 유연성이 필요한 클라우드 네이티브 애플리케이션을 구축하는 데 적합하며, 분석, 백업 또는 아카이브를 위해 기존 데이터 스토어를 가져오는 데 사용할 수도 있다. 메타데이터는 객체 스토리지 기술에 중요하다. 객체 스토리지에서 객체는 단일 버..
Change data Capture의 개념 Change Data Capture(CDC)는 데이터베이스에서 데이터의 변경 사항을 실시간으로 감지하고 이를 다른 시스템으로 전송하여 데이터 동기화 및 연동을 가능하게 하는 기술이다. CDC는 비즈니스 애플리케이션 간의 데이터 통합, 데이터 웨어하우스에 데이터 로딩 및 분석, 데이터베이스 백업 및 복원, 이벤트 처리 등에 사용된다. CDC는 데이터의 다양한 형태와 증가하는 데이터 양으로 인한 데이터 통합과 분석의 어려움을 극복하고자 등장하였다. 기존의 ETL(Extract, Transform, Load) 방식은 정해진 주기에 데이터를 추출하고 변환한 후 로드하는 방식으로, 실시간 처리에 적합하지 않다다. CDC는 데이터베이스에 변경이 발생하면 즉시 변경된 데이터..
Data Fabric의 개념 오늘날 기업은 그 어느 때보다 빠른 속도록 다양한 플랫폼과 디바이스에서 데이터를 수집하고 있다. 또한, 향상된 컴퓨팅 용량과 알고리즘, 경제적인 스토리지와 함께 데이터의 힘과 중요성은 더욱 커지고 있다. 이런 환경에서 민첩한 데이터 관리는 점점 더 다양하고 분산된그리고 잡잡해지는 환경에서 기업의 Mission critical 우선순위가 되었다. 반면에 데이터가 개발부서 단위로만 존재하고 활용되어 조직 전체적으로 통합되지 않는 Data Silo현상과 데이터가 무질서하게 증가하여 기존 데이터 관리 시스템이 관리하지 못하는 엄청난 양의 숨겨진 데이터인 Dark Data가 발행하고 있다. Gartner에 따르면 기업 데이터의 약 68%가 분석되지 않으며, 82%의 기업이 Data S..
Distributed SQL의 개념 RDB의 ACID트랜잭션과 분산처리 기반 확정성을 제공하고자 했던 NewSQL은 Monolithic SQL 데이터베이스의 확장성 문제를 해결하고자 했으나 초기 접근은 아키텍처의 현격한 강화 없이 복수 노드의 활용이 가능하도록 하는 것에 그쳤다. 때문에 클라우드 활용이 확대되면서 Multi Zone/Region/Cloud 배포가 모던 애플리케이션의 표준이 됨에 따라 NewSQL은 한계를 맞이하였다. 이에 따라 NewSQL벤더들이 글로벌 분산 아키텍처를 위한 관계형 데이터베이스로 아키텍처를 재설계하고 NewSQL대신 Distributed SQL이라는 용어를 사용하기 시작했다. Distributed SQL은 여러 대의 노드로 구성된 분산 시스템에서 SQL 쿼리를 처리하는 기..
GraphQL의 개념 GraphQL은 REST 호출 규모가 증가하여 서버와의 잦은 충돌과 성능 저하 문제를 겪었던 Facebook이 서버로부터 데이터를 가져오는 작업을 보다 효율적으로 하기 위해 개발한 쿼리 언어 및 런타임 시스템으로, RESTful API를 대체하기 위한 기술이다. GraphQL은 클라이언트가 데이터를 요청할 때 필요한 데이터만을 선택적으로 요청할 수 있도록 하여, 불필요한 데이터를 전송하지 않고도 원하는 데이터를 효율적으로 가져올 수 있다. GraphQL의 특징 GraphQL은 클라이언트가 원하는 데이터를 선택하고, 서버가 이를 제공하는 방식으로 동작한다. 이를 위해 GraphQL에서는 Schema를 사용하여 데이터 모델링을 정의하고, 클라이언트가 요청하는 데이터에 대한 응답을 작성한..
Time Series DB의 개념 Time series DB(Time series Database)는 Time-Value 쌍으로 이루어진 시계열 데이터를 저장, 처리, 분석할 수 있는 데이터베이스 시스템이다. 시계열 데이터는 시간에 따라 변화하는 데이터를 의미한다. 예를 들어, 센서 데이터, 웹 로그 데이터, 주가 데이터 등이 시계열 데이터의 예시이다. Time Series DB의 등장배경 기존의 관계형 데이터베이스(RDBMS)는 시계열 데이터를 다루기에 어려움이 있었다. 시계열 데이터의 특성상 데이터의 양이 방대하고, 매 순간마다 새로운 데이터가 발생하기 때문이다. RDBMS는 높은 처리 속도를 지원하지 않았고, 대량의 데이터를 저장하면 성능에 문제가 생기는 단점이 있다. 이에 따라, 시계열 데이터를 ..
* 이번 포스팅은 https://blog.devart.com/sql-vs-nosql.html을 참조하여 작성하였습니다. NoSQL 이란? 비관계형 데이터베이스로도 알려진 NoSQL 데이터베이스는 관계형 데이터베이스와 매우 다른 방식으로 데이터를 저장하는 비표형 데이터베이스다. NoSQL 데이터베이스는 엄격한 구조에 의존하지 않고 더 유연한 데이터 모델을 사용다. 'NoSQL'이라는 용어는 'SQL이 아니다'를 의미할 뿐만 아니라 비관계형 데이터베이스를 지칭하는 데 사용된다. 비관계형 데이터베이스는 주로 실시간 웹 앱을 위한 Big Вata를 저장하고 처리하는 데 사용된다. NoSQL은 전통적인 SQL 구문과 관계형 데이터베이스 구조의 프레임워크를 벗어나는 데이터베이스를 지칭하는 포괄적인 용어로, NoSQ..