Data Platfrom Infra Engineer32 K8S 클러스터 백업 방법 (Velero, etcd) Velero: Kubernetes 리소스 + PV 데이터를 백업/복구하는 오픈소스 도구etcd: Kubernetes 컨트롤 플레인의 etcd 키-값 저장소를 직접 스냅샷 백업복구 목적운영환경에서 둘다 백업하는것이 BESTVelero: 특정 네임스페이스, 앱 복구 가능하며, 실수로 리소스를 삭제하거나 했을 때 복구etcd: 전체 클러스터 장애 복구 구분etcd 백업 (etcdctl snapshot)Velero 백업백업 대상클러스터의 모든 상태 데이터 (DB 스냅샷)k8s API 오브젝트 (YAML) + Persistent Volume (PV)작동 방식etcd DB 자체를 파일로 덤프k8s API를 통해 리소스를 쿼리하여 S3 등에 저장복구 범위클러스터 전체 복구만 가능특정 네임스페이스, 레이블, 리소스 단.. 2026. 1. 10. Postgresql DB 백업 및 복구하여 서버 이전하는 방법 우선 백업 서버가 따로 있고 백업서버에서 DB서버를 접속해서 백업서버의 postgres 클라이언트로 pg_dump를 백업 파일을 생성하는 경우에는 백업 및 복구는 낮은 버전에서 높은 버전은 불가능하다.ex) postgres 16 버전의 데이터베이스를 백업 서버의 14 버전 pg_dump을 통해서 백업 불가이럴 경우엔 백업 서버에서 postgres 16 버전의 클라이언트를 새로 깔면 된다. DB 백업 파일은 전체 백업과 특정 DB의 백업으로 구분된다.Postgresql은 pg_dump와 pg_dumpall을 통해서 백업 가능하며, 증분백업이 불가능하다. 백업 파일 생성 방법1. pg_dumpall을 사용하여 cluster 전체의 글로벌 객체(사용자, 권한, tablespace)를 먼저 백업하는 global.. 2026. 1. 10. [카프카 핵심 가이드] 카프카 기본 개념설명 데이터 파이프라인을 잘 구축하는 것이 왜 중요할까?데이터 파이프라인 구축이 중요한 이유는 데이터를 이동시키는데 더 적은 노력을 들일수록 핵심 비즈니스에 집중할 수 있기 때문이다. 카프카에서 데이터의 기본 단위는 메시지이며, 바이트의 배열로 이루어져있다. 메시지를 배치 단위로 저장하고 배치는 메시지들의 집합이다. 배치는 메시지를 쓸 때마다 네크워크 통신으로 발생하는 오버헤드를 줄이기 위한 것으로 지연량과 처리량 사이에 트레이드오프를 발생시킨다. 아파치 에이브로로 메시지 본체와 스키마를 분리한다. 스키마가 변경되더라도 코드 수정은 필요없다. 토픽과 파티션메시지는 토픽 단위로 분류되며 토픽은 여러개의 파티션을 갖는다. 하나의파티션에서는 순서가 보장되지만 여러개의 파티션이 토픽 안의 전체 메시지에 대해서는 순.. 2025. 3. 17. AWS Data Engineer - Associate(DEA-C01) 합격 후기🍀💚 10월 27일에 시험을 봤고 930점으로 합격했다. 총 720점을 넘으면 합격이고, 65문제이다. 나는 1시간 30분 정도 65문제를 전부 풀고 나왔다. 해외 결제로 인한 수수료까지 포함하여 20만 8천원 정도를 결제했다. 시험언어는 한글을 선택했다. 추가적으로 시험 시간 30분을 더 받을 수 있는데 시험 예약 시 꼭 선택해야 한다.DEA 기준 덤프에서 3~5문제를 제외하고 전부 덤프와 문제와 보기까지 동일하게 나온다. 그래서 무조건 덤프는 꼭 풀고 시험을 봐야한다🧐난 2년 정도 실무 경험이 있었는데, 실무 경험이 있다면 2주 정도 덤프를 분석하는 것으로 충분하다.공식 사이트에서 덤프를 구매하려니 10만원 정도해서 네이버 카페에서 공유하는 덤프를 찾아서 공부했다. 공유받은 덤프 문제는 145문제 되었고.. 2024. 11. 10. Spark의 정의와 기본 개념 러닝 스파크 chapter 3장까지 읽은 내용을 정리해 보고자 한다. HDFS와 맵리듀스 프레임워크를 사용하여 빅데이터를 처리하는 것에는 단점이 존재한다. 가장 큰 단점은 배치 작업을 수행하면서 MR 태스크의 중간 단계들을 로컬 디스크에 써야했단 점이다. 이것은 잦은 디스크 I/O 수행을 일으키며 데이터 처리 속도가 매우 느려진다. 그래서 아파치 스파크가 탄생하였다. 아파치 스파크는 대규모 분산 데이터 연산 처리를 위해서 설계된 통합형 엔진이다.스파크는 하둡 맵리듀스의 단점을 보완하며 업그레이드 되었고 4가지 특징이 있다. 첫번째, 속도스파크는 질의 연산을 방향성 비순환 그래프(DAG)로 구성하고 클러스터의 워크 노드 위에서 병렬 수행된다. 스파크 SQL 엔진 의 주요 기능 중 하나인 텅스텐(Tungst.. 2024. 7. 14. 하둡 기본정보 하둡 생태계 데이터 수집/저장/처리/적재 데이터 수집 - Kafka - 실시간 분산환경에서 메시지를 송수신하는 메시지 전달 솔루션 분산 데이터 저장 - HDFS - 데이터를 클러스터 환경에 분산 저장하는 솔루션으로 Namenode(리더노드)와 Datanode(컴퓨팅노드)로 관리 분산 클러스터 관리 - YARN - 분산 클러스터의 리소스 관리 솔루션으로 Resourse Manager가 Node Manager를 관리 분산 데이터 배치처리 - Hadoop MapReduce - Map과 Reduce의 2상로 데이터를 처리하는 하둡 기반의 배치 작업 플랫폼 인메모리 데이터 처리 - Apache Spark - 인메모리 상에서의 데이터 처리 플랫폼으로 배치처리, 실시간 스트리밍, SQL 질의와 Graph 처리, 머신.. 2024. 3. 3. 이전 1 2 3 4 ··· 6 다음