본문 바로가기

Data Engineer31

[카프카 핵심 가이드] 카프카 기본 개념설명 데이터 파이프라인을 잘 구축하는 것이 왜 중요할까?데이터 파이프라인 구축이 중요한 이유는 데이터를 이동시키는데 더 적은 노력을 들일수록 핵심 비즈니스에 집중할 수 있기 때문이다.  카프카에서 데이터의 기본 단위는 메시지이며, 바이트의 배열로 이루어져있다. 메시지를 배치 단위로 저장하고 배치는 메시지들의 집합이다. 배치는 메시지를 쓸 때마다 네크워크 통신으로 발생하는 오버헤드를 줄이기 위한 것으로 지연량과 처리량 사이에 트레이드오프를 발생시킨다. 아파치 에이브로로 메시지 본체와 스키마를 분리한다. 스키마가 변경되더라도 코드 수정은 필요없다. 토픽과 파티션메시지는 토픽 단위로 분류되며 토픽은 여러개의 파티션을 갖는다. 하나의파티션에서는 순서가 보장되지만 여러개의 파티션이 토픽 안의 전체 메시지에 대해서는 순.. 2025. 3. 17.
AWS Data Engineer - Associate(DEA-C01) 합격 후기🍀💚 10월 27일에 시험을 봤고 930점으로 합격했다. 총 720점을 넘으면 합격이고, 65문제이다. 나는 1시간 30분 정도 65문제를 전부 풀고 나왔다. 해외 결제로 인한 수수료까지 포함하여 20만 8천원 정도를 결제했다. 시험언어는 한글을 선택했다. 추가적으로 시험 시간 30분을 더 받을 수 있는데 시험 예약 시 꼭 선택해야 한다.DEA 기준 덤프에서 3~5문제를 제외하고 전부 덤프와 문제와 보기까지 동일하게 나온다. 그래서 무조건 덤프는 꼭 풀고 시험을 봐야한다🧐난 2년 정도 실무 경험이 있었는데, 실무 경험이 있다면 2주 정도 덤프를 분석하는 것으로 충분하다.공식 사이트에서 덤프를 구매하려니 10만원 정도해서 네이버 카페에서 공유하는 덤프를 찾아서 공부했다. 공유받은 덤프 문제는 145문제 되었고.. 2024. 11. 10.
Spark의 정의와 기본 개념 러닝 스파크 chapter 3장까지 읽은 내용을 정리해 보고자 한다. HDFS와 맵리듀스 프레임워크를 사용하여 빅데이터를 처리하는 것에는 단점이 존재한다. 가장 큰 단점은 배치 작업을 수행하면서 MR 태스크의 중간 단계들을 로컬 디스크에 써야했단 점이다. 이것은 잦은 디스크 I/O 수행을 일으키며 데이터 처리 속도가 매우 느려진다. 그래서 아파치 스파크가 탄생하였다. 아파치 스파크는 대규모 분산 데이터 연산 처리를 위해서 설계된 통합형 엔진이다.스파크는 하둡 맵리듀스의 단점을 보완하며 업그레이드 되었고 4가지 특징이 있다. 첫번째, 속도스파크는 질의 연산을 방향성 비순환 그래프(DAG)로 구성하고 클러스터의 워크 노드 위에서 병렬 수행된다. 스파크 SQL 엔진 의 주요 기능 중 하나인 텅스텐(Tungst.. 2024. 7. 14.
하둡 기본정보 하둡 생태계 데이터 수집/저장/처리/적재 데이터 수집 - Kafka - 실시간 분산환경에서 메시지를 송수신하는 메시지 전달 솔루션 분산 데이터 저장 - HDFS - 데이터를 클러스터 환경에 분산 저장하는 솔루션으로 Namenode(리더노드)와 Datanode(컴퓨팅노드)로 관리 분산 클러스터 관리 - YARN - 분산 클러스터의 리소스 관리 솔루션으로 Resourse Manager가 Node Manager를 관리 분산 데이터 배치처리 - Hadoop MapReduce - Map과 Reduce의 2상로 데이터를 처리하는 하둡 기반의 배치 작업 플랫폼 인메모리 데이터 처리 - Apache Spark - 인메모리 상에서의 데이터 처리 플랫폼으로 배치처리, 실시간 스트리밍, SQL 질의와 Graph 처리, 머신.. 2024. 3. 3.
fredapi 라이브러리 오류 FRED 데이터를 가져오기 위해서 파이썬 라이브러리인 fredapi를 설치해야한다. 그런데 아나콘다 가상환경 모듈에서 위와 같은 오류가 발생해서 확인해보니 Python 3.9 이상에서는 fredapi에 저런 함수는 사용하지 않는다고 한다. 즉 파이썬 버전과 fredapi 라이브러리의 충돌이다. 그래서 fredapi를 재설치를 해줘야했다. 그래서 먼저 아나콘다에 설치되어 있는 패키지를 삭제해줬다. conda uninstall fredapi 문제는 conda install fredapi를 하면 PackagesNotFoundError를 발생시켜서 설치가 안된다. 그래서 pip을 사용해서 설치해줬더니,,, 이번엔 pandas에서 오류가 나서 pandas도 재설치해줬다. pip install fredapi 다시 .. 2024. 3. 3.
날짜 및 시간 데이터 처리 🌈 TO_CHAR ( "날짜", "포맷" ) 🌈 포맷 종류는 총 3가지가 존재한다. - day, dy, d select to_char(sysdate, 'day') from dual --결과 : 화요일 select to_char(sysdate, 'dy') from dual --결과 : 화 select to_char(sysdate, 'd') from dual --결과 : 3 (1:일, 2:월, 3:화, 4:수, 5:목, 6:금, 7:토) ⚡ INTERVAL - 날짜 빼고 더하기 ⚡ SYSDATE + (INTERVAL '1' YEAR) --1년 더하기 SYSDATE + (INTERVAL '1' MONTH) --1개월 더하기 SYSDATE + (INTERVAL '1' DAY) --1일 더하기 SYSDATE + .. 2022. 4. 22.