본문 바로가기

Data Engineer30

AWS Data Engineer - Associate(DEA-C01) 합격 후기🍀💚 10월 27일에 시험을 봤고 930점으로 합격했다. 총 720점을 넘으면 합격이고, 65문제이다. 나는 1시간 30분 정도 65문제를 전부 풀고 나왔다. 해외 결제로 인한 수수료까지 포함하여 20만 8천원 정도를 결제했다. 시험언어는 한글을 선택했다. 추가적으로 시험 시간 30분을 더 받을 수 있는데 시험 예약 시 꼭 선택해야 한다.DEA 기준 덤프에서 3~5문제를 제외하고 전부 덤프와 문제와 보기까지 동일하게 나온다. 그래서 무조건 덤프는 꼭 풀고 시험을 봐야한다🧐난 2년 정도 실무 경험이 있었는데, 실무 경험이 있다면 2주 정도 덤프를 분석하는 것으로 충분하다.공식 사이트에서 덤프를 구매하려니 10만원 정도해서 네이버 카페에서 공유하는 덤프를 찾아서 공부했다. 공유받은 덤프 문제는 145문제 되었고.. 2024. 11. 10.
Spark의 정의와 기본 개념 러닝 스파크 chapter 3장까지 읽은 내용을 정리해 보고자 한다. HDFS와 맵리듀스 프레임워크를 사용하여 빅데이터를 처리하는 것에는 단점이 존재한다. 가장 큰 단점은 배치 작업을 수행하면서 MR 태스크의 중간 단계들을 로컬 디스크에 써야했단 점이다. 이것은 잦은 디스크 I/O 수행을 일으키며 데이터 처리 속도가 매우 느려진다. 그래서 아파치 스파크가 탄생하였다. 아파치 스파크는 대규모 분산 데이터 연산 처리를 위해서 설계된 통합형 엔진이다.스파크는 하둡 맵리듀스의 단점을 보완하며 업그레이드 되었고 4가지 특징이 있다. 첫번째, 속도스파크는 질의 연산을 방향성 비순환 그래프(DAG)로 구성하고 클러스터의 워크 노드 위에서 병렬 수행된다. 스파크 SQL 엔진 의 주요 기능 중 하나인 텅스텐(Tungst.. 2024. 7. 14.
하둡 기본정보 하둡 생태계 데이터 수집/저장/처리/적재 데이터 수집 - Kafka - 실시간 분산환경에서 메시지를 송수신하는 메시지 전달 솔루션 분산 데이터 저장 - HDFS - 데이터를 클러스터 환경에 분산 저장하는 솔루션으로 Namenode(리더노드)와 Datanode(컴퓨팅노드)로 관리 분산 클러스터 관리 - YARN - 분산 클러스터의 리소스 관리 솔루션으로 Resourse Manager가 Node Manager를 관리 분산 데이터 배치처리 - Hadoop MapReduce - Map과 Reduce의 2상로 데이터를 처리하는 하둡 기반의 배치 작업 플랫폼 인메모리 데이터 처리 - Apache Spark - 인메모리 상에서의 데이터 처리 플랫폼으로 배치처리, 실시간 스트리밍, SQL 질의와 Graph 처리, 머신.. 2024. 3. 3.
fredapi 라이브러리 오류 FRED 데이터를 가져오기 위해서 파이썬 라이브러리인 fredapi를 설치해야한다. 그런데 아나콘다 가상환경 모듈에서 위와 같은 오류가 발생해서 확인해보니 Python 3.9 이상에서는 fredapi에 저런 함수는 사용하지 않는다고 한다. 즉 파이썬 버전과 fredapi 라이브러리의 충돌이다. 그래서 fredapi를 재설치를 해줘야했다. 그래서 먼저 아나콘다에 설치되어 있는 패키지를 삭제해줬다. conda uninstall fredapi 문제는 conda install fredapi를 하면 PackagesNotFoundError를 발생시켜서 설치가 안된다. 그래서 pip을 사용해서 설치해줬더니,,, 이번엔 pandas에서 오류가 나서 pandas도 재설치해줬다. pip install fredapi 다시 .. 2024. 3. 3.
날짜 및 시간 데이터 처리 🌈 TO_CHAR ( "날짜", "포맷" ) 🌈 포맷 종류는 총 3가지가 존재한다. - day, dy, d select to_char(sysdate, 'day') from dual --결과 : 화요일 select to_char(sysdate, 'dy') from dual --결과 : 화 select to_char(sysdate, 'd') from dual --결과 : 3 (1:일, 2:월, 3:화, 4:수, 5:목, 6:금, 7:토) ⚡ INTERVAL - 날짜 빼고 더하기 ⚡ SYSDATE + (INTERVAL '1' YEAR) --1년 더하기 SYSDATE + (INTERVAL '1' MONTH) --1개월 더하기 SYSDATE + (INTERVAL '1' DAY) --1일 더하기 SYSDATE + .. 2022. 4. 22.
SQL 1️⃣ order by 은 SQL문의 가장 마지막에 온다. 예외) 상위 n개 출력시 - limit n 을 가장 마지막에 사용함 SELECT name from ANIMAL_INS order by DATETIME limit 1; 열의 숫자를 이용하여 정렬도 가능, 여러 열을 기준으로 사용 가능 SELECT ANIMAL_ID, NAME, DATETIME from ANIMAL_INS order by name asc, datetime desc; 2️⃣ count(distinct(name)) - count 전에 distinct 사용 가능 3️⃣ IFNULL(True, False) SELECT ANIMAL_TYPE, IFNULL(NAME, 'No name'), SEX_UPON_INTAKE from ANIMAL_INS.. 2022. 2. 3.