TIL _Today I Learned/2024.1019 [DAY 72] Data Pipeline 및 PySpark 시험 [천재교육] 프로젝트 기반 빅데이터 서비스 개발자 양성 과정 9기학습일 : 2024.10.31📕 학습 목록Data Pipeline 시험PySpark 시험 📗 기억할 내용[Data Pipeline]1. connect.py 수정DBconnector 클래스가 PostgreSQL과 MySQL을 모두 지원하도록 수정pymysql, psycopg2를 모두 사용할 수 있도록 둘다 임포트DBconnector 클래스의 초기화 메서드와 mysql_connect 메서드를 db_connect 메서드로 일반화하여 다양한 DB 엔진에 연결할 수 있도록 수정# connect.pyimport pymysqlimport psycopg2 # PostgreSQL을 위한 라이브러리import db.query as mysql_query.. 2024. 10. 31. [DAY 71] PySpark [천재교육] 프로젝트 기반 빅데이터 서비스 개발자 양성 과정 9기학습일 : 2024.10.30📕 학습 목록PySpark 개요Spark 컴포넌트RDDSpark 코드 실습 📗 기억할 내용1. PySpark 이론 및 구성 요소1) PySpark 개요Apache Spark: 분산 데이터 처리를 위한 클러스터 컴퓨팅 프레임워크로, 대용량 데이터 분석과 머신러닝에 최적화됨PySpark: Apache Spark의 Python API로, Spark의 기능을 Python에서 사용할 수 있게 함2) Spark의 주요 컴포넌트Spark Core: Spark의 기본 엔진, RDD(Resilient Distributed Dataset)를 사용하여 분산 데이터를 처리Spark SQL: SQL과 DataFrame을 이용한 데이.. 2024. 10. 30. [DAY 70] SQLAlchemy ORM [천재교육] 프로젝트 기반 빅데이터 서비스 개발자 양성 과정 9기학습일 : 2024.10.29📕 학습 목록기능별 파일로 모듈을 분리하여 저장 → 필요 시 해당 모듈을 호출DB에 가상 데이터 저장시각화파이썬 심화 📗 기억할 내용[데이터 파이프라인]데이터의 생성에서 가공, 데이터베이스 전송, 시각화까지가상 데이터 유입: 처음 단계에서 가상 데이터(Fake Data)가 생성되어 데이터베이스로 유입됨PostgreSQL에 데이터 저장: 생성된 가상 데이터는 PostgreSQL 데이터베이스에 저장데이터 가공: Python을 사용하여 데이터 가공 작업을 수행합니다. 이 단계에서 필요한 데이터 변환이나 전처리가 이루어짐MySQL로 데이터 이행: 가공된 데이터는 MySQL 데이터베이스로 전송되어 저장됨데이터 읽기: .. 2024. 10. 29. [DAY 69] SQLAlchemy ORM [천재교육] 프로젝트 기반 빅데이터 서비스 개발자 양성 과정 9기학습일 : 2024.10.28📕 학습 목록기능별 파일로 모듈을 분리하여 저장 → 필요 시 해당 모듈을 호출 📗 기억할 내용[유용한 VS Code 단축키]ShortcutDescriptionCtrl + D같은 단어 연속 선택Ctrl + F현재 파일에서 단어 검색Ctrl + Shift + F현재 디렉토리의 모든 파일에 대해 단어 검색Ctrl + BExplorer 창 on/offAlt + 방향키(위/아래)선택한 코드 블럭 위아래로 이동Shift + Alt + 방향키(위/아래)선택한 코드 블럭 위아래로 복사Ctrl + ~터미널 창 on/offCtrl + Shift + 5터미널 창 splitCtrl + 2작업 창 splitF1Show Command.. 2024. 10. 28. [DAY 68] 데이터 엔지니어링 [천재교육] 프로젝트 기반 빅데이터 서비스 개발자 양성 과정 9기학습일 : 2024.10.25📕 학습 목록데이터 엔지니어링데이터 파이프라인 모듈 구성Connection PoolORMDB Connection 살습 📗 기억할 내용1. 데이터 엔지니어링1) 데이터 엔지니어링이란?데이터 엔지니어링: 데이터를 수집하고 활용할 수 있도록 시스템을 구축하는 것대규모 데이터를 효율적으로 수집, 저장, 처리 및 전송하기 위한 기술과 인프라를 개발하는 작업 2) 데이터 관리와 분석Data Lake(DL): 다양한 형태의 데이터를 원시 형태로 대규모로 저장하는 시스템구조화된 데이터 뿐만 아니라 비구조화된 데이터까지 모두 수용원시 데이터저장, 스키마 미리 정의하지 않음, 대용량 데이터 처리에 유리 Data Warehou.. 2024. 10. 25. [DAY 67] AWS 아키텍처 그리기 [천재교육] 프로젝트 기반 빅데이터 서비스 개발자 양성 과정 9기학습일 : 2024.10.24📕 학습 목록AWS 아키텍처 그리기 📗 기억할 내용[AWS 아키텍처]S3 버킷에 파일을 업로드 → Lambda가 자동으로 파일을 처리 → 그 결과를 RDS에 저장하는 과정다이어그램의 흐름Local Computer → S3: 사용자가 로컬 컴퓨터에서 S3 버킷에 파일을 업로드함S3 → Lambda: S3에 파일이 업로드되면 Lambda 함수가 트리거되어 파일 처리를 시작함Lambda → EC2: Lambda 함수는 간단한 처리를 수행한 후, 복잡한 작업을 EC2 인스턴스로 넘겨 추가 처리함EC2 → EBS: EC2 인스턴스는 연결된 EBS(Elastic Block Store)에 데이터를 저장하며 작업을 완료함E.. 2024. 10. 24. 이전 1 2 3 4 다음