본문 바로가기

TIL _Today I Learned/2024.1218

[DAY 113] 최종 프로젝트_ 모델 학습 자동화 파이프라인 구현 [천재교육] 프로젝트 기반 빅데이터 서비스 개발자 양성 과정 9기학습일 : 2024.12.30📕 프로젝트 작업 내역모델 학습 자동화 구현 📗 수행 결과1. 모델 학습 자동화 파이프라인 구현1) 목표 S3에 새로운 학습 데이터 지속 적재 ⇩한 달 간격으로 EventBridge를 통한 Lambda 자동 트리거 ⇩Lambda에서 S3의 총 파일 개수 확인 ⇽ DynamoDB에서 직전 트리거 상태 확인하여 새로운 데이터 개수 계산 ⇩새로운 데이터가 특정 개수 이상 쌓였을 경우 Lambda 실행 및 DynamoDB 상태 업데이트 ⇩S3 파일 목록 캐싱 파일(.json) & 새로 추가된 파일 매핑 파일(.csv) 업데이트 ⇩새로운 데이터만 학습 진행 ⇽ 직전 캐싱 파일과 비교하여 새로운 데이터.. 2024. 12. 30.
[DAY 111] 최종 프로젝트_ Lambda [천재교육] 프로젝트 기반 빅데이터 서비스 개발자 양성 과정 9기학습일 : 2024.12.26📕 프로젝트 작업 내역FileRecord 테이블 채우기 📗 수행 결과1. FileRecord 테이블 채우기1) 라벨링 자동화 파이프라인사용자 문제 업로드 (Django API) → S3 업로드 → Lambda 함수 실행 (S3 이벤트 트리거)  → EC2 내 라벨링 파이프라인 실행 (YOLO > OCR > LLM) → 라벨링 결과 저장 (PostgreSQL) → 사용자 응답 (Django API) 2) 이번 목표S3 버킷에 사용자 문제 데이터 업로드 → Lambda 트리거 →  SSM API → PostgreSQL 컨테이너 내 FileRecord 테이블에 데이터 채우기 자동화 3) 해야할 일S3 이벤트 트리거.. 2024. 12. 26.
[DAY 110] 최종 프로젝트_ 라벨링 자동화 파이프라인 개선 [천재교육] 프로젝트 기반 빅데이터 서비스 개발자 양성 과정 9기학습일 : 2024.12.24📕 프로젝트 작업 내역PostgreSQL / Django 컨테이너 실행Django API 구축Labeling Pipeline 소요 시간 확인Django 와 Labeling Pipeline 연결 📗 수행 결과1. PostgreSQL / Django 컨테이너 연결1) PostgreSQL / Django 컨테이너 실행postgres 폴더 생성 → Dockerfile / requirements.txt / docker-compose.yml 생성# Dockerfile# Python 기반 이미지 사용FROM python:3.9-slim# 작업 디렉토리 설정WORKDIR /app# Python 환경 설정ENV PYTHOND.. 2024. 12. 24.
[DAY 109] 최종 프로젝트_ Labeling Pipeline 자동화 [천재교육] 프로젝트 기반 빅데이터 서비스 개발자 양성 과정 9기학습일 : 2024.12.23📕 프로젝트 작업 내역Labeling Pipeline 자동화 📗 수행 결과1. Labeling Pipeline 자동화1) 라벨링 자동화 파이프라인사용자 문제 업로드 (Django API) → S3 업로드 → Lambda 함수 실행 (S3 이벤트 트리거)  → EC2 내 라벨링 파이프라인 실행 (YOLO > OCR > LLM) → 라벨링 결과 저장 (MongoDB) → 사용자 응답 (Django API) 2) Django → S3 업로드S3 버킷에 업로드된 파일 유형을 다음 두 가지로 예상   (i) 텍스트 업로드 (Django 에서 .txt 로 변환 후 업로드)big9-project-02-question-bu.. 2024. 12. 23.
[DAY 108] 최종 프로젝트_ 모델 추가 학습 [천재교육] 프로젝트 기반 빅데이터 서비스 개발자 양성 과정 9기학습일 : 2024.12.20📕 프로젝트 작업 내역OCR 모델 Fine Tuning 결과모델 추가 학습 계획 📗 수행 결과1. OCR 모델 Fine Tuning 결과1) 훈련/검증 결과 분석(1) 두 가지 학습 방식 에 대한 결과 분석학습 방식 (i) 원본 이미지를 리사이징하여 상대좌표 계산(ii) 원본 이미지에서 상대좌표 계산 후,텍스트 영역을 크롭하여 리사이징예측 모델    team-lucid/trocr-small-korean사용한 데이터     - AI HUB의 수학 과목 자동 풀이 데이터 (초등 3~6학년)    - 데이터 수: 15,224개 (훈련:검증 = 8:2)    - 입력 데이터(X): 이미지와 이미지 내 텍스트 영역 좌.. 2024. 12. 20.
[DAY 107] 최종 프로젝트_ OCR 모델 Fine Tuning [천재교육] 프로젝트 기반 빅데이터 서비스 개발자 양성 과정 9기학습일 : 2024.12.19📕 프로젝트 작업 내역OCR 모델 Fine Tuning 📗 수행 결과1. OCR 모델 Fine Tuning1) 모델 정보이름: team-lucid/trocr-small-korean특징VisionEncoderDecoderModel  “이미지 → 텍스트(한국어 특화)”입력 이미지 사이즈: 384×384 (고정) 2) 사용한 데이터 셋출처: AI Hub의 수학 과목 자동 풀이 데이터 (초등 3~6학년)구성데이터 수: 15,224개 (훈련:검증 = 8:2)입력 데이터(X): 이미지와 이미지 내 텍스트 영역 좌표 (bboxes)텍스트 라벨(Y): 해당 영역에서 추출된 텍스트 3) 학습 방식(i) 텍스트 영역 좌표(bb.. 2024. 12. 19.