TIL _Today I Learned122 [DAY 110] 최종 프로젝트_ 라벨링 자동화 파이프라인 개선 [천재교육] 프로젝트 기반 빅데이터 서비스 개발자 양성 과정 9기학습일 : 2024.12.24📕 프로젝트 작업 내역PostgreSQL / Django 컨테이너 실행Django API 구축Labeling Pipeline 소요 시간 확인Django 와 Labeling Pipeline 연결 📗 수행 결과1. PostgreSQL / Django 컨테이너 연결1) PostgreSQL / Django 컨테이너 실행postgres 폴더 생성 → Dockerfile / requirements.txt / docker-compose.yml 생성# Dockerfile# Python 기반 이미지 사용FROM python:3.9-slim# 작업 디렉토리 설정WORKDIR /app# Python 환경 설정ENV PYTHOND.. 2024. 12. 24. [DAY 109] 최종 프로젝트_ Labeling Pipeline 자동화 [천재교육] 프로젝트 기반 빅데이터 서비스 개발자 양성 과정 9기학습일 : 2024.12.23📕 프로젝트 작업 내역Labeling Pipeline 자동화 📗 수행 결과1. Labeling Pipeline 자동화1) 라벨링 자동화 파이프라인사용자 문제 업로드 (Django API) → S3 업로드 → Lambda 함수 실행 (S3 이벤트 트리거) → EC2 내 라벨링 파이프라인 실행 (YOLO > OCR > LLM) → 라벨링 결과 저장 (MongoDB) → 사용자 응답 (Django API) 2) Django → S3 업로드S3 버킷에 업로드된 파일 유형을 다음 두 가지로 예상 (i) 텍스트 업로드 (Django 에서 .txt 로 변환 후 업로드)big9-project-02-question-bu.. 2024. 12. 23. [DAY 108] 최종 프로젝트_ 모델 추가 학습 [천재교육] 프로젝트 기반 빅데이터 서비스 개발자 양성 과정 9기학습일 : 2024.12.20📕 프로젝트 작업 내역OCR 모델 Fine Tuning 결과모델 추가 학습 계획 📗 수행 결과1. OCR 모델 Fine Tuning 결과1) 훈련/검증 결과 분석(1) 두 가지 학습 방식 에 대한 결과 분석학습 방식 (i) 원본 이미지를 리사이징하여 상대좌표 계산(ii) 원본 이미지에서 상대좌표 계산 후,텍스트 영역을 크롭하여 리사이징예측 모델 team-lucid/trocr-small-korean사용한 데이터 - AI HUB의 수학 과목 자동 풀이 데이터 (초등 3~6학년) - 데이터 수: 15,224개 (훈련:검증 = 8:2) - 입력 데이터(X): 이미지와 이미지 내 텍스트 영역 좌.. 2024. 12. 20. [DAY 107] 최종 프로젝트_ OCR 모델 Fine Tuning [천재교육] 프로젝트 기반 빅데이터 서비스 개발자 양성 과정 9기학습일 : 2024.12.19📕 프로젝트 작업 내역OCR 모델 Fine Tuning 📗 수행 결과1. OCR 모델 Fine Tuning1) 모델 정보이름: team-lucid/trocr-small-korean특징VisionEncoderDecoderModel “이미지 → 텍스트(한국어 특화)”입력 이미지 사이즈: 384×384 (고정) 2) 사용한 데이터 셋출처: AI Hub의 수학 과목 자동 풀이 데이터 (초등 3~6학년)구성데이터 수: 15,224개 (훈련:검증 = 8:2)입력 데이터(X): 이미지와 이미지 내 텍스트 영역 좌표 (bboxes)텍스트 라벨(Y): 해당 영역에서 추출된 텍스트 3) 학습 방식(i) 텍스트 영역 좌표(bb.. 2024. 12. 19. [DAY 106] 최종 프로젝트_ Labeling Pipeline [천재교육] 프로젝트 기반 빅데이터 서비스 개발자 양성 과정 9기학습일 : 2024.12.18📕 프로젝트 작업 내역LLM을 활용한 라벨링 자동화GraphRAG을 활용한 라벨링 자동화 📗 수행 결과1. LLM을 활용한 라벨링 자동화1) 라벨링 자동화 파이프라인문제 입력 → 대분류 추출 (GPT-4) → 대분류에 해당하는 JSON 파일 S3에서 로드 → 로컬에 JSON 파일 저장 → 최하위 분류 추출 (GPT-4) → 최하위 분류 출력 2) 로드맵 파일(JSON) 유형S3 버킷(big9-project-02-roadmap-bucket) 에 저장된 파일 유형을 다음 두 가지로 예상 (i) 추출된 대분류와 매핑이 가능한 파일명(main.py)big9-project-02-roadmap-bucket/roadm.. 2024. 12. 18. [DAY 105] 최종 프로젝트_ 모델 학습 파이프라인 [천재교육] 프로젝트 기반 빅데이터 서비스 개발자 양성 과정 9기학습일 : 2024.12.17📕 프로젝트 작업 내역모델 학습 파이프라인로컬 테스트 📗 수행 결과1. 모델 학습 파이프라인1) 데이터 업로드 및 트리거AWS S3문제 데이터(이미지 파일) 업로드EventBridge와 Lambda로 새로운 데이터가 추가될 때 학습 및 처리 파이프라인 트리거2) 텍스트와 비텍스트 감지 (YOLO)YOLOv8 Fine-Tuning텍스트와 비텍스트 영역을 감지텍스트 영역은 OCR 처리로 넘기고, 비텍스트 영역(표, 그래프, 그림 등)은 멀티모달 모델로 처리3) 텍스트 영역의 정보 추출 (OCR)trocr-small-korean Fine-Tuning텍스트 영역에서 텍스트 추출4) 비텍스트 영역의 정보 추출 (멀티모.. 2024. 12. 17. 이전 1 2 3 4 5 6 ··· 21 다음