본문 바로가기
TIL _Today I Learned/2024.11

[DAY 78] 중간 프로젝트_ 영어 발음 채점 서비스 구현

by gamdong2 2024. 11. 8.
[천재교육] 프로젝트 기반 빅데이터 서비스 개발자 양성 과정 9기
학습일 : 2024.11.08

📕 프로젝트 작업 내역

  • 음성 데이터 저장 방식 최적화
  • 학습 텍스트 데이터 분류 기준 확정
  • TTS 모델 품질 개선 방안 검토

 

📗 회의록

  • 회의 일자: 2024년 11월 8일
  • 회의 주제: 음성 데이터 저장 방식 최적화, 학습 텍스트 데이터 분류 기준 확정, TTS 모델 품질 개선 방안 검토
  • 참석자: OOO, OOO, OOO

 

1. 주요 논의 사항

  • 음성 데이터 API 성능 문제 해결 방안
    • 문제 상황
      • 예상 음성 파일 개수: 총 2000개, 약 100GiB 용량
      • 한 번에 모든 파일을 불러오지 않더라도 PostgreSQL의 BLOB 데이터 저장 한계로 인해, 많은 파일 저장 시 성능 저하 가능성 존재
      • API 응답 시간: 데이터베이스에서 파일을 직접 불러와 반환하는 방식이 부적절하며, 특히 대량 호출 시 성능 저하 발생 우려
    • 음성 데이터 저장 방안 브레인스토밍 결과
      • 기존 방식: 사전에 개발자가 모든 TTS 음성 파일 경로를 PostgreSQL에 저장하고, 클라이언트 요청 시 API로 불러오는 방식
      • 새로운 방식
        • CDN 활용: 응답 시간 단축 (유료 옵션: AWS CDN + S3, Firebase / 무료 옵션: Cloudflare)
        • 무손실 오디오 압축: FLAC 기술을 이용하여 파일 용량 최소화
        • 임시 저장 방식
          • TTS 음성 파일을 재생 버튼 클릭 시 즉시 생성하여 임시 저장 후 자동 삭제
          • 동일 파일을 재생할 경우 임시 저장된 파일 재사용
          • 페이지 이동 시 임시 TTS 파일 자동 삭제, 사용자 음성 파일은 DB에 영구 저장
    • 결정 예정 사항
      위의 해결 방안들 중, 사전에 모든 TTS 음성 파일을 PostgreSQL에 저장해 API로 불러오는 방식과 재생 버튼 클릭 시 TTS 음성 파일을 즉시 생성하여 임시 저장하는 방식 간의 성능을 비교하여 최적의 방안을 결정할 예정
  • 영어 텍스트 데이터 수집 완료 및 분류
    • Open AI 활용하여 학년별 영어 학습 문장에 따른 텍스트 데이터 생성 및 분류
    • 소설/회화: 초등 3~6학년 수준(level 1~4) + 중등 1~3학년 수준(level 5~7)(심화 학습을 희망하는 초등학생을 위함)
    • 파닉스(level 1~2): 발음 유사성 기준으로 10개 그룹 분류 (예: 모음(A, E, I, O, U), 입술 소리(B, P, M) 등)
  • TTS 모델 테스트
    • BARK와 gTTS 모델 비교 테스트 결과: gTTS가 더 자연스러운 음성 제공
    • 결정 사항: gTTS로 음성 파일 생성, 향후 실제 원어민 음성 추가 학습 진행 계획
  • UX/UI 캐릭터
    • 캐릭터 디자인 요청 완료, 11월 14일까지 캐릭터 설정 사항 구체화 예정
  • 서비스 차별화 전략
    • 파닉스, 회화, 원서 읽기 및 발음 채점 기능 제공으로 서비스 차별화
  • HuBERT 및 PTAAT 모델 비교
    • HuBERT 모델: 음성 특징을 하나의 벡터로 통합하여 전체 유사도 평가
    • PTAAT 모델: 음성 특징별 벡터 추출 가능하여 피치, 포먼트 등 요소별 발음 유사도 평가 가능, 더 세밀한 발음 채점 구현 예정

 

2. 다음 과제

  • 음성 데이터 API 성능 문제 해결 방안 확정
  • TTS 모델 성능 최적화(추가 학습 진행)
  • UX/UI 캐릭터 설정 사항 전달
  • HuBERT 및 PTAAT 모델 비교 테스트 진행
  • 서비스 차별화 전략 및 가치 구체화

 

 

📙 내일 일정

  • 중간 프로젝트 기획