본문 바로가기
TIL _Today I Learned/2024.11

[DAY 81] 중간 프로젝트_ 영어 발음 채점 서비스 구현

by gamdong2 2024. 11. 13.
[천재교육] 프로젝트 기반 빅데이터 서비스 개발자 양성 과정 9기
학습일 : 2024.11.13

📕 프로젝트 작업 내역

  • TTS 모델 확정
  • 캐릭터 제작 방식 논의

 

📗 회의록

  • 회의 일자: 2024년 11월 13일
  • 회의 주제: TTS 모델 확정, 캐릭터 제작 방식 논의
  • 참석자: OOO, OOO, OOO

 

1. 주요 논의 사항

1) TTS 모델 비교/평가

  • Bark 모델 생성 음성 평가
    • 감정 표현이 다양: 소설 및 회화 콘텐츠에 유용할 것으로 예상
    • 속도 조절이 가능하나, 단어 자체의 발화 속도가 아닌 단어와 단어 사이의 간격을 늘리는 수준
    • 문장당 생성 시간: 2분 이내
    • 다양한 화자 선택 가능
      • 화자 6: 다소 빠른 속도와 정확한 발음, 잡음 없음
      • 화자 9: 속도가 적절하며, 잡음이 있지만 후처리 후 품질 개선이 가능하여 발음 학습 콘텐츠에 적합
  • Tortoise-TTS(tortoise_ultra_fast) 모델 생성 음성 평가
    • Bark 보다 자연스러운 음성
    • 발음 양호
    • 배경 소음 존재
    • 원하는 억양을 음성 파일을 학습시킬 수 있음
    • 문장당 생성 시간: 3분 이내
    • 테스트 결과: A를 I로 읽는 문제 발생 → 많은 양의 음성 파일을 학습시켜 발음 정확도 높일 계획

2) TTS 모델 선택 및 Fine Tuning 계획 수립

  • 선정 모델: Tortoise-TTS(tortoise_ultra_fast)
  • 선정 이유: 발음이 비교적 자연어에 더 가깝고, 원하는 발화 스타일을 학습시킬 수 있음
  • Fine Tuning 계획
    • 원하는 억양을 위해 음성 파일(리버폭스-구텐베르크의 책 음성 콘텐츠) 입력 개수를 늘려 발음 정확도 개선
    • 회화 콘텐츠를 위해 리브리스피치의 여성 화자 음성 콘텐츠도 입력 예정

3) 캐릭터 제작 방식 검토

  • 생성형 AI 활용하여 내부적으로 캐릭터 제작
    • 동일한 요청사항으로 다양한 포즈를 한 번에 생성하여 재현성 보장

4) 피드백 항목 선정

  • 발음 유사도 평가(3가지 요소 조합)
  • 속도 피드백(빠르게/느리게)
  • 목소리 크기 피드백(음성 녹음 시 마이크 거리 조정 안내)

 

2. 다음 과제

  • Tortoise-TTS(tortoise_ultra_fast) 모델 활용하여 음성 데이터 수집
  • 음성 유사도 채점 코드 테스트
  • 기획안 수정하여 제출

 

 

📙 내일 일정

  • 중간 프로젝트 기획