본문 바로가기

TIL _Today I Learned/2024.11

[DAY 81] 중간 프로젝트_ 영어 발음 채점 서비스 구현

by gamdong2 2024. 11. 13.

[천재교육] 프로젝트 기반 빅데이터 서비스 개발자 양성 과정 9기
학습일 : 2024.11.13

📕 프로젝트 작업 내역

TTS 모델 확정
캐릭터 제작 방식 논의

📗 회의록

회의 일자: 2024년 11월 13일
회의 주제: TTS 모델 확정, 캐릭터 제작 방식 논의
참석자: OOO, OOO, OOO

1. 주요 논의 사항

1) TTS 모델 비교/평가

Bark 모델 생성 음성 평가
- 감정 표현이 다양: 소설 및 회화 콘텐츠에 유용할 것으로 예상
- 속도 조절이 가능하나, 단어 자체의 발화 속도가 아닌 단어와 단어 사이의 간격을 늘리는 수준
- 문장당 생성 시간: 2분 이내
- 다양한 화자 선택 가능
  - 화자 6: 다소 빠른 속도와 정확한 발음, 잡음 없음
  - 화자 9: 속도가 적절하며, 잡음이 있지만 후처리 후 품질 개선이 가능하여 발음 학습 콘텐츠에 적합
Tortoise-TTS(tortoise_ultra_fast) 모델 생성 음성 평가
- Bark 보다 자연스러운 음성
- 발음 양호
- 배경 소음 존재
- 원하는 억양을 음성 파일을 학습시킬 수 있음
- 문장당 생성 시간: 3분 이내
- 테스트 결과: A를 I로 읽는 문제 발생 → 많은 양의 음성 파일을 학습시켜 발음 정확도 높일 계획

2) TTS 모델 선택 및 Fine Tuning 계획 수립

선정 모델: Tortoise-TTS(tortoise_ultra_fast)
선정 이유: 발음이 비교적 자연어에 더 가깝고, 원하는 발화 스타일을 학습시킬 수 있음
Fine Tuning 계획
- 원하는 억양을 위해 음성 파일(리버폭스-구텐베르크의 책 음성 콘텐츠) 입력 개수를 늘려 발음 정확도 개선
- 회화 콘텐츠를 위해 리브리스피치의 여성 화자 음성 콘텐츠도 입력 예정

3) 캐릭터 제작 방식 검토

생성형 AI 활용하여 내부적으로 캐릭터 제작
- 동일한 요청사항으로 다양한 포즈를 한 번에 생성하여 재현성 보장

4) 피드백 항목 선정

발음 유사도 평가(3가지 요소 조합)
속도 피드백(빠르게/느리게)
목소리 크기 피드백(음성 녹음 시 마이크 거리 조정 안내)

2. 다음 과제

Tortoise-TTS(tortoise_ultra_fast) 모델 활용하여 음성 데이터 수집
음성 유사도 채점 코드 테스트
기획안 수정하여 제출

📙 내일 일정

중간 프로젝트 기획

'TIL _Today I Learned > 2024.11' 카테고리의 다른 글

[DAY 83] 중간 프로젝트_ KST 알고리즘의 활용 (0)	2024.11.15
[DAY 82] 중간 프로젝트_ KST 알고리즘의 활용 (0)	2024.11.14
[DAY 80] 중간 프로젝트_ 영어 발음 채점 서비스 구현 (0)	2024.11.12
[DAY 79] 중간 프로젝트_ 영어 발음 채점 서비스 구현 (0)	2024.11.11
[DAY 78] 중간 프로젝트_ 영어 발음 채점 서비스 구현 (2)	2024.11.08

티스토리툴바