[천재교육] 프로젝트 기반 빅데이터 서비스 개발자 양성 과정 9기
학습일 : 2024.11.13
📕 프로젝트 작업 내역
- TTS 모델 확정
- 캐릭터 제작 방식 논의
📗 회의록
- 회의 일자: 2024년 11월 13일
- 회의 주제: TTS 모델 확정, 캐릭터 제작 방식 논의
- 참석자: OOO, OOO, OOO
1. 주요 논의 사항
1) TTS 모델 비교/평가
- Bark 모델 생성 음성 평가
- 감정 표현이 다양: 소설 및 회화 콘텐츠에 유용할 것으로 예상
- 속도 조절이 가능하나, 단어 자체의 발화 속도가 아닌 단어와 단어 사이의 간격을 늘리는 수준
- 문장당 생성 시간: 2분 이내
- 다양한 화자 선택 가능
- 화자 6: 다소 빠른 속도와 정확한 발음, 잡음 없음
- 화자 9: 속도가 적절하며, 잡음이 있지만 후처리 후 품질 개선이 가능하여 발음 학습 콘텐츠에 적합
- Tortoise-TTS(tortoise_ultra_fast) 모델 생성 음성 평가
- Bark 보다 자연스러운 음성
- 발음 양호
- 배경 소음 존재
- 원하는 억양을 음성 파일을 학습시킬 수 있음
- 문장당 생성 시간: 3분 이내
- 테스트 결과: A를 I로 읽는 문제 발생 → 많은 양의 음성 파일을 학습시켜 발음 정확도 높일 계획
2) TTS 모델 선택 및 Fine Tuning 계획 수립
- 선정 모델: Tortoise-TTS(tortoise_ultra_fast)
- 선정 이유: 발음이 비교적 자연어에 더 가깝고, 원하는 발화 스타일을 학습시킬 수 있음
- Fine Tuning 계획
- 원하는 억양을 위해 음성 파일(리버폭스-구텐베르크의 책 음성 콘텐츠) 입력 개수를 늘려 발음 정확도 개선
- 회화 콘텐츠를 위해 리브리스피치의 여성 화자 음성 콘텐츠도 입력 예정
3) 캐릭터 제작 방식 검토
- 생성형 AI 활용하여 내부적으로 캐릭터 제작
- 동일한 요청사항으로 다양한 포즈를 한 번에 생성하여 재현성 보장
4) 피드백 항목 선정
- 발음 유사도 평가(3가지 요소 조합)
- 속도 피드백(빠르게/느리게)
- 목소리 크기 피드백(음성 녹음 시 마이크 거리 조정 안내)
2. 다음 과제
- Tortoise-TTS(tortoise_ultra_fast) 모델 활용하여 음성 데이터 수집
- 음성 유사도 채점 코드 테스트
- 기획안 수정하여 제출
📙 내일 일정
- 중간 프로젝트 기획
'TIL _Today I Learned > 2024.11' 카테고리의 다른 글
[DAY 83] 중간 프로젝트_ KST 알고리즘의 활용 (0) | 2024.11.15 |
---|---|
[DAY 82] 중간 프로젝트_ KST 알고리즘의 활용 (0) | 2024.11.14 |
[DAY 80] 중간 프로젝트_ 영어 발음 채점 서비스 구현 (0) | 2024.11.12 |
[DAY 79] 중간 프로젝트_ 영어 발음 채점 서비스 구현 (0) | 2024.11.11 |
[DAY 78] 중간 프로젝트_ 영어 발음 채점 서비스 구현 (2) | 2024.11.08 |