본문 바로가기
TIL _Today I Learned/2024.11

[DAY 79] 중간 프로젝트_ 영어 발음 채점 서비스 구현

by gamdong2 2024. 11. 11.
[천재교육] 프로젝트 기반 빅데이터 서비스 개발자 양성 과정 9기
학습일 : 2024.11.

📕 프로젝트 작업 내역

  • 음성 데이터 저장 방식 최적화
  • 학습 텍스트 데이터 분류 기준 확정
  • TTS 모델 품질 개선 방안 검토

 

📗 회의록

  • 회의 일자: 2024년 11월 11일
  • 회의 주제:음성 변환 모델 탐색, 음성 유사도 채점 모델 탐색, 캐릭터 외주 레퍼런스 수집
  • 참석자: OOO, OOO, OOO

 

1. 주요 논의 사항

1) 텍스트 → 음성 변환 모델 탐색

  • 모델 후보: Tacotron2, Bark
    • 두 모델의 음질과 발음의 자연스러움을 비교
    • Bark 모델이 더 자연어에 가까운 음성을 생성함

2) 서비스 캐릭터 레퍼런스 수집

  • 생성형 AI에게 원하는 캐릭터 특징을 제시하여 약 50가지의 캐릭터를 생성
  • 다람쥐 캐릭터를 최종 시안으로 선정
  • 실제 서비스에 사용할 캐릭터는 이를 기반으로 외주 제작을 맡기거나, 생성형 AI를 활용하여 추가로 조정할 계획

3) 음성 유사도 채점 모델 탐색

  • 원하는 출력 방식에 맞춰 모델을 설계
  • 모델 후보: MFA + Kaldi
    • 발음 유사도 평가 시스템을 구축
    • Kaldi 설치 및 실험을 위한 리눅스 환경을 구성
    • 모델 작동 테스트를 위한 코드 작성

 

2. 다음 과제

  • 음성 변환 모델 추가 탐색 및 확정: 자연어에 가장 유사한 음성 변환 모델을 추가 탐색
  • 음성 변환 모델 필터링 코드 보완: 발음 뭉개짐과 기계음 개선을 위해 필터링 코드 작성
  • 음성 유사도 평가 테스트 코드 작성: 설정한 항목 및 점수 분배 시안에 따른 테스트 진행

 

 

 

📙 내일 일정

  • 중간 프로젝트 기획