본문 바로가기
TIL _Today I Learned/2024.09

[DAY 43] 자연어 처리(NLP) 모델

by gamdong2 2024. 9. 11.
[천재교육] 프로젝트 기반 빅데이터 서비스 개발자 양성 과정 9기
학습일 : 2024.09.11

📕 학습 목록

  • ASR 모델
  • Whisper 모델
  • 자연어 처리 모델

 

📗 기억할 내용

1) ASR 모델 (Automatic Speech Recognition)

  • 동영상 음성을 분석하여 자동으로 자막 생성
  • 다양한 언어를 지원하여 다국어 자막 생성 가능
  • 사용자 맞춤형 설정: 자막의 정확도 및 특정 단어 강조 가능
  • 잡음 제거 및 음성 인식률을 향상시키는 필터 적용 가능
  • 실시간 자막 생성 및 편집 기능 추가 가능

2) 키프레임 (Keyframe)

  • 동영상 압축을 통해 파일 용량을 줄일 수 있음
  • 움직임이 없는 구간은 동일한 프레임을 유지하고, 움직임이 있는 구간만 새로 렌더링
  • 움직임을 얼마나 세세하게 설정할지에 따라 압축률과 화질이 달라짐
  • 색상 변화가 있는 경우, 이전 색상과 이후 색상의 차이만 저장하여 데이터 절약
  • 키프레임 간격이 길어질수록 압축률은 높아지지만, 화질이 저하될 수 있음
  • GIF: 간단한 애니메이션이나 짧은 영상 클립을 압축할 때 유용하며, 프레임 수와 색상 제한을 통해 파일 크기를 줄임

3) 음성 압축

  • 비손실 압축: WAV 파일을 사용해 음질을 유지하면서 파일 크기 압축. 원래의 파형을 유지하는 방식
  • 가청 주파수 범위: 사람이 들을 수 있는 주파수 범위(20Hz ~ 20kHz)를 기준으로 압축
  • 비가청 영역 제거: 사람이 듣지 못하는 고주파수나 초저주파수 대역(20Hz 미만, 20kHz 초과)을 제거해 효율적으로 압축
  • MP3 압축: 비가청 영역을 모두 제거하는 대신, 가청 주파수 대역의 두 배 정도만 남기고 나머지를 자르는 방식으로 압축. 이는 음질을 어느 정도 유지하면서 파일 크기를 줄이는 방법
  • 음질과 파일 크기 간의 균형을 맞추기 위한 다양한 압축 알고리즘 적용 가능

4) Whisper 모델 (whisper_tiny, whisper_small, whisper_medium, whisper_large)

  • Whisper_small 모델만으로도 대부분의 한국어 동영상 인식 가능
  • 음성 파일을 입력하고, 언어 국적을 지정하면 자동으로 언어 인식 가능
  • 별도의 추가 처리가 없으면 30초 단위로만 음성 인식 가능
  • 다양한 크기의 모델이 있어, 용도에 따라 더 정교한 인식이 필요한 경우 whisper_large를 사용할 수 있음

 5) 자연어 처리 모델 (NLP Model)

  • Question Answering 모델 (QA 모델)
    - Document Question Answering: 문서 내 정보를 기반으로 질문에 답변하는 모델
    - Table Question Answering: 표 형태의 사전지식을 입력한 후, 자연어로 질문을 던지면 표 데이터를 바탕으로 자연어 모델이 답변. 정확도가 높은 편이며, 특히 표 형식의 데이터 처리가 용이함
  • Conversational 모델
    - 대화가 가능하며, 사용자의 질문에 자연스럽게 응답할 수 있는 모델
    - 다중 턴 대화 가능: 한 번의 응답에 그치지 않고, 지속적인 대화를 이어나갈 수 있음
  • 레그 방식 (RAG, Retrieval-Augmented Generation)
    - 검색 기반의 텍스트 생성 방식으로, 질문에 답하기 전에 관련 문서를 검색해 그 결과를 기반으로 텍스트를 생성
    - 기존의 단순 생성 모델보다 더 정확한 답변을 제공할 수 있음
  • 파인 튜닝 방식 (Fine-Tuning)
    - 기존 모델에 추가적인 학습을 시켜 특정 작업에 맞는 성능을 향상시킴
    - 성능 향상 가능하지만, 기존 학습된 데이터의 성능이 불안정해지거나 새로 배운 데이터에서 환각 현상(hallucination)이 발생할 수 있음
    - 학습 데이터와의 균형을 맞추는 것이 중요
  • 검색 모델
    - 키워드를 입력했을 때 관련된 결과를 도출하는 모델
    - 단순히 키워드 검색에 의존해 사용자가 키워드를 명확히 입력해야 하는 한계가 있음
    - 이를 개선한 모델들은 자연어로 질문을 입력하면 의미를 파악해 적절한 검색 결과를 제공함
    - 정보 검색과 문서 생성 기능을 통합한 형태로 발전 가능
  • 환각 현상 (Hallucination)
    - 자연어 모델이 학습된 정보에 없는 내용을 생성하거나, 잘못된 답변을 제공하는 현상
    - 특히 파인 튜닝 이후 새로 학습한 데이터에 대해 발생할 가능성이 높음
     
     
     

📙 내일 일정

  • 딥러닝 실습

 

 

 

 

 

 

 

'TIL _Today I Learned > 2024.09' 카테고리의 다른 글

[DAY 45] Deep Learning 실습  (0) 2024.09.13
[DAY 44] Deep Learning 실습  (0) 2024.09.12
[DAY 42] Deep Learning  (1) 2024.09.10
[DAY 41] Deep Learning 실습  (0) 2024.09.09
[DAY 40] Deep Learning 실습  (0) 2024.09.06