한국어 형태소 기반 다중모달 AVSR 모델(KM-AVSR)을 이용한 문장 수준 립리딩의 설계 및 구현
Design and Implementation of Sentence-Level Lip-reading with a Korean Morpheme-Based Multimodal AVSR Model (KM-AVSR)
  • 윤희동
  • 이세욱
  • 문동규
  • 김명호

초록

본 연구는 음성 정보가 결손되거나 소음 환경에 처한 상황에서도 문장 수준의 발화를 예측할 수있는 립리딩 기술의 필요성에 주목한다. 립리딩은 특히 한국어 교육, 청각장애 지원, 음성 인식 보완 등 다양한 분야에서 활용 가능성이 높으며, 이를 구현하기 위한 멀티모달 시청각 음성 인식(Audio-Visual Speech Recognition, AVSR) 기술이 각광받고 있다. 본 연구는 한국어 립리딩의 구조적특성과 음절 기반 문자 체계를 고려하여, 의미 단위의 예측이 가능한 형태소 기반 하위 단어(subword) 토큰화를 도입한 KM-AVSR(Korean Morpheme-based AVSR) 모델을 제안한다. 한국어 립리딩 대규모 데이터셋을 활용한 실험 결과, 제안된 KM-AVSR은 문자 오류율(Character Error Rate, CER) 15.66%를 기록하며 기존 모델 대비 약 39.35%의 성능 향상을 보였다. 이러한 결과는 형태소기반 출력 단위와 하이브리드 디코딩 구조가 한국어 립리딩 정확도 향상에 효과적임을 시사한다.

키워드

한국어 립리딩시청각 음성인식형태소 기반 하위 단어딥러닝자연어 처리Korean lip-readingAudio-visual speech recognitionMorpheme-based subwordsDeep learningNatural language processing
제목
한국어 형태소 기반 다중모달 AVSR 모델(KM-AVSR)을 이용한 문장 수준 립리딩의 설계 및 구현
제목 (타언어)
Design and Implementation of Sentence-Level Lip-reading with a Korean Morpheme-Based Multimodal AVSR Model (KM-AVSR)
저자
윤희동이세욱문동규김명호
DOI
10.9708/jksci.2025.30.08.075
발행일
2025-08
유형
Y
저널명
한국컴퓨터정보학회논문지
30
8
페이지
75 ~ 85