한국어 형태소 기반 다중모달 AVSR 모델(KM-AVSR)을 이용한 문장 수준 립리딩의 설계 및 구현

윤희동; 이세욱; 문동규; 김명호

doi:10.9708/jksci.2025.30.08.075

상세 보기

한국어 형태소 기반 다중모달 AVSR 모델(KM-AVSR)을 이용한 문장 수준 립리딩의 설계 및 구현

Design and Implementation of Sentence-Level Lip-reading with a Korean Morpheme-Based Multimodal AVSR Model (KM-AVSR)

윤희동;
이세욱;
문동규;
김명호

초록

본 연구는 음성 정보가 결손되거나 소음 환경에 처한 상황에서도 문장 수준의 발화를 예측할 수있는 립리딩 기술의 필요성에 주목한다. 립리딩은 특히 한국어 교육, 청각장애 지원, 음성 인식 보완 등 다양한 분야에서 활용 가능성이 높으며, 이를 구현하기 위한 멀티모달 시청각 음성 인식(Audio-Visual Speech Recognition, AVSR) 기술이 각광받고 있다. 본 연구는 한국어 립리딩의 구조적특성과 음절 기반 문자 체계를 고려하여, 의미 단위의 예측이 가능한 형태소 기반 하위 단어(subword) 토큰화를 도입한 KM-AVSR(Korean Morpheme-based AVSR) 모델을 제안한다. 한국어 립리딩 대규모 데이터셋을 활용한 실험 결과, 제안된 KM-AVSR은 문자 오류율(Character Error Rate, CER) 15.66%를 기록하며 기존 모델 대비 약 39.35%의 성능 향상을 보였다. 이러한 결과는 형태소기반 출력 단위와 하이브리드 디코딩 구조가 한국어 립리딩 정확도 향상에 효과적임을 시사한다.

키워드

한국어 립리딩; 시청각 음성인식; 형태소 기반 하위 단어; 딥러닝; 자연어 처리; Korean lip-reading; Audio-visual speech recognition; Morpheme-based subwords; Deep learning; Natural language processing

제목: 한국어 형태소 기반 다중모달 AVSR 모델(KM-AVSR)을 이용한 문장 수준 립리딩의 설계 및 구현

제목 (타언어): Design and Implementation of Sentence-Level Lip-reading with a Korean Morpheme-Based Multimodal AVSR Model (KM-AVSR)

저자: 윤희동; 이세욱; 문동규; 김명호

DOI: 10.9708/jksci.2025.30.08.075

발행일: 2025-08

유형: Y

저널명: 한국컴퓨터정보학회논문지

권: 30

호: 8

페이지: 75 ~ 85

ScholarWorks@숭실대학교

상세 보기

초록

키워드