상세 보기
한국어 형태소 기반 다중모달 AVSR 모델(KM-AVSR)을 이용한 문장 수준 립리딩의 설계 및 구현
Design and Implementation of Sentence-Level Lip-reading with a Korean Morpheme-Based Multimodal AVSR Model (KM-AVSR)
- 윤희동;
- 이세욱;
- 문동규;
- 김명호
초록
본 연구는 음성 정보가 결손되거나 소음 환경에 처한 상황에서도 문장 수준의 발화를 예측할 수있는 립리딩 기술의 필요성에 주목한다. 립리딩은 특히 한국어 교육, 청각장애 지원, 음성 인식 보완 등 다양한 분야에서 활용 가능성이 높으며, 이를 구현하기 위한 멀티모달 시청각 음성 인식(Audio-Visual Speech Recognition, AVSR) 기술이 각광받고 있다. 본 연구는 한국어 립리딩의 구조적특성과 음절 기반 문자 체계를 고려하여, 의미 단위의 예측이 가능한 형태소 기반 하위 단어(subword) 토큰화를 도입한 KM-AVSR(Korean Morpheme-based AVSR) 모델을 제안한다. 한국어 립리딩 대규모 데이터셋을 활용한 실험 결과, 제안된 KM-AVSR은 문자 오류율(Character Error Rate, CER) 15.66%를 기록하며 기존 모델 대비 약 39.35%의 성능 향상을 보였다. 이러한 결과는 형태소기반 출력 단위와 하이브리드 디코딩 구조가 한국어 립리딩 정확도 향상에 효과적임을 시사한다.
키워드
한국어 립리딩; 시청각 음성인식; 형태소 기반 하위 단어; 딥러닝; 자연어 처리; Korean lip-reading; Audio-visual speech recognition; Morpheme-based subwords; Deep learning; Natural language processing
- 제목
- 한국어 형태소 기반 다중모달 AVSR 모델(KM-AVSR)을 이용한 문장 수준 립리딩의 설계 및 구현
- 제목 (타언어)
- Design and Implementation of Sentence-Level Lip-reading with a Korean Morpheme-Based Multimodal AVSR Model (KM-AVSR)
- 저자
- 윤희동; 이세욱; 문동규; 김명호
- 발행일
- 2025-08
- 유형
- Y
- 저널명
- 한국컴퓨터정보학회논문지
- 권
- 30
- 호
- 8
- 페이지
- 75 ~ 85