본 논문에서는 Latent-Dynamic Conditional Random Field (LDCRF)를 이용하여 연속된 수화 문장 동영상에서 실시간으로 수화를 적출 및 인식하는 방법을 제안한다. 수화는 여러 단어가 순차적으로 구사되는 특성상 각 수화 단어의 시작점과 끝점을 알 수가 없기 때문에, 실생활에 수화 인식 기술을 적용하려면 연속적으로 수화를 검출하고 인식하는 단계(적출)가 필요하다. 일반적으로 수화나 손 제스처와 같은 시계열 데이터는 Hidden Markov Model (HMM)이나 Conditional Random Fields (CRF)와 같은 모델을 인식기로 사용한다. HMM은 입력 데이터의 복잡한 구조를 표현할 수 있는 장점이 있지만 관측치간에 서로 독립이라는 큰 제약이 따른다. 반면, CRF는 선행된 연구에서 HMM의 단점을 보완하고 만족할 수 있는 결과를 보였지만, 다양한 길이를 갖는 시계열 데이터의 성질을 표현할 수 없고 전체 데이터에 대해 인식할 수 없는 문제가 있다.
이를 해결하기 위해 수화 및 제스처의 시작점과 끝점을 찾는 다양한 적출 방법이 제안되었으나, 기존의 방법은 동적 프로그래밍이나 Viterbi 알고리즘을 기반으로 끝점을 찾고, 그 후에 시작점을 찾는 역추적 기법을 사용하기 때문에 인식 시간이 지연되어 실시간 수행이 불가능한 단점이 있었다. 본 논문에서는, 이를 극복하기 위해 Garbage LDCRF를 제안하고 이에 기반한 전방향 적출 방법을 구현하였다. 성능 평가를 위해 수화 문장으로 구성된 미국 수화 데이터베이스를 사용하였고, 실험 결과 기존의 적출 방법보다 뛰어난 성능을 보였다.
This paper represents a novel framework for real-time signed utterance spotting from continuous image sequences. Previous methods call backward spotting method that usually detects the end point of sign by comparing the observation probability of the sign and non-sign model, then they trace back through an optimal path via the dynamic programming or Viterbi algorithm to find the start point of the sign. Thus, there is an unavoidable time delay between the sign segmentation and the sign recognition. To solve this problem, two methods are proposed in this paper: 1) automatically determining specific non-sign patterns (which include out-of-vocabulary signs, epentheses, and other movements that do not correspond to signs) with garbage latent-dynamic conditional random field in signed utterance spotting and 2) a forward signed utterance spotting scheme to execute signed utterance segmentation and recognition simultaneously. We apply the proposed real-time signed utterance spotting method to recognize American Sign Language (ASL) database that composed of 98 ASL signed sentences. The sign vocabulary is composed of 24 signs. Experimental results have shown that the proposed method has a good segmentation and recognition rate of 80.8 percent spotting rate for continuous ASL signed sentences.