반응형
1-3 음성 인식
음성 인식 방법
- 사람의 말하는 소리에는 특정 주파수가 있고, 이 소리의 진폭을 Fourier Transform 하면 주파수의 특징을 알 수 있음
- 어떤 시간 영역에서 뽑은 진폭을 주파수 영역으로 변환했을 때 볼 수 있는 피크를 '포먼트(Formant)'라고 함, 한국어는 1~3 포먼트 주파수의 조합에 따라 모음의 음소를 알 수 있음
- 목소리는 성대의 진동으로 발생, 성도(Vocal Tract)를 통과하면서 필터에 걸리고, 공기의 진동이 발생해 목소리가 울림
- 음원의 성대는 소스가 되고, 필터의 조합으로 소리가 들리므로 이를 '소스-필터 이론(Source-Filter Theory)'라고 함
- 음성을 텍스트로 인식하려면 음성을 분해하는 모델(음성 모델)과 분해된 음성을 문장으로 변환하는 모델(언어 모델)을 구성해야 함
음성 인식 시스템의 작업 흐름
※ 해당 내용은 <인공지능 바이블>의 내용을 토대로 학습하며 정리한 내용입니다.
반응형
'인공지능(AI)' 카테고리의 다른 글
자연어 처리 (2) (0) | 2023.06.06 |
---|---|
자연어 처리 (1) (0) | 2023.06.05 |
이미지와 음성 패턴 인식 (2) (0) | 2023.06.03 |
이미지와 음성 패턴 인식 (1) (0) | 2023.06.02 |
인공지능 모델의 평가 (0) | 2023.06.01 |