"사용자가 말을 끝냈는가"를 판단하는 것은 생각보다 어렵습니다. 너무 빨리 자르면 말이 잘리고, 너무 늦게 자르면 앱이 느리게 느껴집니다. 이 페이지는 여러 VAD 모델을 실제 마이크 입력으로 직접 테스트하고, 각 모델이 발화 경계를 얼마나 빠르고 정확하게 감지하는지 나란히 비교할 수 있도록 만들어졌습니다.
VAD(Voice Activity Detection)는 마이크 입력에서 말하는 구간과 침묵 구간을 실시간으로 구분하는 기술입니다. 음성 인식 앱은 VAD가 "말이 끝났다"고 판단한 시점에 녹음을 끊고 서버로 전송하기 때문에, VAD의 정확도와 반응 속도가 사용자 경험에 직접 영향을 줍니다. 이 도구는 여러 VAD 모델이 실제 음성에서 얼마나 빠르고 정확하게 발화 경계를 잡아내는지 비교합니다.
Silero VAD v5 ONNX를 서버에서 추론합니다. 250ms min-speech / 500ms min-silence 상태 머신을 사용하며, ONNX Runtime Mobile을 통해 안드로이드에 그대로 이식할 수 있습니다.