🎙 ASR 대결: Clova Note vs. Daglo — 누가 정말 잘 듣는가?
- The Dr.K
- 5월 7일
- 1분 분량
사용자의 진짜 목소리를 기록하는 것만으로는 절반에 불과합니다. 나머지 절반은 분석이 시작되기도 전에 전사(Transcription) 정리에 시간을 낭비하지 않도록, 믿을 수 있는 자동 음성 인식(ASR) 엔진을 고르는 일입니다. 한국에서 널리 쓰이는 두 ASR 툴, 네이버 Clova Note와 Daglo를 동일 조건으로 테스트해 비교했습니다.

🧪 리서치 세팅
항목 | 세부 내용 |
세션 유형 | 오프라인 포커스 그룹(FGD) |
참여자 | FPS PC 게임 유저 8명 + 모더레이터 1명 |
녹음 길이 | 약 2시간 |
오디오 입력 | 동일한 단일 트랙을 두 ASR에 그대로 투입 |
🔍 평가 기준
맥락 보존 – 대화 흐름이 자연스럽게 이어지는가?
문장 완성도 – 발화가 문장 단위로 묶였는가?
오류 · 잡음 – 초단편 분절·오타가 얼마나 발생했는가?
분석 용이성 – 화자/주제 태깅 및 후처리 난이도
📊 핵심 지표
지표 | Daglo | Clova Note |
총 라인 수 | 1,050줄 | 623줄 |
초단편 라인(≤5자) | 381줄 | 0줄 |
문장 미완성 의심 | 552줄 | 173줄 |
Clova 기준 텍스트 일치율 | – | 68.1 % |
왜 중요할까? 단편 라인이 하나 늘어날 때마다, 실제 분석 전에 수작업으로 병합·삭제해야 할 시간이 덩달아 늘어납니다.
🧠 해석
Daglo는 초 단위 정확도가 높지만, 지나치게 발화를 쪼개어 맥락이 끊기고 후처리 부담이 큽니다.
Clova Note는 발화를 문맥 단위로 묶어 주어 FGD·1:1 인터뷰 같은 장시간 세션에서 정리 시간을 크게 단축시켜 줍니다.
✅ 결론
Clova Note가 맥락 보존과 후처리 효율 면에서 한 수 위입니다.
ASR 선택 시 "정확도"만 보지 말고, 내러티브 구조를 살려 주는가 그리고 분석 전 처리 시간을 줄여 주는가를 함께 고려하세요.
🧪 다음 실험 예고
“한국어 ASR은 감정 표현까지 잡아낼 수 있을까?” 곧 여러 음성 엔진을 대상으로 감정 레이어까지 테스트하고, 성공·실패·우회 방법까지 UXR Player에 공유할 예정입니다.
