🎙 ASR 대결: Clova Note vs. Daglo — 누가 정말 잘 듣는가?

The Dr.K
2025년 5월 7일
1분 분량

사용자의 진짜 목소리를 기록하는 것만으로는 절반에 불과합니다. 나머지 절반은 분석이 시작되기도 전에 전사(Transcription) 정리에 시간을 낭비하지 않도록, 믿을 수 있는 자동 음성 인식(ASR) 엔진을 고르는 일입니다. 한국에서 널리 쓰이는 두 ASR 툴, 네이버 Clova Note와 Daglo를 동일 조건으로 테스트해 비교했습니다.

🧪 리서치 세팅

항목	세부 내용
세션 유형	오프라인 포커스 그룹(FGD)
참여자	FPS PC 게임 유저 8명 + 모더레이터 1명
녹음 길이	약 2시간
오디오 입력	동일한 단일 트랙을 두 ASR에 그대로 투입

🔍 평가 기준

맥락 보존 – 대화 흐름이 자연스럽게 이어지는가?
문장 완성도 – 발화가 문장 단위로 묶였는가?
오류 · 잡음 – 초단편 분절·오타가 얼마나 발생했는가?
분석 용이성 – 화자/주제 태깅 및 후처리 난이도

📊 핵심 지표

지표	Daglo	Clova Note
총 라인 수	1,050줄	623줄
초단편 라인(≤5자)	381줄	0줄
문장 미완성 의심	552줄	173줄
Clova 기준 텍스트 일치율	–	68.1 %

왜 중요할까? 단편 라인이 하나 늘어날 때마다, 실제 분석 전에 수작업으로 병합·삭제해야 할 시간이 덩달아 늘어납니다.

🧠 해석

Daglo는 초 단위 정확도가 높지만, 지나치게 발화를 쪼개어 맥락이 끊기고 후처리 부담이 큽니다.
Clova Note는 발화를 문맥 단위로 묶어 주어 FGD·1:1 인터뷰 같은 장시간 세션에서 정리 시간을 크게 단축시켜 줍니다.

✅ 결론

Clova Note가 맥락 보존과 후처리 효율 면에서 한 수 위입니다.

ASR 선택 시 "정확도"만 보지 말고, 내러티브 구조를 살려 주는가 그리고 분석 전 처리 시간을 줄여 주는가를 함께 고려하세요.

🧪 다음 실험 예고

“한국어 ASR은 감정 표현까지 잡아낼 수 있을까?” 곧 여러 음성 엔진을 대상으로 감정 레이어까지 테스트하고, 성공·실패·우회 방법까지 UXR Player에 공유할 예정입니다.

#Koreantranscriptiontool #ASR #SpeechToText #Transcription #ClovaNote #Daglo