페이지를 불러오는 중...
페이지를 불러오는 중...

| 회사명 | 휴멜로 |
|---|---|
| 포지션 | AI Research Engineer |
| 근무지 | 서울특별시 강남구 테헤란로4길 38-4 (태양빌딩) 12층 |
| 고용형태 | 정규직 |
| 경력 | 5년 이상 |
| 기술 스택 | GitHub, PyTorch, React, Tensorflow, Python, TypeScript, AWS, Docker |
[Global No.1 AI Voice, Humelo]
휴멜로는 "목소리의 미래" 를 만드는 AI 음성 기업입니다. 2초의 원본 음성으로 실제와 구분하기 어려운 고품질 Voice Cloning을, 48kHz 스튜디오급 음질로, 실시간 스트리밍으로 구현하는 자체 TTS 엔진 DIVE를 개발하고 있습니다. 대기업이 흉내 내기 쉽지 않을 만큼 앞서나간 음성 AI 기술을 갖추고 있으며, Speech Synthesis, Voice Conversion 등 다양한 영역에서 '진짜 사람 같은 AI 목소리'를 구현합니다.
DIVE는 개발자용 음성 AI SaaS Prosody Console을 통해 이스트소프트(Perso)·보이저엑스(Vrew)·팀벨(AICC 파트너) 등 국내 주요 기업의 서비스에 연동되어 운영되고 있습니다. 2025년 글로벌 K-FAST 얼라이언스 사업자, 2026년 딥테크 TIPS에 선정되어 차세대 음성 AI 연구·개발을 이어 가고 있습니다. 앞서 KT 'AI Voice Studio / 마이 AI 보이스' 제품, SM엔터테인먼트 AI 아티스트 '나이비스(nævis)', 밀리의서재 오디오북 등에도 기술을 제공해 왔습니다.
휴멜로가 지향하는 것은 기술을 넘어, '목소리'를 둘러싼 모든 경험을 바꾸는 것입니다. 음악·미디어·엔터테인먼트·커뮤니케이션·AICC 전반에 걸쳐 음성 AI를 자연스럽게 녹여내고, 상상하지 못했던 새로운 기회를 만들어 나갑니다. 이제 막 본격적으로 전 세계 시장을 향해 나아가기 시작한 휴멜로와 함께, 음성의 새로운 시대를 열어갈 연구자를 기다립니다.
우리는 아래 제품·서비스에서 연구를 매일 검증합니다.
* Prosody Console (B2B): 개발자용 음성 AI API/SaaS. 고객사가 DIVE TTS 등 휴멜로 엔진을 자사 서비스에 실시간 연동할 수 있도록 제공하며, 국내 주요 기업들이 도입해 운영 중입니다.
* Tikita (B2C): AI 캐릭터와 음성으로 대화하는 인터랙티브 오디오 스토리. 웹·iOS·Android 4개 국어 출시
* TiVA: 차세대 B2B AICC 솔루션으로 개발 중 — 상담·콜센터 시나리오를 겨냥한 온프레미스 음성 AI
1. 휴멜로 DIVE 보이스클로닝, 이스트소프트 Perso Studio에 공급 (뉴스웍스, 2026)
2. 글로벌 AI판, '보이스 에이전트' 경쟁 후끈…K-스타트업도 본격 참여 (디지털투데이, 2026)
3. [Let's 스타트업] 휴멜로, 대화 맥락·감정까지 살린 보이스 AI로 승부 (매일경제, 2026)
4. 진짜보다 더 진짜 같은 목소리… 보이스 AI, 규제 넘어 '공존'의 시대 (매일경제, 2025)
5. [써봤다] 20초만에 AI로 만든 내 목소리… 콜센터 지형도 바꾸는 휴멜로 '프로소디' (테크M, 2025)
6. "맥락 파악해 목소리 톤·템포 조율…보이스 AI 시대 열겠다" (매일경제, 2025)
7. 네카오가 픽한 AI 스타트업들…차세대 '비밀무기' 될까 (SR타임스, 2025)
8. AI 기업 휴멜로, LLM 아닌 '니치'에서 길 찾았다…보이스에 집중해 자체 파운데이션 모델 (테크M, 2025)
9. 휴멜로, TTS 음질 '48kHz 스튜디오'급으로 업샘플링하는 기술 공개 (바이라인네트워크, 2025)
10. 휴멜로, 부산 '국제스트리밍페스티벌'에서 차세대 AI 보이스 공개 (로봇신문, 2025)
11. [AI 혁명] AI와 실시간 음성 대화…'양방향 TTS' 목표 휴멜로 (아시아경제, 2025)
12. 휴멜로, 글로벌 K-FAST 얼라이언스에 AI 미디어 기술 분야 합류 (AI타임스, 2025)
13. 소리 분석해 사고 막고 품질 검사까지…듣는 AI가 뜬다 [긱스] (한국경제, 2024)
14. 센슈얼 오디오 플랫폼 '플링(PLING)', 맞춤형 AI 보이스 기능 도입 (경향신문, 2023)
15. AI로 찾아온 나 너 우리…추모와 회상의 방식도 '디지털화' (매일경제, 2023)
16. 고(故)유상철 감독이 카타르 월드컵 응원할 수 있었던 이유는 (한국일보, 2023)
17. AI의 마법… 20대 윤여정 30대 최민식을 재현하다 (문화일보, 2023)
18. '밀리의 서재'가 성우 연예인 대신 AI 목소리 쓰는 이유 (디지털데일리, 2023)
19. "나만의 AI 목소리 만든다"…KT '마이 AI 보이스' 출시 (뉴스1, 2022)
20. [쫌아는기자들] 감정을 표현하고 노래도 하는 음성합성 엔진, 휴멜로 (조선일보, 2021)
* ['26] 딥테크 TIPS 2026 선정
* ['25] 글로벌 K-FAST 얼라이언스 사업자 선정
* ['24] 기술보증기금 보증 승인 획득
* ['24] Post-TIPS 성장 지원 대상 기업 선정
* ['23] KOREA AI STARTUP TOP100 선정
* ['22] 2022 서울시 R&D 성과 우수 투자부문 서울시장 표창
* ['22] KT Partner Award 대상
* ['22] KT DIGICO 공모전 선정
[R&D] Voice AI Research Scientist — Multi-turn Conversational TTS
[Position Overview]
본 포지션은 휴멜로의 자체 TTS 엔진 DIVE의 연구·개발을 담당합니다. DIVE는 현재 프로덕션 단계에서 실시간 스트리밍 합성에 사용되고 있으며, 다음 단계로 멀티턴 대화 환경에서도 자연스럽게 동작하는 TTS로 확장해 나가는 연구가 중심 주제입니다.
우리가 지금 푸는 문제
1. 맥락 인지 대화형 TTS — 지금까지 "알아서 맥락을 파악해 대화하듯 말하는 TTS"는 GPT-4o, Moshi 같은 블랙박스 E2E 모델에서만 가능했습니다. 대신 이 방식은 외부에서 운율을 제어할 수 없고, 분리형(Cascaded) 방식은 제어는 가능하지만 맥락 인지가 떨어집니다. DIVE는 외부에서 제어 가능한 Glass-box 구조에서 맥락 인지 합성까지 가능한 기반을 이미 갖추고 있으며, 이 강점을 제대로 끌어올리는 것이 이번 연구의 중심 주제입니다.
2. 초저지연 멀티턴 음성 대화 — 48kHz 조건에서 종단간 300ms 이하를 목표로 합니다. Moshi가 200ms·24kHz·제어 불가라면, 우리는 스튜디오급 음질 + 저지연 + 명시적 운율 제어를 동시에 달성하는 것을 목표로 합니다. Full-duplex, Barge-in 탐지, 스트리밍 합성의 자연스러운 흐름 설계가 주요 주제입니다.
3. 스트리밍 대역폭 확장 — 16kHz 저음질을 48kHz 스튜디오 품질로 실시간 복원합니다. 배치 모델 수준의 품질을 유지하면서 저지연 스트리밍에 적합한 접근을 함께 고민하는 과제입니다.
주요업무
* 자체 TTS 엔진 DIVE의 연구·개발
* 맥락 인지 대화형 TTS 연구 — DIVE의 멀티턴 맥락 인지 기반을 Glass-box 구조에서 본격적으로 끌어올리는 연구
* 초저지연 스트리밍 파이프라인 구현 (점진 합성, Barge-in, 전이중 통신)
* 경량 Neural Vocoder·BWE 실시간 최적화
* 자체 10만 시간 규모 다국어 학습 데이터셋 기반 모델 학습·평가
* Prosody Console(B2B)·Tikita(B2C) 서비스에 연구 결과 즉시 A/B 이식 및 지표 검증
* 연구 성과를 국제 학회·저널 논문으로 정리·투고 (Interspeech, ICASSP, ACL/EMNLP, IEEE/ACM TASLP 등)
* 관련 기술 특허 발명자로 참여
* 음성 합성(TTS)·음성 인식·대화 시스템·LLM 중 하나 이상에서 석사 이상 + 연구/개발 3년 이상 (박사는 연차 무관)
* 딥러닝 프레임워크로 모델 설계·학습·추론을 직접 수행해 본 실무 경험 (프레임워크 종류는 무관)
* 수백~수천 시간 규모 음성 데이터 학습 파이프라인 운영 경험
* 딥러닝·신호처리·음운론 기초 (mel-spectrogram, STFT, F0, prosody 이해)
* 영어 논문 독해·재현 및 1저자 논문 작성 의지
아래는 우대 사항이며 필수 요건이 아닙니다.
* NeurIPS / ICML / ICLR / ACL / EMNLP / Interspeech / ICASSP / TASLP 1저자 논문 실적
* Discrete audio codec / Neural vocoder (HiFi-GAN, BigVGAN, Vocos, SoundStream, Encodec 등) 구현 경험
* LLM 기반 TTS (VALL-E, NaturalSpeech, XTTS, Bark, Spark-TTS 계열) 실험 경험
* 실시간 스트리밍 TTS / Barge-in / Turn-taking 관련 연구·구현
* 양자화(GGUF, GPTQ, AWQ, INT8), torch.compile, vLLM, llama.cpp 최적화 경험
* Voice cloning, Speaker adaptation, Emotional/Prosodic TTS 연구
* 오픈소스 기여 이력 (PyTorch, HuggingFace, llama.cpp, ESPnet 등)
* 한국어 음성학·자음모 음운론 실무
* AICC·IVR·콜센터 또는 B2C 음성 대화 도메인 이해
* 관련 기술 특허 발명자 이력
GitHub PyTorch React Tensorflow Python TypeScript AWS Docker
연구 환경 — 우리가 제공하는 것
프로덕션 검증된 자체 엔진
* DIVE TTS: CPU 추론만으로 실시간 스트리밍 가동 (Apple Silicon M4 기준 RTF 0.27, 일반 x86_64 CPU 기준 RTF 0.5)
* 자체 Voice Cloning 엔진 (2초 레퍼런스로 30초 이내 클로닝)
* 48kHz 스튜디오급 품질, 다국어(한국어·영어·아랍어), 한국어 5개 방언
* 10만 시간 규모 다국어 학습 코퍼스 (뉴스·팟캐스트·상담·방언)
프로덕션 인프라
* 자체 B2B TTS SaaS 콘솔 (Prosody Console)
* 실시간 TTFB·RTF·user feedback 수집 중인 데이터베이스
* NVIDIA GPU 클러스터 + x86/ARM(Apple Silicon) CPU 다중 아키텍처 벤치마크 환경
B2B·B2C 듀얼 검증 루프
* Tikita: 유저 Voice LTV 13.36배 기록 — 실제 사용자의 멀티턴 대화 데이터
* Prosody Console을 통해 고객사가 실제 프로덕션 트래픽에서 DIVE를 사용 중이며, TTFB·사용량·피드백을 실시간으로 수집·분석 가능
논문·특허 작성을 적극 지원하는 환경
* 연구 성과의 국제 학회·저널 논문화를 회사가 적극 지원 — 업무 시간 내 논문 작업, 공동 저자 협업, 리뷰·교정·투고 전 과정 지원
* 타겟 학회/저널: Interspeech, ICASSP, ACL/EMNLP, NeurIPS, ICML, IEEE/ACM TASLP 등
* 학회 참가비·출장비 전액 지원 (국내·해외)
* 사내 리뷰·콜로키움 세션 운영으로 논문 작성 전 피드백 확보
혜택 및 복지
* 전문연구요원 편입 가능
* 4대 보험·퇴직금
* 자율출근제 (7:00~11:00) / 주1회 재택근무제 — 유연한 근무 환경
* 경조사비 및 설/추석 상여금
* 국내외 학회·컨퍼런스 참석 지원 (참가비·출장비 전액)
* 업무 장비 MacBook Pro, 듀얼 모니터, GPU·연구 장비 지원
* Claude Code, Codex 등 AI 개발 도구 라이선스 지원
* 강남역 4번출구 도보 3분 근무지
[전형 절차] • 서류 전형 * 자유 양식의 국문 또는 영문 이력서를 제출해 주시면 내부 검토를 통해 서류 전형 합격 여부를 안내 드립니다. * 직무 경험과 역량이 잘 드러나도록 상세히 작성해 주시는 것이 유리합니다. * 논문, arXiv 링크, 깃허브, 개인 블로그, 포트폴리오 등의 첨부를 권장합니다. • 1차 실무진 인터뷰 * 서류 합격자를 대상으로 1시간 가량 실무진 인터뷰를 진행합니다. * 연구 경험·접근 방식·프로젝트 히스토리에 대해 심도 있는 대화를 나눕니다. * 휴멜로의 기술 스택과 문화에 대해서도 설명 드리는 시간을 가집니다. * 방문 또는 온라인 면접으로 진행되며 편안한 마음으로 임해 주시면 좋겠습니다. • (필요시) 과제 전형 * 1차 면접 이후 필요에 따라 과제 전형이 추가될 수 있습니다. * 과제의 경우 대화형·저지연 TTS 관련 주제가 주어지며, 일주일 내외로 수행하시게 됩니다. * 결과물은 2차 면접 진행 여부 결정에 종합적으로 참고됩니다. • 2차 리더십 인터뷰 * 1차 인터뷰 합격자를 대상으로 2차 인터뷰를 진행합니다. * 최고 경영진과 함께 진행되는 30분 가량의 인터뷰로, 후보자의 비전과 가치관·커뮤니케이션 스타일·문제 해결 능력 등을 종합적으로 평가합니다. * 휴멜로와의 culture fit을 가장 중요하게 보며, 서로에 대한 궁금한 점을 편하게 나누는 자리입니다. • (필요시) 레퍼런스 체크 * 2차 인터뷰 후 합격 가능성이 높은 분들을 대상으로 레퍼런스 체크를 진행합니다. * 직무 관련성이 높은 분들로부터 업무 능력과 성품에 대한 피드백을 받는 절차입니다. * 1~2분 정도의 레퍼런스 리스트 제출을 요청 드릴 예정입니다. • 처우 협의 * 레퍼런스 체크 결과를 바탕으로 최종 합격이 결정되면 처우 협의를 진행합니다. * 희망 연봉 수준을 전달해 주시면 검토 후 협의를 진행하고, 조율이 완료되면 최종 offer를 드립니다. * 평가 과정에서 인상 깊었던 점, 보완이 필요한 점 등에 대한 피드백도 함께 드립니다. • 최종 합격 및 온보딩 * 처우 협의가 완료되면 입사일 조율 후 최종 합격 통보를 드립니다. * 오퍼레터 수령 후 사내 온보딩 절차에 따라 입사를 진행하시게 됩니다. * 휴멜로 합류를 진심으로 축하 드리며, 앞으로 함께 힘차게 나아가기를 기대하겠습니다! [유의 사항] * 각 전형은 역량과 경험에 따라 축소 또는 생략될 수 있으며, 필요시 추가 인터뷰가 진행될 수 있습니다. * 국가유공자 및 장애인 등 취업 보호 대상자는 관계 법령에 따라 우대합니다. * 지원 서류에 허위 사실이 발견될 경우 합격이 취소될 수 있습니다. * 제출하신 서류는 채용을 위한 검증 목적으로만 이용되며, 채용 절차법을 준수하고 있습니다. 휴멜로의 채용 프로세스는 후보자 분들과 허들 없이 소통하며 서로에 대해 알아가는 과정입니다. 편안한 마음으로 임해 주시되, 열정과 역량을 마음껏 어필해 주시기 바랍니다. 저희도 최선을 다해 후보자 분들의 궁금증을 해소하고, 휴멜로에 대해 상세히 설명 드리도록 하겠습니다. 긍정적이고 유익한 채용 경험이 되시기를 진심으로 바라겠습니다.