[채용] 제틱에이아이 - ML Software Engineer - 제틱에이아이 | 데모데이
제틱에이아이 - ML Software Engineer
제틱에이아이·서울 강남구 역삼로 180·정규직·경력 5년 이상
🔥합격보상지원자, 추천인 각 현금 50만원
회사명
제틱에이아이
포지션
ML Software Engineer
근무지
서울 강남구 역삼로 180
고용형태
정규직
경력
5년 이상
회사 소개
ZETIC.ai는 AI를 GPU Server 없이, 하드웨어 자체에서 실행 가능하게 하는 개발 툴을 제공합니다. Qualcomm, Amazon, Microsoft 등 대형 테크 기업 출신 팀원들이 Seoul & Silicon Valley에서 활발히 활동 중이며, '25년 10월 기준 딥테크팁스 (R&D) 선정, 시드 라운드 10억 이상 유치 및 글로벌 반도체 1위 기업 및 미국 빅테크 기업과 협력 중에 있습니다.
빠르게 변화하는 글로벌 AI 시장의 최전선에서, 최신 온디바이스 AI 기술 트렌드를 조사하고 직접 모바일 환경에서 구동해보며 제품 고도화에 기여할 '모바일 앱 개발 인턴'을 모집합니다.
단순 반복 업무가 아닌, 다양한 AI 추론 엔진과 프레임워크를 직접 다뤄보며 모바일 AI 분야의 전문성을 쌓고 싶은 개발자분의 지원을 기다립니다.
주요 업무
Job Description ML 소프트웨어 엔지니어(온디바이스 AI 모델 최적화)를 모시고 있습니다. 해당 포지션은 LLM과 멀티모달 모델(ASR, TTS, 비전 인코더 등)을 모바일 NPU와 같은 엣지 디바이스에 포팅 및 최적화하는 엔드 투 엔드(End-to-End) 업무를 담당하게 됩니다.
The Role 성능 로드맵(지연 시간, 메모리, 전력/발열)을 책임지고 주도하며, 모델 측면의 최적화 전략을 수립합니다. 또한, 런타임/SDK 및 앱 엔지니어들과 긴밀히 협업하여 실제 서비스 배포를 완수하는 역할을 수행합니다.
Responsibilities
NPU/GPU/CPU 경로에서 LLM 및 멀티모달 워크로드(ASR, TTS, 비전 인코더 등)의 모델 측면 최적화 및 배포를 주도합니다.
지연 시간(Latency), 메모리, 정확도, 배터리 소모 간의 트레이드오프(trade-offs)를 분석하고 성능 목표를 관리합니다.
다음과 같은 모델 최적화 기술을 추진합니다: 양자화(PTQ/QAT), 프루닝(Pruning), 지식 증류(Distillation), 오퍼레이터 퓨전(Operator fusion), KV-캐시 전략, 어텐션 최적화, 스펙큘레이티브 디코딩(Speculative decoding, 해당되는 경우) 등
평가 및 프로파일링 파이프라인을 구축하고 유지 관리합니다: 온디바이스 벤치마크, 회귀 추적(Regression tracking), 정확성 검증 및 성능 대시보드 관리
런타임/SDK 엔지니어와 협업하여 컴파일러 및 런타임 제약 사항(연산 지원 범위, 정밀도, 레이아웃, 스케줄링 등)을 해결합니다.
제품 및 엔지니어링 팀과 협력하여 "출시 가능(ready-to-ship)" 기준을 정의하고, 다양한 디바이스 변체(variants)에서 안정적인 프로덕션 배포를 보장합니다.
자격요건
3년 이상(또는 이에 준하는) ML 시스템 구축 및 상용화 경험과 함께, 실제 서비스 배포를 위한 모델 최적화에 대한 실무 경험을 풍부하게 보유하신 분
딥러닝 기초 원리 및 성능 병목 현상(연산, 메모리 대역폭, 캐시 동작 등)에 대한 깊은 이해가 있으신 분
다음 중 최소 하나 이상의 분야에서 실무 경험이 있으신 분:
1) LLM 추론 최적화 (양자화, 어텐션/KV 캐시, 디코드 타임 성능 등)
2) ASR/TTS 배포 (스트리밍, 지연 시간 제약, 오디오 전/후처리 등)
3) 비전 인코더 최적화 (이미지 전처리, 특징 추출 성능 등)
Python 및 C/C++(또는 이에 상응하는 로우레벨 성능 중심 언어)에 대한 탄탄한 소프트웨어 엔지니어링 기술을 보유하신 분
혼합 정밀도(Mixed precision) 및 양자화된 추론 과정에서의 수치적 문제를 디버깅하고 정확성을 검증해 본 경험이 있으신 분
모호한 제약 조건 속에서도 유연하게 업무를 수행하며, "더 빨라야 한다"는 추상적인 요구를 측정 가능한 엔지니어링 작업으로 전환할 수 있는 역량을 갖추신 분
Required Skillset
엣지/온디바이스 ML 최적화 마인드셋: 지연 시간(Latency), 메모리, 전력, 발열 등을 종합적으로 고려한 최적화 사고방식
양자화(Quantization) 및 혼합 정밀도(Mixed-precision) 추론: PTQ/QAT 기술 및 int8/fp16 전략 활용 능력
성능 프로파일링 및 디버깅: 수치적(Numerical) 정확도 분석 및 시스템 레벨의 디버깅 역량
강력한 엔지니어링 오너십: 기획 구현 벤치마킹 최종 출시(Shipping)에 이르는 전 과정을 주도적으로 이끄는 능력
Must Have
실제 기기에서의 최적화 역량: GPU 서버뿐만 아니라, 실제 디바이스(Real devices)에서 모델의 속도를 실질적으로 개선하거나 크기를 경량화한 검증된 경험
End-to-end 최적화 주도: 명확한 지표(Metrics)와 결과물(Deliverables)을 바탕으로 최적화 작업의 전 과정을 주도할 수 있는 능력
강력한 디버깅 기술: 수치적 정확도(Numerics) 및 성능(Performance) 측면에서의 뛰어난 디버깅 역량
이기종 실행(Heterogeneous execution)에 대한 높은 이해도: NPU/GPU/CPU 간의 폴백(Fallback) 처리를 포함한 이기종 환경에서의 실행에 능숙하신 분
우대사항
모바일/엣지 가속기(NPU/DSP/GPU) 배포 경험 또는 하드웨어 벤더 스택(Hardware vendor stacks)을 다뤄본 직접적인 경험이 있으신 분
모델 컴파일 툴체인 및 성능 분석 도구(프로파일러, 오퍼레이터 레벨 트레이싱, 메모리 분석 등) 사용 경험이 있으신 분
외부 개발자가 사용하는 SDK 또는 추론 런타임(Inference runtimes)을 출시/배포해 본 경험이 있으신 분
멀티 디바이스 배포의 실제 환경(디바이스 파편화, 폴백 경로(Fallback paths), 기능 감지, 재현성 등)에 대한 이해도가 높으신 분
Preferred Skills
LLM 특화 최적화: KV 캐시, 어텐션 변형(Attention variants), 배칭/스트리밍 디코드(Batching/streaming decode), 토크나이저 및 성능 관련 고려 사항
스트리밍 ASR/TTS를 위한 오디오 파이프라인 최적화
다양한 모델 아키텍처에 대한 이해: 트랜스포머(Transformers), 컨포머(Conformers), 디퓨전 보코더(Diffusion-vocoders) 등 (해당되는 경우)
유관 부서와의 협업: 런타임, 컴파일러, 앱, 제품팀 등과의 크로스 펑셔널(Cross-functional) 협업 능력
복지 및 혜택
성장: Qualcomm, MS, Amazon 출신의 Global Top-tier 팀과 밀접한 협업 및 코드 리뷰
입사 지원 > 1차 화상 면접 > 2차 대면 면접 > 처우 협의 > 온보딩 1. 서류 전형
• 필수 정보 - 인적사항: 이름, 연락처, 이메일 - 학력, 경력사항(경력이 없는 경우 신입으로 기재해주세요) - 지원 포지션에 본인이 얼마나 잘 맞는 지 2. 1차 & 2차 면접 전형
• 서류 전형을 통과하신 분들에 한하여 개별로 일정을 전달드립니다.
• 지원 포지션에 해당하는 실무 역량에 대한 화상 면접을 1차로 진행합니다.
• 1차 면접 때 하지 못했던 이야기와 실무, 기업 문화에 대해 알아가는 면접을 2차로 진행합니다.
• 직무 특성에 따라 필요 시, 추가 인터뷰 또는 코딩 테스트를 진행할 수 있습니다. 3. 처우 협의
• 급여 및 처우 관련 사항은 면접 전형을 모두 통과하신 분들께 별도로 안내해드립니다.
• 경력직의 경우 평판조회 절차가 추가될 수 있습니다. -------------------------------------------------- * 정규직 채용의 경우 지원자에 따라 3개월의 수습기간이 있을 수 있습니다. 단, 수습 기간 동안 대우에 차별을 두지 않습니다. * 제출한 서류가 사실과 다른 경우 채용이 취소될 수 있습니다.