Moreh는 AMD/NVIDIA GPU 및 다양한 AI 가속기로 구성된 대규모 이기종(Heterogeneous) 클러스터에서 고성능·고효율 AI 추론 서비스를 제공하기 위한 시스템 소프트웨어를 개발하고 있습니다.
Research Engineer는 최신 LLM 및 AI Agent 기술을 분석하고, 대규모 추론 워크로드를 효율적으로 처리하기 위한 시스템 아키텍처와 최적화 기법을 연구·개발합니다. 또한 최신 논문 및 오픈소스 프로젝트를 기반으로 새로운 추론 기술을 검증하고 실제 서비스 환경에 적용 가능한 형태로 발전시키는 역할을 수행합니다.
주요 업무
1. AI Agent Research
오픈소스 모델 기반 AI Agent 및 Coding Agent 시스템 연구·개발
Agent Workflow 설계 및 성능 평가 체계 구축
최신 Agent 기술 및 오픈소스 프로젝트 분석·적용
Agent Serving 및 Multi-Agent System 연구
2. AI Inference Systems Research
KV Cache Compression, Speculative Decoding, Semantic Routing, Prefix Caching 등 최신 추론 최적화 기술 연구
LLM 추론 워크로드 분석 및 성능 모델링
최신 추론 프레임워크(vLLM, SGLang 등) 분석 및 개선
추론 품질(Quality), 비용(Cost), 지연시간(Latency) 간 Trade-off 분석
대규모 GPU/NPU 클러스터 환경에서의 추론 시스템 설계 및 최적화
최신 AI 시스템 논문 구현, 검증 및 성능 평가
자격요건
컴퓨터공학 또는 관련 분야 석사 이상, 혹은 이에 준하는 연구·개발 경험
Python 기반 소프트웨어 개발 경험
AI 시스템 소프트웨어 또는 분산 시스템에 대한 이해
LLM 및 생성형 AI 기술에 대한 이해
새로운 기술을 빠르게 학습하고 실험할 수 있는 역량
문제를 정의하고 가설 수립, 실험 설계, 결과 분석을 주도적으로 수행할 수 있는 역량
팀워크를 중시하고, 긍정적인 태도로 동료들과 적극적으로 협력할 수 있으신 분
우대사항
1. 연구 경험
컴퓨터공학 또는 관련 분야 박사 학위, 혹은 이에 준하는 연구 경력
ML Systems, Computer Architecture, Distributed Systems, Operating Systems, Compiler, Database 등 관련 분야 연구 경험
AI 추론 최적화 기술(KV Cache Compression, Speculative Decoding, Routing, Quantization, Parallelism 등) 연구 경험
주요 학술대회(NSDI, OSDI, SOSP, EuroSys, ASPLOS, ISCA, MICRO, HPCA, MLSys, NeurIPS, ICML, ICLR 등) 논문 게재 또는 이에 준하는 연구 성과
2. 시스템 및 GPU 프로그래밍
CUDA, ROCm, Triton, OpenCL, TileLang 등 GPU 프로그래밍 경험