딥오토 - MLOps & Site Reliability Engineer(AI Platform)
딥오토·서울 강남구 테헤란로 216, 7층 딥오토·정규직·신입
🔥합격보상지원자, 추천인 각 현금 50만원
회사명
딥오토
포지션
MLOps & Site Reliability Engineer(AI Platform)
근무지
서울 강남구 테헤란로 216, 7층 딥오토
고용형태
정규직
경력
신입
회사 소개
<About the Team>
DeepAuto.ai는 KAIST AI대학원 교수와 연구원이 창립한 스타트업으로, GenAI 기술과 아이디어를 기업용 제품으로 만들고 있습니다.
DeepAuto.ai Platform 팀은 기업 고객들과 긴밀하게 소통하여 고객들의 Use Case를 깊게 이해하고, 내부 연구자들이 개발한 기술을 활용하여 엔터프라이즈 SaaS 제품을 설계 및 구축하고 있습니다. 또한, 개발조직으로서 개발생산성과 안정성을 균형있게 고려해 좋은 개발문화, 좋은 엔지니어링 환경을 만들어나가고 있습니다.
Pre-A 단계의 초기 GenAI 스타트업의 팀 초기 멤버로서 Agentic AI 제품과 함께 빠른 성장을 같이 경험해 보실 분을 찾고 있습니다.
주요 업무
<직무 개요> DeepAuto.ai 는 AWS 및 각종 Neocloud 에 NVIDIA GPU 서버를 구매하고 있습니다. 현재 다수의 H100을 보유중이며, H200, B200 으로 확장 이전 중에 있습니다. 이렇게 자체적으로 확보한 GPU 를 가지고 오픈소스 모델을 서빙하고 있습니다. 또한 이 GPU 들을 추론뿐 만아니라 RL, 파인튜닝 및 OCR 등에 폭넓게 이용하고 있습니다. MLOps & Site Reliability Engineer (AI Platform)는 이 GPU 들을 이용한 클라우드 인프라를 구축 및 관리하며, 긍극적으로는 Agentic AI 프로덕트를 위한 플랫폼 서비스 인프라를 만듭니다. 또한 필요시 고객 인프라에 저희 서비스를 구축하기도 합니다. 마지막으로, 지속가능하고 확장성 있는 ML 연구개발을 위한 방법론을 고민하고 해결해 나갑니다.
<주요 업무>
연구, 개발 및 배포에 필요한 요구사항을 분석하여 필요한 클라우드 인프라를 구축, 관리
플랫폼 서비스 인프라: AWS, 쿠버네티스 및 Third-party SaaS 등
MLOps 및 리서치 인프라: SkyPilot/SLURM/Ray 기반 ML 연구 환경, MLflow 등
서빙 인프라: SGLang, vLLM
프로덕트 (HTTP API, 워커, DB 등) 의 CI/CD 관리
On-prem, 하이브리드 클라우드를 포함한 엔터프라이즈 고객에 필요한 다양한 배포방식 설계