ROBROS는 멀티모달 로봇(Vision, State, Force 등) 데이터를 기반으로, 실제 작업 환경에서 안정적으로 동작하는 자율 휴머노이드 및 로봇 지능을 구현하기 위해 학습 인프라를 고도화하고 있습니다.
본 포지션은 Training Infrastructure Engineer로서, ROBROS의 학습 클러스터 설계 및 운영, 대규모 분산 학습 프레임워크와 도구 개발, 데이터 로딩·전처리·실험 자동화·CI/CD 등을 담당합니다. 이를 통해 연구자가 더 빠르게 모델을 개발하고 반복 실험할 수 있는 환경을 구축하는 것을 핵심 목표로 합니다.
주요 업무
학습 클러스터 설계·구축·운영
ROBROS의 GPU 학습 클러스터 설계, 배포, 운영 및 모니터링
자원(GPU/CPU/스토리지/네트워크) 효율 최적화 및 장애 대응 체계 구축
연구 및 학습 워크로드 특성에 맞는 클러스터 운영 표준 및 가이드라인 수립
대규모 딥러닝 학습 프레임워크/플랫폼 아키텍처 설계
대규모 로봇 데이터셋을 대상으로 한 확장 가능한 학습 파이프라인 설계 및 유지보수
연구 생산성을 높이는 공통 라이브러리(훈련 루프, 체크포인트, 로깅, 재현성 등) 개발
모델, 데이터, 실험의 재현성과 추적성을 강화하는 실험 관리 체계 구축
분산 학습 및 병렬화 전략 구현
모델 개발 사이클 단축을 위한 분산 학습(Distributed Training) 및 병렬화 전략 구현
DDP/FSDP, 텐서/파이프라인/데이터 병렬화, 혼합 정밀도(Mixed Precision), 체크포인팅 등 적용
대규모 학습에서 발생하는 통신, I/O, 메모리 병목 현상을 측정·분석하고 최적화
데이터 로더 및 데이터 처리 도구 개발
로봇 멀티모달 데이터(영상, 센서, State, Action 등) 기반의 고성능 데이터 로더 개발
데이터 전처리, 샤딩(Sharding), 캐싱, 데이터 증강 파이프라인 구축을 통한 GPU 활용도(Utilization) 향상
데이터 품질, 스키마, 버전 관리 및 재현 가능한 데이터 실험 환경 제공
개발자 도구 및 CI/자동화 파이프라인 구축
연구자가 쉽게 확장하고 디버깅할 수 있는 개발자 툴링(템플릿, CLI, 리포트 기능 등) 제공
운영 표준(런북, 온콜, 알림, 대시보드) 정립
자격요건
탄탄한 소프트웨어 엔지니어링 기본기 (설계, 디버깅, 테스트, 운영)
컴퓨터공학, 로보틱스, 공학 등 관련 전공 학사 또는 석사 (혹은 이에 준하는 실무 경력)
Python 및 PyTorch 기반의 실무 개발 경험
딥러닝 학습을 위한 HPC/GPU 클러스터 운영 또는 관리 경험
우대사항
다양한 데이터셋 관련 데이터로더 모듈 구현 경험
안정적인 대규모 백엔드 및 플랫폼 시스템을 2년 이상 개발하고 운영한 경력
클라우드 인프라(AWS, Azure, GCP) 운영 경험
스케줄링/오케스트레이션 도구 활용 경험 (SLURM, Kubernetes 등)
IaC 및 구성 관리 도구 활용 경험 (Terraform, Ansible, Puppet, Chef 등)