| 회사명 | 로브로스 |
|---|
| 포지션 | AI Research Scientist - Reinforcement Learning |
|---|
| 근무지 | 서울 성동구 연무장5가길 25, 602호 |
|---|
| 고용형태 | 정규직 |
|---|
| 경력 | 신입 |
|---|
회사 소개
ROBROS는 Multimodal Robot Manipulation 모델에 강화학습 (Reinforcement Learning; RL)을 적용하여 실험실을 벗어나 실제 작업 환경에서도 안정적으로 동작하게 만들 인재를 찾고 있습니다.
본 포지션은 Multimodal Manipulation Model에 맞는 RL 알고리즘을 연구·개발하고, imitation learning만으로는 학습이 어려운 고난도 행동을 효율적, 효과적으로 학습시키는 것을 핵심 목표로 합니다.
주요 업무
Multimodal Model에 적용 가능한 강화학습 알고리즘 연구·개발
- Diffusion / Flow-matching / Auto-regressive 기반의 Multimodal 모델에 강화학습을 효과적으로 적용하기 위한 알고리즘 연구
- Imitation learning만으로는 어려운 Robot behavior를 효과적으로 학습시키는 강화학습 방법 연구
Offline-to-online 강화학습을 통한 모델 개선
- 기존에 수집한 offline data를 최대한 활용하는 offline-to-online sample-efficient 알고리즘 연구
- offline-to-online 강화학습을 모델 개발에 효율적으로 적용하기 위한 파이프라인 개발
Manipulation task에 적합한 reward model 연구·개발
- Multimodal 데이터를 활용하며 복합적인 task를 성공적으로 풀기 위한 최적의 reward model 연구·개발
정책 학습/배포 및 성능 평가
- Robot Manipulation Task를 위한 강화학습 알고리즘 개발, 학습, 배포
- 학습된 정책의 성능 지표를 정의하고 테스트 및 평가
연구 결과 검증 및 협업
- 시뮬레이션 및 실제 로봇 환경에서 모델 성능을 종합적으로 테스트하고 분석
- 학습 Model을 실제 로봇에 적용하기 위해 하드웨어/소프트웨어 팀과 협업 수행
자격요건
AI, 로보틱스 등 관련 분야 석사/박사학위 소지자 또는 이에 준하는 경력
탄탄한 머신러닝/딥러닝 지식
- Neural Network, Transformers, Diffusion, Flow Matching 등 핵심 모델 구조에 대한 깊은 이해 및 실무 활용 능력
모방학습 (IL) 및 강화학습 (RL) 이해 및 적용 경험
- IL / RL 알고리즘(Q-learning, Policy Gradients 등) 적용 경험
- Online/Offline RL 알고리즘(PPO, SAC 등)에 대한 이해 및 활용 경험
- domain randomization, curriculum learning, reward shaping 등 일반적인 RL 기법에 대한 친숙함
시뮬레이션 또는 실제 환경에서의 정책 학습 경험
- 시뮬레이션 또는 실제 Robot 환경에서 정책을 학습·검증해 본 경험
프로그래밍 및 엔지니어링 역량
- Python, C++ 등을 활용한 로보틱스 AI 모델 개발 및 최적화 능력
- PyTorch로 프로덕션 수준의 코드 작성 경험
- Git 등 버전 관리 시스템 활용 능력
깊은 수학적 기반
- 확률/통계 이론, 최적화 이론, 강화학습 등에 대한 탄탄한 수학적 기반
협업 및 커뮤니케이션 역량
지원자의 자격 요건은 논문 작성이나 풍부한 연구 경험으로 뒷받침될 수 있습니다.
우대사항
로보틱스 또는 자율주행 프로젝트 경험
- ROS, 시뮬레이션 툴(MuJoCo, Gazebo 등)을 활용한 실제 로봇/가상 환경에서의 모델 통합 경험
데이터 파이프라인 및 MLOps 경험
- 데이터 관리, 모델 서빙, CI/CD 등 머신러닝 라이프사이클 자동화 경험
분산·병렬 학습 환경 경험
- GPU 클러스터 또는 HPC 환경 등에서 대규모 모델 학습 및 최적화 경험
논문 작성 및 Conference 발표 경험
- ICLR, ICML, NeurIPS, ACL (ACL, EMNLP, NAACL), ICRA, IROS, IROS, RSS, CoRL 등 Top-tier ML, 로보틱스 Conference/Journal에 1저자 논문 게재 및 발표 경험
복지 및 혜택
- 생일 휴가 제공
- 스낵바 무제한 이용 가능
- 연 2회 명절 선물 지급
- 자기계발비(학회, 세미나, 워크샵 등) 지원
지원 방법
원티드에서 지원하기