[채용] 빅인사이트 - Data Platform Engineer - 빅인사이트 | 데모데이
빅인사이트 - Data Platform Engineer
빅인사이트·서울 강남구 도산대로6길 12·정규직·경력 5년 이상
🔥합격보상지원자, 추천인 각 현금 50만원
회사명
빅인사이트
포지션
Data Platform Engineer
근무지
서울 강남구 도산대로6길 12
고용형태
정규직
경력
5년 이상
기술 스택
Java, RDBMS, Spring Boot
회사 소개
[합류하게 될 팀의 미션] 빅인은 고객의 데이터를 분석하고 마케팅 자동화 솔루션을 통해 비즈니스 성장을 견인하는 B2B SaaS 기업입니다.
AWS 기반의 대규모 데이터 플랫폼을 운영하고 고도화할 Data Platform Engineer를 찾습니다. 현재 저희는 AWS EKS 환경에서 Argo Workflows, Apache Iceberg, MongoDB, Vitess, ClickHouse, Flink 등 다양한 최신 데이터 스택을 활용하여 워크로드를 운영하고 있습니다. 단순한 데이터 파이프라인 개발에 그치지 않고, 플랫폼의 안정적인 동작을 위한 인프라 운영, 데이터 저장소 관리, 장애 대응부터 리소스 및 비용 최적화까지 플랫폼 전반의 엔지니어링을 주도적으로 담당하시게 됩니다.
주요 업무
AWS EKS 기반 데이터 플랫폼 운영 및 개선
Argo Workflows 기반 배치/데이터 처리 파이프라인 설계, 운영, 장애 대응
Go 또는 Python을 활용한 데이터 처리 도구, 운영 자동화 도구, 내부 CLI 개발
Apache Iceberg 기반 데이터 레이크 테이블 운영
S3 기반 데이터 적재, 변환, 검증, backfill 파이프라인 관리
MongoDB 기반 데이터 저장소 운영, 스키마 설계, 인덱스/쿼리 성능 개선
Vitess/MySQL sharding 환경 운영 및 장애 대응
ClickHouse 기반 OLAP/분석 워크로드 운영 및 성능 최적화
Flink 기반 streaming/batch 워크로드 운영
Kubernetes 리소스 request/limit, HPA, Karpenter, nodegroup 기반 스케일링 최적화
StatefulSet, PVC/PV, PDB, anti-affinity 등 stateful workload 운영 안정성 관리
Prometheus/Grafana 기반 모니터링 지표 정의 및 알람 개선
AWS 비용 구조를 고려한 리소스 최적화
장애 발생 시 로그, 메트릭, 이벤트 기반 원인 분석 및 재발 방지
자격요건
## Responsibilities
AWS EKS 기반 데이터 플랫폼 운영 및 개선
Argo Workflows 기반 배치/데이터 처리 파이프라인 설계, 운영, 장애 대응
Go 또는 Python을 활용한 데이터 처리 도구, 운영 자동화 도구, 내부 CLI 개발
Apache Iceberg 기반 데이터 레이크 테이블 운영
S3 기반 데이터 적재, 변환, 검증, backfill 파이프라인 관리
MongoDB 기반 데이터 저장소 운영, 스키마 설계, 인덱스/쿼리 성능 개선
Vitess/MySQL sharding 환경 운영 및 장애 대응
ClickHouse 기반 OLAP/분석 워크로드 운영 및 성능 최적화
Flink 기반 streaming/batch 워크로드 운영
Kubernetes 리소스 request/limit, HPA, Karpenter, nodegroup 기반 스케일링 최적화
StatefulSet, PVC/PV, PDB, anti-affinity 등 stateful workload 운영 안정성 관리
Prometheus/Grafana 기반 모니터링 지표 정의 및 알람 개선
AWS 비용 구조를 고려한 리소스 최적화
장애 발생 시 로그, 메트릭, 이벤트 기반 원인 분석 및 재발 방지
## Required Qualifications
AWS 기반 서비스 운영 경험
Kubernetes 또는 EKS 운영 경험
Argo Workflows, Airflow, Dagster 등 workflow orchestration 운영 경험
Python 또는 Go 중 하나 이상을 활용한 데이터 처리/운영 자동화 개발 경험
대용량 데이터 파이프라인 운영 경험
Linux, shell scripting, kubectl 기반 문제 분석 능력
Kubernetes pod scheduling, resource request/limit, HPA, PVC/PV 등 기본 개념 이해
RDBMS, NoSQL, OLAP 중 하나 이상에 대한 운영 또는 성능 개선 경험
장애 상황에서 로그와 메트릭을 기반으로 원인을 좁혀갈 수 있는 능력
## What Makes A Strong Fit
데이터 파이프라인과 Kubernetes 운영을 함께 볼 수 있는 분
실패한 워크플로우를 단순 재실행하지 않고 원인과 재발 방지까지 보는 분
DB, 스토리지, 워크플로우, 인프라를 분리해서 보지 않고 전체 병목을 추적할 수 있는 분
배치 처리의 idempotency, backfill, retry, 중복 처리 문제를 중요하게 생각하는 분