회사명	빅인사이트
포지션	Data Platform Engineer
근무지	서울 강남구 도산대로6길 12
고용형태	정규직
경력	5년 이상
기술 스택	Java, RDBMS, Spring Boot

회사 소개

[합류하게 될 팀의 미션]
빅인은 고객의 데이터를 분석하고 마케팅 자동화 솔루션을 통해 비즈니스 성장을 견인하는 B2B SaaS 기업입니다.

AWS 기반의 대규모 데이터 플랫폼을 운영하고 고도화할 Data Platform Engineer를 찾습니다.
현재 저희는 AWS EKS 환경에서 Argo Workflows, Apache Iceberg, MongoDB, Vitess, ClickHouse, Flink 등 다양한 최신 데이터 스택을 활용하여 워크로드를 운영하고 있습니다.
단순한 데이터 파이프라인 개발에 그치지 않고, 플랫폼의 안정적인 동작을 위한 인프라 운영, 데이터 저장소 관리, 장애 대응부터 리소스 및 비용 최적화까지 플랫폼 전반의 엔지니어링을 주도적으로 담당하시게 됩니다.

주요 업무

AWS EKS 기반 데이터 플랫폼 운영 및 개선
Argo Workflows 기반 배치/데이터 처리 파이프라인 설계, 운영, 장애 대응
Go 또는 Python을 활용한 데이터 처리 도구, 운영 자동화 도구, 내부 CLI 개발
Apache Iceberg 기반 데이터 레이크 테이블 운영
S3 기반 데이터 적재, 변환, 검증, backfill 파이프라인 관리
MongoDB 기반 데이터 저장소 운영, 스키마 설계, 인덱스/쿼리 성능 개선
Vitess/MySQL sharding 환경 운영 및 장애 대응
ClickHouse 기반 OLAP/분석 워크로드 운영 및 성능 최적화
Flink 기반 streaming/batch 워크로드 운영
Kubernetes 리소스 request/limit, HPA, Karpenter, nodegroup 기반 스케일링 최적화
StatefulSet, PVC/PV, PDB, anti-affinity 등 stateful workload 운영 안정성 관리
Prometheus/Grafana 기반 모니터링 지표 정의 및 알람 개선
AWS 비용 구조를 고려한 리소스 최적화
장애 발생 시 로그, 메트릭, 이벤트 기반 원인 분석 및 재발 방지

자격요건

## Responsibilities

AWS EKS 기반 데이터 플랫폼 운영 및 개선
Argo Workflows 기반 배치/데이터 처리 파이프라인 설계, 운영, 장애 대응
Go 또는 Python을 활용한 데이터 처리 도구, 운영 자동화 도구, 내부 CLI 개발
Apache Iceberg 기반 데이터 레이크 테이블 운영
S3 기반 데이터 적재, 변환, 검증, backfill 파이프라인 관리
MongoDB 기반 데이터 저장소 운영, 스키마 설계, 인덱스/쿼리 성능 개선
Vitess/MySQL sharding 환경 운영 및 장애 대응
ClickHouse 기반 OLAP/분석 워크로드 운영 및 성능 최적화
Flink 기반 streaming/batch 워크로드 운영
Kubernetes 리소스 request/limit, HPA, Karpenter, nodegroup 기반 스케일링 최적화
StatefulSet, PVC/PV, PDB, anti-affinity 등 stateful workload 운영 안정성 관리
Prometheus/Grafana 기반 모니터링 지표 정의 및 알람 개선
AWS 비용 구조를 고려한 리소스 최적화
장애 발생 시 로그, 메트릭, 이벤트 기반 원인 분석 및 재발 방지

## Required Qualifications

AWS 기반 서비스 운영 경험
Kubernetes 또는 EKS 운영 경험
Argo Workflows, Airflow, Dagster 등 workflow orchestration 운영 경험
Python 또는 Go 중 하나 이상을 활용한 데이터 처리/운영 자동화 개발 경험
대용량 데이터 파이프라인 운영 경험
Linux, shell scripting, kubectl 기반 문제 분석 능력
Kubernetes pod scheduling, resource request/limit, HPA, PVC/PV 등 기본 개념 이해
RDBMS, NoSQL, OLAP 중 하나 이상에 대한 운영 또는 성능 개선 경험
장애 상황에서 로그와 메트릭을 기반으로 원인을 좁혀갈 수 있는 능력

## What Makes A Strong Fit

데이터 파이프라인과 Kubernetes 운영을 함께 볼 수 있는 분
실패한 워크플로우를 단순 재실행하지 않고 원인과 재발 방지까지 보는 분
DB, 스토리지, 워크플로우, 인프라를 분리해서 보지 않고 전체 병목을 추적할 수 있는 분
배치 처리의 idempotency, backfill, retry, 중복 처리 문제를 중요하게 생각하는 분
비용과 안정성 사이의 트레이드오프를 숫자로 판단할 수 있는 분
반복적인 운영 작업을 코드와 자동화로 줄이는 분
데이터 품질, 처리 지연, 리소스 병목을 운영 지표로 관리하려는 분

## Tech Stack
| Area | Stack |
| --- | --- |
| Cloud | AWS |
| Orchestration | EKS, Kubernetes, Karpenter, HPA |
| Workflow | Argo Workflows |
| Data Lake | Apache Iceberg, S3, Glue Catalog |
| Data Processing | Go, Python, Shell |
| Data Stores | MongoDB, Vitess/MySQL, ClickHouse |
| Streaming/Batch | Flink, batch processing workloads |
| Observability | Prometheus, Grafana, Kubernetes events/logs |
| Cost/Infra | EC2 nodegroups, Savings Plan, RI, EBS, S3 |

## Interview Topics

Argo Workflow 실패 원인 분석 및 재처리 전략
EKS nodegroup별 request/limit 기준 비용 절감 후보 분석
Iceberg 테이블의 small file, compaction, snapshot expire 전략
MongoDB slow query/index 문제 분석
Vitess vttablet/vtgate 장애 시 원인 분석 접근법
ClickHouse partition/merge/query 성능 문제 해결 경험
Python 또는 Go로 Kubernetes 리소스 사용량을 집계하는 CLI 설계
S3 기반 데이터 파이프라인에서 idempotency와 backfill 설계

## Evaluation Criteria

지원자를 볼 때는 특정 기술 키워드 개수보다 아래 기준을 우선합니다.

AWS EKS 위에서 데이터 워크로드를 실제로 운영해본 경험이 있는가
Argo Workflows 또는 유사한 workflow system에서 실패/재처리/백필을 다뤄본 경험이 있는가
Python 또는 Go로 운영 자동화를 직접 만들어본 경험이 있는가
MongoDB, Vitess, ClickHouse 중 하나 이상을 운영 관점에서 깊게 다뤄본 경험이 있는가
Kubernetes 리소스와 AWS 비용을 연결해서 판단할 수 있는가
장애 상황에서 로그, 메트릭, 이벤트, 리소스 상태를 보고 원인을 좁혀갈 수 있는가

우대사항

Apache Iceberg 운영 경험
S3 + Glue Catalog + Athena/Spark/Flink 기반 데이터 레이크 운영 경험
MongoDB 운영 경험
Replica set 운영
Index tuning
Aggregation pipeline 최적화
Backup/restore 운영
Vitess 운영 경험
vttablet, vtgate 운영
resharding
backup/restore
query routing 및 장애 대응
ClickHouse 운영 경험
MergeTree 계열 엔진 이해
partitioning
replication
distributed table
query tuning
Go 기반 Kubernetes tool/controller/operator 개발 경험
Python 기반 데이터 처리 경험
PySpark
Pandas
Polars
Flink streaming/batch job 운영 경험
Karpenter 운영 경험
Prometheus/Grafana 대시보드 및 알람 설계 경험
AWS 비용 최적화 경험
Savings Plan
RI
EC2
EBS
S3
Stateful workload 운영 경험
StatefulSet
PDB
Anti-affinity
Volume lifecycle

기술 스택

Java RDBMS Spring Boot

복지 및 혜택

3호선 신사역 도보 2분 거리에 위치
최신 업무장비 지원
사내 카페테리아 커피 및 스낵 지원
유연근무제 운영
고급 건강검진 패키지 제공
생일/명절 상품권 지급
자유로운 연차사용
임직원 경조사 지원

지원 방법

원티드에서 지원하기

빅인사이트 - Data Platform Engineer