노타(Nota)·서울 강남구 테헤란로 521, 파르나스타워 16층 Nota·정규직·경력 5년 이상
🔥합격보상지원자, 추천인 각 현금 50만원
회사명
노타(Nota)
포지션
[Infra] Senior System Engineer
근무지
서울 강남구 테헤란로 521, 파르나스타워 16층 Nota
고용형태
정규직
경력
5년 이상
기술 스택
PyTorch, Tensorflow
회사 소개
AI for everyone, everywhere AI를 누구에게나, 어디에서나
노타는 AI 최적화 기술을 통해 AI의 일상화를 선도하는 기업입니다.
우리는 다양한 디바이스와 산업 전반에 걸쳐, 누구나 어디서나 AI를 사용할 수 있는 세상을 만들고자 합니다.
노타의 핵심 제품인 넷츠프레소(NetsPresso)는 하드웨어의 특성을 이해하는 AI 모델 최적화 플랫폼입니다. 또한, 차세대 영상 관제 솔루션 (NVA: Nota Vision Agent), 지능형 교통 시스템(ITS) 등 온디바이스 생성형 AI 솔루션을 통해 실제 산업 현장에서의 AI 실현 가능성을 넓히고 있습니다.
국내 스타트업으로는 최초로 삼성과 LG의 투자 유치 기록을 보유하고 있으며, 네이버 DS2F의 첫 투자 기업이기도 합니다. 최근에는 두바이 교통국과의 AI 솔루션 공급 계약을 체결하고, CB Insights AI 100에도 선정되는 등 글로벌 무대에서의 성과를 이어가고 있습니다.
노타는 빠르게 성장하는 조직과 함께할 다양한 직군의 노타 크루를 찾고 있습니다. 직급과 경력에 관계없이 누구나 동등한 입장에서 의견을 나눌 수 있는 수평적인 문화 속에서, 공동의 목표를 향해 자율적으로 일할 수 있는 분과 함께하고 싶습니다.
누구나, 어디에서나 AI의 가치를 경험할 수 있도록 하는 여정, 지금 노타에서 함께하세요.
[우리 팀을 소개합니다.] Infra 팀은 노타의 AI Model Optimization & Compression Workload와 On-device AI Validation Pipeline을 떠받치는 기반 Infrastructure를 설계·구축하고 운영 가능한 형태로 정착시키는 역할을 담당합니다. GPU Self-Service Platform, Data Center Backbone Network, Distributed Storage(Ceph), Local LLM Gateway, Edge Device Farm, Security & Access Control(ZTNA·Bastion·Vault), Observability, FinOps, DevSecOps 표준화까지 폭넓은 영역을 다루며, NetsPresso·NVA 플랫폼 및 사내 R&D 과제(On-device AI Agent 등)가 안정적으로 구동될 수 있도록 단순 유지보수가 아닌 실질적인 플랫폼 구축과 운영 표준화를 동시에 추진하고 있습니다. 이번 포지션은 시스템 엔지니어링 깊이(Hardware·OS·Network·Storage 레이어)와 플랫폼 빌더 역량(R&D 사용자가 셀프서비스로 쓸 내부 플랫폼을 제품처럼 만들고 운영)을 동시에 요구하는 자리입니다. AI Infrastructure 전반을 횡단하며 구축부터 운영 안정화·플랫폼화까지 직접 끌고 갈 수 있는 실행형 Core Engineer 역할입니다.
[해당 포지션으로 합류하신다면] 인프라 통합 핵심 과제들을 실제로 구축하고 운영하게 됩니다. 해당 포지션은 노타의 모델 경량화 플랫폼(NetsPresso)과 On-device AI 사업, Nota Vision Agent 등 사내 R&D 과제가 안정적으로 구동되는 기반을 직접 책임지는 자리입니다. 설계 구축 검증 운영 장애 복구 거버넌스까지의 Full Cycle을 직접 끌고 가며, 같은 문제가 두 번 발생하지 않도록 Runbook·Checklist·Operating Standard를 자산으로 남기는 일이 핵심입니다. 또한 R&D 사용자가 인프라팀에 매번 요청하지 않고도 셀프서비스로 자원을 쓸 수 있도록, 운영 가능한 시스템을 넘어 사용 가능한 플랫폼으로 추상화하는 일까지 책임집니다. AI Workload는 일반 웹 서비스와 달리 대용량 GPU Memory, High-bandwidth Network, Multi-precision Inference, 6~12개월 주기의 Accelerator 세대 교체라는 고유한 제약을 갖습니다. 이와 같은 제약을 직접 다루며 운영 가능한 인프라를 만드는 과정에서, 폭넓고 깊이 있는 AI Platform & Systems Engineer 커리어를 확장할 수 있습니다.
팀의 주요 Mission:
GPU Self Service Platform: Hypervisor 기반 사내 공용 GPU Self Service Platform의 운영 안정화 및 고도화 (Quota·RBAC·Audit Log·FinOps·Idle Reclaim)
AI Infrastructure 확장: NVIDIA DGX Series Multi-node 도입·운영, NVA GPU Staging 구축, 신규 GPU/NPU 도입 및 IDC Power 인프라 운영·확장 대응
Data Center Network 현대화: IDC 100G Backbone Cutover (Enterprise Switch 기반 vPC/MLAG Active-Active 구성), Branch Office Network 10/25/100G 고도화
Distributed Storage: Ceph Cluster(S3/CephFS/RBD) 구축/운영, NAS Data Migration, Hypervisor 연동
Security Compliance: ISO 27001 갱신, ISMS-P 기반 Cloud Data Management Platform, Vault Secret Lifecycle, SCA/SBOM Platform 운영
DevSecOps: Golden Image Factory, Container Image Build Standard CI/CD, Supply Chain Attack 차단 정책
Local LLM Gateway: vLLM 기반 Local LLM Service Gateway 및 통합 Authentication/Logging
Edge Device Farm: 다양한 타깃 디바이스 Asset Management·Remote Control Portal, 차세대 AI 검증용 Edge Hardware 독립 인프라
다루는 영역:
GPU·AI Accelerator Platform: Datacenter-grade(A100/H100/H200/B200/B300, DGX System), Workstation-grade(RTX PRO Ada & Blackwell Series), Consumer-grade(RTX 20/30/40/50 Series), Edge AI Device(Jetson Orin·Thor Series, Automotive SoC, Non-CUDA NPU 등)
AI Training·Serving Network/Storage: High-bandwidth Fabric(10~800G), RDMA for Distributed Training, Ceph base large volume Dataset·Model Artifact Storage
Access Control·Security·Audit: ZTNA, Bastion, Secret Lifecycle, AI Model Asset·Training Data 보호 관점의 Security Architecture, ISO 27001 / ISMS-P Compliance
Observability·DevSecOps: GPU Utilization, Model Serving Metrics, Training Job Tracking, Showback/Chargeback, Golden Image, Supply Chain Security
Edge Device Lab: 다양한 타깃 디바이스의 Asset Management, Remote Operations, Benchmarking 환경
[팀의 메세지] 우리는 단순히 장비를 붙이고 운영하는 인력이 아니라, 회사의 AI 인프라 기반을 실제로 설계하고 구축하고 검증하고 운영할 수 있는 시스템 엔지니어를 찾고 있습니다. 복잡한 환경 속에서도 구조를 만들고, 기준을 정하고, 운영 가능한 상태로 정착시키는 일에 보람을 느끼는 분이라면 잘 맞는 포지션입니다.
주요 업무
GPU Self-service Platform 운영 안정화·고도화 및 AI Training·Inference Workload 자원 운영 정책 수립 (Scheduling, MIG Partitioning, Multi-tenancy, Quota, Idle Reclaim)
Data Center·Branch Network 구축, 검증, 운영 — 10~800G High-bandwidth Backbone, RDMA/RoCE, vPC/MLAG Active-Active, Power·Rack Infrastructure 포함
AI Asset Protection 관점의 Identity·Access Control·Security·Audit 체계 구축·운영 (Vault, Bastion, ZTNA), ISO 27001 / ISMS-P Compliance 대응
Infrastructure Observability 구축 (Zabbix, Prometheus/Grafana, GPU Showback/Chargeback) 및 DevSecOps 운영 표준화 (Golden Image, CI/CD, SCA/SBOM)
Local LLM Service Gateway 인프라 운영 (vLLM 기반 Model Serving, 통합 Authentication·Logging)
Edge Device Farm 구축·운영 (Jetson Orin·Thor, Automotive SoC, 기타 NPU Board, Remote Control Portal 및 Asset Management)
운영 문서화(Documentation), Runbook, Validation System, Governance Process 정착
자격요건
다음 자격 요건중 4개 이상 경험자(경력 10년 이상)
GPU 또는 AI Accelerator가 포함된 Server 환경의 구축·운영 경험 — NVIDIA Driver·CUDA Stack 관리, GPU 자원 분배, Thermal·Power·Rack 설계 등 AI Workload 특유의 운영 이슈를 다뤄본 경험
Public Cloud Production 운영 경험 — AWS / GCP / Azure 중 하나 이상에서 IaaS·Network·IAM·Cost Management를 운영한 경험
Hypervisor·Virtualization Platform 2개 이상 실무 운영 경험 — OpenNebula, VMware ESXi/vSphere, OpenShift, Proxmox VE, KVM/QEMU, Hyper-V, Nutanix AHV 등 (Live Migration·HA·Storage Integration·PCIe Passthrough/SR-IOV 포함)
Datacenter-grade Network 구축·운영 경험 — 10~400G Backbone, vPC/MLAG, VLAN/VXLAN Design, Enterprise Switch 패밀리 중 하나 이상의 실무 경험
Distributed Storage 또는 SDS 운영 경험 — Ceph(S3/CephFS/RBD), GlusterFS, MinIO, ZFS Cluster 등 중 하나 이상의 Production 운영 및 Data Migration·High Availability 설계 경험
Kernel·Driver·Device Layer Debugging 경험 — Linux Troubleshooting을 넘어 GPU Driver 충돌, PCIe Topology Issue, NUMA·IRQ Tuning 등을 다뤄본 경험
AI Workload성 장애 대응 경험 — Training Job Interruption, OOM, NCCL/Communication Library Issue, Distributed Training Synchronization Failure 등의 진단·복구
AI Researcher·Engineer의 요구사항을 Infrastructure 언어로 번역해 풀어낸 경험 — "학습이 느려요" 를 NCCL Tuning·Storage IOPS·Network RDMA·CPU Bottleneck 중 어디인지 좁혀가는 능력
새로운 Accelerator 세대·AI Infrastructure Ecosystem 변화에 능동적으로 적응하며 운영 체계에 반영할 수 있는 분
해외 출장 및 여행에 결격 사유가 없는 분 (Vendor 미팅·해외 Data Center·R&D 파트너사 방문 등)
우대사항
다음 5개 영역 중 3개 이상 영역에서 실무 경험이 있는 분을 우대합니다. (각 영역 내 모든 항목을 충족할 필요는 없으며, 영역의 일부 경험으로도 인정됩니다.)
[Platform & Provisioning]
자체 Self-service IaaS/PaaS 또는 GPU Platform 구축·운영 경험, Hypervisor 기반 Cluster 운영 경험
Bare-metal Provisioning — PXE/iPXE, Foreman, MAAS, OpenStack Ironic, Tinkerbell 등을 활용한 대규모 서버·GPU 노드 자동 프로비저닝 체계 구축·운영
BMC·OOB 관리 — IPMI, Redfish, iDRAC, iLO, BMC Firmware Update, Out-of-Band 원격 복구·자동화 운영
DevSecOps 운영 — Golden Image Factory, Container Image Build CI/CD, SIEM Integration
[Edge & Operations]
Edge Device 운영 — Jetson Orin·Thor, Automotive SoC, Embedded NPU 등 ARM 기반 Edge Linux 환경의 Provisioning·Remote Control·Asset Management 경험. Cross-compile Toolchain·Yocto/Buildroot·OTA Update 체계 운영 경험 우대
운영 안정화 — 장애 복구, DR Rehearsal, Cutover Validation, 운영 Runbook 정착 경험
기술 스택
PyTorchTensorflow
복지 및 혜택
노타는 재량근로제와 선택적 근로시간제를 시행하고 있습니다.
자신의 일에만 집중할 수 있는 환경을 기본으로 하며 신규 입사 시 웰컴키트 제공을 비롯해 개인 선호 장비 구매 비용을 일정 한도 내에서 지원합니다.
사무실에 다양한 간식을 매달 구비해 놓고 있으며, 저녁까지 근무하시는 날에는 저녁 식사 비용을 지원해 드립니다.
도서 구매 지원, 해외 학회 세미나 참석 지원, 관련 분야 논문 작성 지원 등 개인의 업무 역량을 위해서라면 다양한 부분에서의 지원을 아끼지 않는 회사입니다.
장기근속자에게 연차 외 휴가 및 선물을 제공하고 있습니다.
[지원 전, 확인해주세요!]
해당 공고는 상시 채용으로, 채용 완료 시 조기 마감될 수 있습니다.
이력서 내 연봉정보 등 민감한 개인정보가 기재되어 있다면, 해당 서류는 검토되지 않을 수 있습니다.
제출해 주신 내용 중 허위 사실이 있을 경우 채용이 취소될 수 있습니다.
채용 전 레퍼런스 체크가 있음을 알려드립니다.
최종 인터뷰 합격 시 별도로 처우를 협의합니다.
입사 후 시용기간이 있으며, 이에 대한 처우는 차등을 두지 않음을 알려드립니다.
국가보훈대상자 및 장애인은 관련 법규에 의거하여 우대합니다.
장애인 고용 촉진을 위한 행정적 절차 확인이 필요한 경우, 장애인 등록증 사본을 기타 서류 란에 선택적으로 제출하실 수 있습니다. 제출 여부는 전형 평가에 어떠한 영향도 미치지 않습니다.
R&D 모든 포지션에서 전문연구요원, 산업기능요원으로 근무가 가능합니다. (단, 산업기능요원 현역 신규 편입의 경우 불가능)