Foundation Model HostingOpenAI 호환 API요금: 별도문의

파운데이션 호스팅

Llama·Mistral·Qwen 등 오픈소스 LLM부터 사내 전용 모델까지. 고성능 추론 런타임과 OpenAI 호환 인터페이스로 바로 붙이고, 전용/공유 배포로 비용을 최적화하세요.

⚡ 고성능 추론

연속 배칭, KV 캐시, speculative decoding 등으로 낮은 지연과 높은 처리량.

🧱 유연한 배포

공유 풀(경제성) / 전용 인스턴스(성능/격리) 선택. NVIDIA 가속기 옵션.

🧑‍💻 개발자 친화

OpenAI 호환 REST, 스트리밍(SSE/WS), 토큰/쿼터, 버전 롤백.

🔐 보안/컴플라이언스

VPC 격리, IAM, Secrets, 감사로그, 디도스보호(프록시) 연동.

지원 모델

모델 패밀리	예시 가중치	컨텍스트	정밀도/양자화	비고
Llama 계열	8B / 70B Instruct	4k~128k(확장)	BF16/FP16/INT8/4bit	토큰화 호환, 한국어 튜닝 가능
Mistral/Mixtral	7B / 8x7B	8k~32k	FP16/INT8/4bit	MoE로 높은 처리량
Qwen/Yi 등	7B~72B	8k+	FP16/INT8	중문/한영 혼합 우수
커스텀 업로드	Safetensors/GGUF	가중치에 따름	FP16/INTx/QLoRA	사내 전용 모델 호스팅
* 실제 가능 조합/맥락 길이는 런타임·GPU와 모델 버전에 따라 달라집니다.

런타임 / 성능

추론 엔진 — vLLM/TensorRT-LLM(옵션), paged attention, continuous batching.

KV 캐시 — 재사용/온디맨드 축출, 긴 컨텍스트 비용 절감.

병렬/파이프라인 — 텐서/파이프 병렬, 다중 GPU 스케일.

스트리밍 — SSE/WebSocket 실시간 토큰 전송.

지연/처리량 — 프롬프트 캐싱, 사전 워밍/오토스케일.

한/영 품질 — 한국어 추가 튜닝/어휘 확장 지원(옵션).

파인튜닝 / 버전 관리

워크플로우

데이터 업로드(오브젝트 스토리지) — JSONL/Parquet 등
작업 정의 — LoRA/QLoRA, epoch/lr/peft 설정
학습/평가 — BLEU/ROUGE/ExactMatch(과제별)
배포 — model:v2025-09-01 태그, 점진 전환
롤백 — 한 클릭 버전 복구

RAG(선택)

벡터 색인(문서/FAQ) + 재주입 프롬프트
소스 링크/근거 반환 옵션
보안 경계 내 데이터만 사용

API / SDK (OpenAI 호환)

cURL

curl https://api.example.com/v1/chat/completions \
  -H "Authorization: Bearer sk-***" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3-8b-instruct",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "안녕하세요!"}
    ],
    "stream": true
  }'

Python (requests)

import requests, sseclient
url = "https://api.example.com/v1/chat/completions"
headers = {"Authorization":"Bearer sk-***","Content-Type":"application/json"}
payload = {
  "model":"llama3-8b-instruct",
  "messages":[{"role":"user","content":"서울 날씨 요약"}],
  "stream": True
}
resp = requests.post(url, json=payload, headers=headers, stream=True)
for event in sseclient.SSEClient(resp):
    print(event.data)

Node (fetch)

const r = await fetch("https://api.example.com/v1/chat/completions",{
  method:"POST",
  headers:{"Authorization":"Bearer sk-***","Content-Type":"application/json"},
  body: JSON.stringify({model:"llama3-8b-instruct", messages:[{role:"user",content:"요약"}], stream:true})
});
for await (const chunk of r.body){ process.stdout.write(chunk); }

요청 매개변수

model: 배포된 모델 ID (예: llama3-8b-instruct)
max_tokens, temperature, top_p, stop
stream: SSE 스트리밍 여부
metadata: 팀/프로젝트 태그(비용/감사용)

운영 / 모니터링

메트릭 — 토큰/초, 지연 p50/p95, 에러율, 활성 요청, 캐시 히트.

로그 — 요청 요약/오류/할당량, 개인정보 마스킹.

트레이싱 — 프롬프트→토큰 생성 상관관계(APM).

알림 — 지연/오류 급증, 할당량 임계치.

롤아웃 — 카나리/블루그린, 가중치 전환.

백업 — 파인튜닝 아티팩트/토크나이저 버전 보존.

보안 / 거버넌스

네트워크 — VPC/서브넷 격리, 사설 엔드포인트, 아웃바운드 제어.

IAM — 사용자/역할/정책, 프로젝트별 키/쿼터.

Secrets — 키/웹훅/자격증명 암호화 저장.

감사 — 생성/배포/호출에 대한 감사로그.

디도스보호(프록시) — 엣지 보호/레이트 제한 연동.

데이터 — 업로드 데이터/가중치 지역내 보관(옵션).

요금 안내

요금: 별도문의

모델 크기/컨텍스트, GPU 티어/동시성, 전용/공유, 월 토큰량/파인튜닝 옵션(LoRA/QLoRA), 스토리지/전송(오브젝트) 기준으로 산정됩니다.

모델 배포를 가장 단순하게

요건(모델/지연/예산)을 알려주시면 최적 구성을 제안드립니다.

빠르고 간단한 호스팅

개발자를 위한 플랫폼

디도스방어존

파운데이션 호스팅

파운데이션 호스팅