연속 배칭, KV 캐시, speculative decoding 등으로 낮은 지연과 높은 처리량.
Foundation Model HostingOpenAI 호환 API요금: 별도문의
파운데이션 호스팅
Llama·Mistral·Qwen 등 오픈소스 LLM부터 사내 전용 모델까지. 고성능 추론 런타임과 OpenAI 호환 인터페이스로 바로 붙이고, 전용/공유 배포로 비용을 최적화하세요.
공유 풀(경제성) / 전용 인스턴스(성능/격리) 선택. NVIDIA 가속기 옵션.
OpenAI 호환 REST, 스트리밍(SSE/WS), 토큰/쿼터, 버전 롤백.
VPC 격리, IAM, Secrets, 감사로그, 디도스보호(프록시) 연동.
지원 모델
| 모델 패밀리 | 예시 가중치 | 컨텍스트 | 정밀도/양자화 | 비고 |
|---|---|---|---|---|
| Llama 계열 | 8B / 70B Instruct | 4k~128k(확장) | BF16/FP16/INT8/4bit | 토큰화 호환, 한국어 튜닝 가능 |
| Mistral/Mixtral | 7B / 8x7B | 8k~32k | FP16/INT8/4bit | MoE로 높은 처리량 |
| Qwen/Yi 등 | 7B~72B | 8k+ | FP16/INT8 | 중문/한영 혼합 우수 |
| 커스텀 업로드 | Safetensors/GGUF | 가중치에 따름 | FP16/INTx/QLoRA | 사내 전용 모델 호스팅 |
| * 실제 가능 조합/맥락 길이는 런타임·GPU와 모델 버전에 따라 달라집니다. | ||||
런타임 / 성능
추론 엔진 — vLLM/TensorRT-LLM(옵션), paged attention, continuous batching.
KV 캐시 — 재사용/온디맨드 축출, 긴 컨텍스트 비용 절감.
병렬/파이프라인 — 텐서/파이프 병렬, 다중 GPU 스케일.
스트리밍 — SSE/WebSocket 실시간 토큰 전송.
지연/처리량 — 프롬프트 캐싱, 사전 워밍/오토스케일.
한/영 품질 — 한국어 추가 튜닝/어휘 확장 지원(옵션).
파인튜닝 / 버전 관리
워크플로우
- 데이터 업로드(오브젝트 스토리지) — JSONL/Parquet 등
- 작업 정의 — LoRA/QLoRA, epoch/lr/peft 설정
- 학습/평가 — BLEU/ROUGE/ExactMatch(과제별)
- 배포 —
model:v2025-09-01태그, 점진 전환 - 롤백 — 한 클릭 버전 복구
RAG(선택)
- 벡터 색인(문서/FAQ) + 재주입 프롬프트
- 소스 링크/근거 반환 옵션
- 보안 경계 내 데이터만 사용
API / SDK (OpenAI 호환)
cURL
curl https://api.example.com/v1/chat/completions \
-H "Authorization: Bearer sk-***" \
-H "Content-Type: application/json" \
-d '{
"model": "llama3-8b-instruct",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "안녕하세요!"}
],
"stream": true
}'
Python (requests)
import requests, sseclient
url = "https://api.example.com/v1/chat/completions"
headers = {"Authorization":"Bearer sk-***","Content-Type":"application/json"}
payload = {
"model":"llama3-8b-instruct",
"messages":[{"role":"user","content":"서울 날씨 요약"}],
"stream": True
}
resp = requests.post(url, json=payload, headers=headers, stream=True)
for event in sseclient.SSEClient(resp):
print(event.data)
Node (fetch)
const r = await fetch("https://api.example.com/v1/chat/completions",{
method:"POST",
headers:{"Authorization":"Bearer sk-***","Content-Type":"application/json"},
body: JSON.stringify({model:"llama3-8b-instruct", messages:[{role:"user",content:"요약"}], stream:true})
});
for await (const chunk of r.body){ process.stdout.write(chunk); }
요청 매개변수
- model: 배포된 모델 ID (예:
llama3-8b-instruct) - max_tokens, temperature, top_p, stop
- stream: SSE 스트리밍 여부
- metadata: 팀/프로젝트 태그(비용/감사용)
운영 / 모니터링
메트릭 — 토큰/초, 지연 p50/p95, 에러율, 활성 요청, 캐시 히트.
로그 — 요청 요약/오류/할당량, 개인정보 마스킹.
트레이싱 — 프롬프트→토큰 생성 상관관계(APM).
알림 — 지연/오류 급증, 할당량 임계치.
롤아웃 — 카나리/블루그린, 가중치 전환.
백업 — 파인튜닝 아티팩트/토크나이저 버전 보존.
보안 / 거버넌스
네트워크 — VPC/서브넷 격리, 사설 엔드포인트, 아웃바운드 제어.
IAM — 사용자/역할/정책, 프로젝트별 키/쿼터.
Secrets — 키/웹훅/자격증명 암호화 저장.
감사 — 생성/배포/호출에 대한 감사로그.
디도스보호(프록시) — 엣지 보호/레이트 제한 연동.
데이터 — 업로드 데이터/가중치 지역내 보관(옵션).
요금 안내
요금: 별도문의
모델 크기/컨텍스트, GPU 티어/동시성, 전용/공유, 월 토큰량/파인튜닝 옵션(LoRA/QLoRA), 스토리지/전송(오브젝트) 기준으로 산정됩니다.
모델 배포를 가장 단순하게
요건(모델/지연/예산)을 알려주시면 최적 구성을 제안드립니다.
파운데이션 호스팅 문의
ℹ️
개인정보 처리 안내
문의 응대를 위해서만 사용되며 일정 기간 후 파기됩니다.