개요
sglang은 왜써요?
- vLLM은 기본적으로 local Hugging face모델을 위한 인퍼런스 엔진
- SGLang은 --providoer openai같은 옵션 한줄로 바로 OpenAI API엔드포인트를 띄울 수 있음
-- 로컬모델/OpenAI등을 동시에 서빙하거나 조건부로 라우팅하는것도 CLI/설정만으로 처리가능
실습
도커로 추론엔진 실행
docker run --gpus all \
-p 8001:8001 \
-v ~/.cache/huggingface:/root/.cache/huggingface \
--ipc=host \
lmsysorg/sglang:latest \
python3 -m sglang.launch_server \
--model-path gpt2 \
--host 0.0.0.0 \
--port 8001 \
--device cuda
동작테스트
curl -X POST http://localhost:8001/generate \
-H "Content-Type: application/json" \
-d '{"prompt":"테스트 중입니다:","max_new_tokens":20}'
결과
sevity@DESKTOP-7500F:~$ curl -X POST http://localhost:8001/generate \
-H "Content-Type: application/json" \
-d '{"text":"테스트 중입니다:","sampling_params":{"max_new_tokens":20}}'
{"text":"더 고 중입니다. �","meta_info":{"id":"e01db0f5a42f48d99e02e9d2bcf29216","finish_reason":{"type":"length","length":20},"prompt_tokens":20,"completion_tokens":20,"cached_tokens":0,"e2e_latency":0.3301219940185547}}
sevity@DESKTOP-7500F:~$반응형
'Programming > LLM RAG' 카테고리의 다른 글
| vector db (1) | 2025.06.14 |
|---|---|
| Pinecone (0) | 2025.06.13 |
| LangChain/LangGraph (0) | 2025.06.13 |
| TensorRT-LLM (1) | 2025.06.13 |
| vLLM (0) | 2025.06.12 |
