SGLang ::: Sevity Blog

SGLang

2025. 6. 13. 16:23

개요

sglang은 왜써요?

- vLLM은 기본적으로 local Hugging face모델을 위한 인퍼런스 엔진

- SGLang은 --providoer openai같은 옵션 한줄로 바로 OpenAI API엔드포인트를 띄울 수 있음

-- 로컬모델/OpenAI등을 동시에 서빙하거나 조건부로 라우팅하는것도 CLI/설정만으로 처리가능

실습

도커로 추론엔진 실행

docker run --gpus all \
  -p 8001:8001 \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  --ipc=host \
  lmsysorg/sglang:latest \
  python3 -m sglang.launch_server \
    --model-path gpt2 \
    --host 0.0.0.0 \
    --port 8001 \
    --device cuda

동작테스트

curl -X POST http://localhost:8001/generate \
  -H "Content-Type: application/json" \
  -d '{"prompt":"테스트 중입니다:","max_new_tokens":20}'

결과

sevity@DESKTOP-7500F:~$ curl -X POST http://localhost:8001/generate \
  -H "Content-Type: application/json" \
  -d '{"text":"테스트 중입니다:","sampling_params":{"max_new_tokens":20}}'
  
{"text":"더 고 중입니다. �","meta_info":{"id":"e01db0f5a42f48d99e02e9d2bcf29216","finish_reason":{"type":"length","length":20},"prompt_tokens":20,"completion_tokens":20,"cached_tokens":0,"e2e_latency":0.3301219940185547}}
sevity@DESKTOP-7500F:~$

저작자표시 (새창열림)

'Programming > LLM RAG' 카테고리의 다른 글

vector db (1)	2025.06.14
Pinecone (0)	2025.06.13
LangChain/LangGraph (0)	2025.06.13
TensorRT-LLM (1)	2025.06.13
vLLM (0)	2025.06.12

Sevity Blog

SGLang

개요

실습

'Programming > LLM RAG' 카테고리의 다른 글

+ Recent posts

티스토리툴바