다수 요청 시, Ollama 로컬 LLM 속도 9배 올리는 vLLM 소개

 

Ollama 대비 TPS가 약 19배 높고, 응답 속도는 8배나 빠른 강력한 오픈소스 'vLLM'을 소개합니다. 

vLLM의 핵심 기술인 PagedAttention과 Continuous Batching의 원리에 대해 알기 쉽게 살펴보고, 

마지막으로 동일 모델 환경에서 Ollama와 vLLM의 추론 속도 비교 테스트 결과를 확인합니다.

 

https://www.youtube.com/watch?v=OfpGLIUuzww

 

 

 

 

 

반응형

+ Recent posts