Estimate VRAM usage including compute/input buffers based on Hugging Face model config and quantization.

Hugging Face Model IDHugging Face Token (Optional)

비공개 또는 게이트된 모델에 접근하려면 토큰이 필요합니다.

Model Size (Billion Parameters)

Load or enter manually

모델 가중치 메모리 계산에 사용됩니다. 'Load Model Info' 버튼으로 가져오거나 수동 입력하세요.

Batch Size (Tokens)

Input/Compute 버퍼 계산에 사용됩니다. (llama.cpp 기본값: 512)

GGUF Weight Quantization

모델 가중치의 정밀도 (bits per weight). 모델 정보를 로드해야 활성화됩니다.

KV Cache Quantization

K/V 캐시 요소의 정밀도. F16이 기본값입니다. 모델 정보를 로드해야 활성화됩니다.

Additional Overhead (GB)

CUDA 컨텍스트, 프레임워크, 기타 버퍼 등. 기본값 1.5GB에서 조절해보세요.

Click "Load Model Info" to start.