Model Architecture: huggyllama/llama-30b

📊 Model Parameters

Total Parameters 32,528,943,616

Context Length 2,048

Hidden Size 6656

Layers 60

Attention Heads 52

KV Heads 52

FP32 (Full) 121.18 GB

FP16 (Half) 60.59 GB

INT8 (Quantized) 30.29 GB

INT4 (Quantized) 15.15 GB

Per Token (FP16) 1.60 MB

Max Context FP32 6.09 GB

Max Context FP16 3.05 GB

Max Context INT8 1.52 GB

Vocabulary Size32,000

Hidden Size6,656

FFN Intermediate Size17,920

Number of Layers60

Attention Heads52

KV Heads52

Head Dimension128

Max Context Length2,048

Attention BiasNo

Attention Dropout0%

MLP BiasNo

Tied EmbeddingsNo

Activation Functionsilu

RMSNorm Epsilon1e-06

Pad Token ID0

BOS Token ID1

EOS Token ID2

Model Dtypefloat16

Layer Types:

Attention

MLP/FFN

Normalization

Embedding