Model Architecture: EleutherAI/gpt-neox-20b

📊 Model Parameters

Total Parameters 20,554,567,680

Context Length 2,048

Hidden Size 6144

Layers 44

Attention Heads 64

KV Heads 64

FP32 (Full) 76.57 GB

FP16 (Half) 38.29 GB

INT8 (Quantized) 19.14 GB

INT4 (Quantized) 9.57 GB

Per Token (FP16) 1.08 MB

Max Context FP32 4.12 GB

Max Context FP16 2.06 GB

Max Context INT8 1.03 GB

Vocabulary Size50,432

Hidden Size6,144

Number of Layers44

Attention Heads64

FFN Intermediate Size24,576

Max Context Length2,048

Attention Dropout0%

Attention BiasYes

Tied EmbeddingsNo

Activation Functiongelu_fast

RMSNorm Epsilon1e-05

Hidden Dropout0%

BOS Token ID0

EOS Token ID0

Model Dtypefloat16

Layer Types:

Attention

MLP/FFN

Normalization

Embedding