Model Architecture: EleutherAI/gpt-neo-125m

📊 Model Parameters

Total Parameters 163,795,968

Context Length 2,048

Hidden Size 768

Layers 12

Attention Heads 12

KV Heads 12

FP32 (Full) 624.8 MB

FP16 (Half) 312.4 MB

INT8 (Quantized) 156.2 MB

INT4 (Quantized) 78.1 MB

Per Token (FP16) 36.86 KB

Max Context FP32 144.0 MB

Max Context FP16 72.0 MB

Max Context INT8 36.0 MB

Vocabulary Size50,257

Hidden Size768

Number of Layers12

Attention Heads12

FFN Intermediate SizeNot set

Max Context Length2,048

Sliding Window Size256

Attention Dropout0%

Tied EmbeddingsYes

Activation Functiongelu_new

RMSNorm Epsilon1e-05

Residual Dropout0%

Embedding Dropout0%

BOS Token ID50,256

EOS Token ID50256

Pad Token IDNot set

Model DtypeNot set

Layer Types:

Attention

MLP/FFN

Normalization

Embedding