Model Architecture: google/gemma-7b

📊 Model Parameters

Total Parameters 9,324,112,896

Context Length 8,192

Hidden Size 3072

Layers 28

Attention Heads 16

KV Heads 16

FP32 (Full) 34.74 GB

FP16 (Half) 17.37 GB

INT8 (Quantized) 8.68 GB

INT4 (Quantized) 4.34 GB

Per Token (FP16) 458.75 KB

Max Context FP32 7.00 GB

Max Context FP16 3.50 GB

Max Context INT8 1.75 GB

Vocabulary Size256,000

Hidden Size3,072

FFN Intermediate Size24,576

Number of Layers28

Attention Heads16

Head Dimension256

KV Heads16

Max Context Length8,192

Attention BiasNo

Attention Dropout0%

Tied EmbeddingsYes

Activation Functiongelu

RMSNorm Epsilon1e-06

Pad Token ID0

BOS Token ID2

EOS Token ID1

Model Dtypebfloat16

Layer Types:

Attention

MLP/FFN

Normalization

Embedding