Model Architecture: mistralai/Mamba-Codestral-7B-v0.1

📊 Model Parameters

Total Parameters 14,227,603,456

Context Length 2,048

Hidden Size 4096

Layers 64

Attention Heads 0

KV Heads 0

FP32 (Full) 53.00 GB

FP16 (Half) 26.50 GB

INT8 (Quantized) 13.25 GB

INT4 (Quantized) 6.63 GB

Per Token (FP16) 0 B

Max Context FP32 0.0 MB

Max Context FP16 0.0 MB

Max Context INT8 0.0 MB

Vocabulary Size32,768

Hidden Size4,096

Number of Layers64

Attention Heads128

Head Dimension64

FFN Intermediate Size8,192

Tied EmbeddingsNo

RMSNorm Epsilon1e-05

Activation Functionsilu

BOS Token ID0

EOS Token ID0

Pad Token ID0

Model Dtypebfloat16

Layer Types:

Attention

MLP/FFN

Normalization

Embedding