Model Architecture: Qwen/Qwen1.5-MoE-A2.7B

📊 Model Parameters

Total Parameters 14,315,784,192

Context Length 8,192

Hidden Size 2048

Layers 24

Attention Heads 16

KV Heads 16

💾 Memory Requirements

FP32 (Full) 53.33 GB

FP16 (Half) 26.67 GB

INT8 (Quantized) 13.33 GB

INT4 (Quantized) 6.67 GB

🔑 KV Cache (Inference)

Per Token (FP16) 196.61 KB

Max Context FP32 3.00 GB

Max Context FP16 1.50 GB

Max Context INT8 768.0 MB

⚙️ Model Configuration

Core Architecture

Vocabulary Size151,936

Hidden Size2,048

FFN Intermediate Size5,632

Number of Layers24

Attention Heads16

KV Heads16

Context & Position

Layer Attention Types[24 items]

Max Context Length8,192

Uses Sliding WindowNo

Sliding Window Size0

Window Attention Layers21

Attention Configuration

Attention Dropout0%

Attention BiasYes

Tied EmbeddingsNo

Mixture of Experts

MoE Layer Frequency1

Expert FFN Size1,408

Shared Expert FFN Size5,632

Experts per Token4

Number of Experts60

Normalize TopK ProbabilitiesNo

Activation & Normalization

Activation Functionsilu

RMSNorm Epsilon1e-06

Special Tokens

Pad Token IDNot set

BOS Token ID151,643

EOS Token ID151643

Data Type

Model Dtypebfloat16

Layer Types:

Attention

MLP/FFN

Normalization

Embedding