Neural Networks Quantization

Linear Quantization

Post Training Quantization

Quantization-Aware Training

PACT: Parameterized Clipping Activation for Quantized Neural Networks
- Relu-α where α is a learnable parameter per layer with L2 regularization
Accurate and Efficient 2-bit Quantized Neural Networks
- PACT quantization aware training
- Statistic-Aware Weight Binning
- Full precision for shortcut connections in resnet
Fully Quantized Network for Object Detection
- 4bits quantization
- Freeze BN statistic
- clamped activation from calibration statistic
- channel-wise quantization scale
Trained Uniform Quantization for Accurate and Efficient Neural Network Inference on Fixed-Point Hardware
Simultaneously Optimizing Weight and Quantizer of Ternary Neural Network using Truncated Gaussian Approximation

state of art

4-bits

DISCOVERING LOW-PRECISION NETWORKS CLOSE TO FULL-PRECISION NETWORKS FOR EFFICIENT EMBEDDED INFERENCE
Learned Step Size Quantization
(https://arxiv.org/pdf/1810.05723.pdf)

2-bits

Anealing from Continue to Discrete

Non-Uniform Quantization

Sparsity and Quantization

Quantization Support in Libraries

Post Training Quantization

TensorRT
- Per channel weight scale
- Calibration: minimize KL Divergence
Tensorflow lite
- Per channel weight scale
- Calibration: min max??
TVM
- Per channel weight scale
- Calibration: minimize MSE

LUT-based

https://arxiv.org/pdf/1906.04798.pdf

neural-networks-quantization-notes
neural-networks-quantization-notes copied to clipboard

Metadata

Neural Networks Quantization

Linear Quantization

Post Training Quantization

Quantization-Aware Training

state of art

4-bits

2-bits

Anealing from Continue to Discrete

Non-Uniform Quantization

Sparsity and Quantization

Quantization Support in Libraries

Post Training Quantization

LUT-based

← Metadata

Owner

Metadata

neural-networks-quantization-notes neural-networks-quantization-notes copied to clipboard

Metadata

Neural Networks Quantization

Linear Quantization

Post Training Quantization

Quantization-Aware Training

state of art

4-bits

2-bits

Anealing from Continue to Discrete

Non-Uniform Quantization

Sparsity and Quantization

Quantization Support in Libraries

Post Training Quantization

LUT-based

← Metadata

Owner

Metadata

neural-networks-quantization-notes
neural-networks-quantization-notes copied to clipboard