Unroll the handwritten AVX2 matrix_vector_mul_transposed slightly, gives ~20% boost to that operation.

Modest improvement in overall performance for text generation.
3 years ago · 0cce655763
parent 09f76dfcfa
commit 0cce655763
2 changed files with 74 additions and 7 deletions
--- a/src/benches/benchmark.rs
+++ b/src/benches/benchmark.rs
@ -102,6 +102,18 @@ pub fn tensor_benchmarks(c: &mut Criterion) {
    let orig_f32 = Tensor::zeros(1024, 1024, TensorDType::Float32);
    let orig_f16 = Tensor::zeros(1024, 1024, TensorDType::Float16);
    let m1 = Tensor::random(1024, 128, TensorDType::Float32);
    let m2 = Tensor::random(1, 128, TensorDType::Float32);
    c.bench_function(
        "1024x128 * 1x128 matrix vector transposed multiplication",
        |b| {
            b.iter(|| {
                let _ = m1.matrix_vector_mul_transposed(black_box(&m2));
            })
        },
    );
    c.bench_function("1024x1024 matrix from f32->f16", |b| {
        b.iter(|| {
            let _ = black_box(&orig_f32).to_f16();
--- a/src/tensor.rs
+++ b/src/tensor.rs
@ -1156,19 +1156,74 @@ impl Tensor {
            } else {
                (self.cols / 8 + 1) as usize
            };
            let row_its: usize = if self.rows % 4 == 0 {
                (self.rows / 4) as usize
            } else {
                (self.rows / 4 + 1) as usize
            };
            let mut sum8s: [__m256; 4] = [
                _mm256_setzero_ps(),
                _mm256_setzero_ps(),
                _mm256_setzero_ps(),
                _mm256_setzero_ps(),
            ];
            let self_data: *const f32 = self.data as *const f32;
            let other_data: *const f32 = other.data as *const f32;
-            for row in 0..self.rows {
+            let tgt_data: *mut f32 = result.data as *mut f32;
-                let mut sum8: __m256 = _mm256_setzero_ps();
+            let ncols_capacity: usize = result.capacity_cols as usize;
            for row in 0..row_its {
                let row: i64 = row as i64;
                sum8s[0] = _mm256_setzero_ps();
                sum8s[1] = _mm256_setzero_ps();
                sum8s[2] = _mm256_setzero_ps();
                sum8s[3] = _mm256_setzero_ps();
                let row4_0 = row * 4;
                let row4_1 = row * 4 + 1;
                let row4_2 = row * 4 + 2;
                let row4_3 = row * 4 + 3;
                for col in 0..col_its {
                    let col = col * 8;
                    let left_side8 =
                        _mm256_loadu_ps(self_data.add((row * self.capacity_cols) as usize + col));
                    let right_side8 = _mm256_loadu_ps(other_data.add(col));
-                    sum8 = _mm256_fmadd_ps(left_side8, right_side8, sum8);
+                    let left_side8_0 = _mm256_loadu_ps(
                        self_data.add((row4_0 * self.capacity_cols) as usize + col),
                    );
                    let left_side8_1 = if row4_1 < self.rows {
                        _mm256_loadu_ps(self_data.add((row4_1 * self.capacity_cols) as usize + col))
                    } else {
                        _mm256_setzero_ps()
                    };
                    let left_side8_2 = if row4_2 < self.rows {
                        _mm256_loadu_ps(self_data.add((row4_2 * self.capacity_cols) as usize + col))
                    } else {
                        _mm256_setzero_ps()
                    };
                    let left_side8_3 = if row4_3 < self.rows {
                        _mm256_loadu_ps(self_data.add((row4_3 * self.capacity_cols) as usize + col))
                    } else {
                        _mm256_setzero_ps()
                    };
                    sum8s[0] = _mm256_fmadd_ps(left_side8_0, right_side8, sum8s[0]);
                    sum8s[1] = _mm256_fmadd_ps(left_side8_1, right_side8, sum8s[1]);
                    sum8s[2] = _mm256_fmadd_ps(left_side8_2, right_side8, sum8s[2]);
                    sum8s[3] = _mm256_fmadd_ps(left_side8_3, right_side8, sum8s[3]);
                }
                let sum_0: f32 = horizontal_sum(sum8s[0]);
                let sum_1: f32 = horizontal_sum(sum8s[1]);
                let sum_2: f32 = horizontal_sum(sum8s[2]);
                let sum_3: f32 = horizontal_sum(sum8s[3]);
                if row4_0 < result.rows {
                    result.set_f32(row4_0, 0, sum_0);
                }
                if row4_1 < result.rows {
                    result.set_f32(row4_1, 0, sum_1);
                }
                if row4_2 < result.rows {
                    result.set_f32(row4_2, 0, sum_2);
                }
                if row4_3 < result.rows {
                    result.set_f32(row4_3, 0, sum_3);
                }
                let sum: f32 = horizontal_sum(sum8);
                result.set_f32(row, 0, sum);
            }
            result
        }