iqk_mul_mat(ARM_NEON): adding bf16 support #41

ikawrakow · 2024-09-05T11:55:57Z

It looks like ArmV8 ISA has support for bf16, but my M2 Max does not have it, so resorting to bf16 -> f32 conversion and computations in f32. This is 2X slower than f16, but 8X better compared to what I get if I try to run a bf16 model on the M2 (NEON and Metal).

It looks like ArmV8 ISA has support for bf16, but my M2 Max does not have it, so resorting to bf16 -> f32 conversion and computations in f32. This is 2x slower than f16, but 8x better compared to what I get if I try to run a bf16 model on the M2 (NEON and Metal).

ikawrakow force-pushed the ik/neon_bf16 branch from 30069f1 to 96c9119 Compare September 14, 2024 17:06

ikawrakow force-pushed the ik/neon_bf16 branch from 96c9119 to e6d3b6b Compare September 16, 2024 13:46

ikawrakow merged commit 2874b98 into main Sep 16, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

iqk_mul_mat(ARM_NEON): adding bf16 support #41

iqk_mul_mat(ARM_NEON): adding bf16 support #41

ikawrakow commented Sep 5, 2024

iqk_mul_mat(ARM_NEON): adding bf16 support #41

iqk_mul_mat(ARM_NEON): adding bf16 support #41

Conversation

ikawrakow commented Sep 5, 2024