Add support for bf16 to iqk_mul_mat #39

ikawrakow · 2024-09-04T16:44:24Z

Only when natively supported (e.g., Zen4), else left to ggml to handle.

For LLaMA-3.1-8B we get PP512 = 205 t/s vs 74 t/s in llama.cpp on my Ryzen-7950X CPU.

I get 204 t/s with llamafile, so I guess Justine Tunney has not contributed the more recent tinyBLAS improvements to llama.cpp.

ikawrakow changed the title ~~Add support fr bf16 o iqk_mul_mat~~ Add support fr bf16 to iqk_mul_mat Sep 4, 2024

ikawrakow changed the title ~~Add support fr bf16 to iqk_mul_mat~~ Add support for bf16 to iqk_mul_mat Sep 4, 2024

Kawrakow added 3 commits September 5, 2024 07:47

WIP: adding BF16 support to iqk_mul_mat

357c95e

Minor

a4c5555

Improve TG speed (when not memory bound)

8d47523

ikawrakow force-pushed the ik/mul_mat_bf16 branch from bbe01bc to 8d47523 Compare September 5, 2024 04:48

ikawrakow merged commit 0087008 into main Sep 5, 2024

Provide feedback