BF16 support on Metal #56

ikawrakow · 2024-09-16T15:09:52Z

It is slightly slower than fp16, but definitely a massive improvement compared to not having bf16 support at al. ~~Didn't put any effort into optimizing the matrix x vector kernel, so it is likely one can improve bf16 TG performance~~.

model	size	params	backend	ngl	test	t/s
llama 8B BF16	14.96 GiB	8.03 B	Metal	100	pp512	538.84 ± 0.26
llama 8B F16	14.96 GiB	8.03 B	Metal	100	pp512	587.26 ± 0.39
llama 8B BF16	14.96 GiB	8.03 B	Metal	100	tg128	21.64 ± 0.05
llama 8B F16	14.96 GiB	8.03 B	Metal	100	tg128	21.77 ± 0.03

Kawrakow added 2 commits September 16, 2024 17:01

BF16 support on Metal

c1d0af0

Faster BF16 Metal dot product

8e80d15

ikawrakow merged commit 4ee889f into main Sep 17, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

BF16 support on Metal #56

BF16 support on Metal #56

ikawrakow commented Sep 16, 2024 •

edited

Loading

BF16 support on Metal #56

BF16 support on Metal #56

Conversation

ikawrakow commented Sep 16, 2024 • edited Loading

ikawrakow commented Sep 16, 2024 •

edited

Loading