Modelli linguistici fino a 3 volte più veloci: non serve avere una mega GPU
Tre nuovi algoritmi permettono di accelerare l'inferenza dei modelli linguistici fino a 2,8 volte, senza perdita di qualità e anche con vocabolari diversi. Sviluppati da Weizmann Institute, Intel Labs e d-Matrix, sono già integrati in Hugging Face Transformers, rendendo la speculative decoding più accessibile e flessibile per sviluppatori e ricercatori.