Hierarchical Transformers Are More Efficient Language Models

Nawrot, P.; Tworkowski, S.; Tyrolski, M.; Kaiser, L.; Wu, Y.; Szegedy, C. [Szegedy, Krisztián (Matematika és mes...), szerző]; Michalewski, H.

Angol nyelvű Konferenciaközlemény (Könyvrészlet) Tudományos
    Azonosítók
    Hivatkozás stílusok: IEEEACMAPAChicagoHarvardCSLMásolásNyomtatás
    2026-01-18 05:40