PromptSkolen Text Logo
Tilbage til tidslinje
2017

Transformer-arkitekturen

Google Brain introducerede transformer-arkitekturen i paperet "Attention is All You Need". Den gjorde det muligt at behandle lange tekstsekvenser mere effektivt og blev basis for moderne sprogmodeller.

Transformer-arkitekturen

I juni 2017 udgav et team fra Google Brain et paper med titlen "Attention is All You Need". Her beskrev de transformer-arkitekturen, som skulle ændre næsten alt i moderne sprogbehandling.

Hvorfor de gamle modeller var begrænsede

Før transformers var RNN-modeller som LSTM de bedste til sprog. De læste tekst ord for ord, hvilket gjorde dem langsomme og svære at parallelisere. De havde også problemer med lange tekster, fordi information “forsvandt” på vejen. Det gjorde dem upræcise på længere sekvenser.

Self-attention i praksis

Transformers bruger self-attention, hvor hvert ord vurderer sin relation til alle andre ord i sætningen. Det gør det muligt at fange betydning og kontekst uden at læse teksten sekventielt. Modellen kan derfor arbejde hurtigere og mere præcist, især på lange tekster.

Hvorfor det blev standarden

Arkitekturen gjorde det muligt at træne hurtigt på GPU’er og skaleres til store datasæt. Først blev den brugt til maskinoversættelse, men snart blev den fundamentet for BERT og GPT. Siden er den blevet standarden i moderne NLP og bruges nu også i vision og multimodale systemer.

Transformer-arkitekturen - billede 1
Transformer-arkitekturen - billede 2

Impact og Betydning

Transformer-arkitekturen er grundlaget for næsten alle moderne sprogmodeller. Den bruges i GPT-serien, BERT-familien og mange nyere multimodale systemer. Indflydelsen rækker derfor langt ud over sprog og har ændret hele AI-landskabet.