2018

BERT og GPT

BERT fra Google og GPT fra OpenAI viste, at fortræning på store tekstmængder kan give stærke modeller, som senere kan tilpasses konkrete opgaver. Det gjorde transfer learning til en standard i NLP.

I 2018 skiftede NLP-feltet retning. OpenAI lancerede GPT-ideen, og Google fulgte med BERT. Begge modeller viste, at fortræning på store mængder tekst giver bedre resultater end at starte fra bunden hver gang.

Fortræning som standard

Tidligere blev modeller trænet til én opgave ad gangen, hvilket krævede store mærkede datasæt. Med BERT og GPT blev fortræning på store, ustrukturerede tekstkilder normal praksis. Når modellen først havde lært generelle mønstre i sprog, kunne den tilpasses nye opgaver med meget mindre data.

BERT og GPT i korte træk

BERT bruger en bidirektionel tilgang og ser både venstre og højre kontekst. GPT er generativ og forudsiger næste ord i rækken. Forskellen gør BERT stærk til forståelsesopgaver og GPT stærk til tekstgenerering. Begge modeller satte nye standarder på tværs af opgaver.

Konsekvenser for feltet

Pre-training gjorde NLP mere tilgængeligt. Små teams kunne få gode resultater uden enorme mærkede datasæt. Det ændrede også industrien, hvor store sprogmodeller nu blev en platform, som produkter kunne bygges oven på.

Impact og Betydning

BERT og GPT gjorde fortræning til en grundregel i NLP. De næste modeller byggede videre på samme idé og blev både større og bedre. Effekten rakte ud over sprog og påvirkede også vision og multimodale modeller.

Kilder og Videre Læsning

BERT: Pre-training of Deep Bidirectional Transformers

https://arxiv.org/abs/1810.04805

Improving Language Understanding by Generative Pre-Training (GPT)

https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

Tilbage til tidslinje