Et korpus er en større mængde af tekster indsamlet og tilgængelig i elektronisk form.

Faktaboks

Etymologi

Ordet kommer fra latin corpus 'krop, legeme'.

Korpusser bruges hovedsageligt til kvalitative og kvantitative undersøgelser af sproget (korpuslingvistik), til udarbejdelse af ordbøger og til udvikling af sprogteknologi og kunstig intelligens i form af store statistiske repræsentationer af sproget (også kaldet sprogmodeller eller LLM-er).

Korpus 90 og Korpus 2000

Det Danske Sprog- og Litteraturselskab har således indsamlet to danske korpusser, Korpus 90 og Korpus 2000, som dækker perioderne 1988-1992 og 1998-2002, i alt ca. 50 mio. ord. Derved bliver det muligt at sammenligne ordforråd og sprogbrug i de to perioder. Korpusserne er tilgængelige fra ordbogsportalen ordnet.dk.

Træning af sprogmodeller

De sprogteknologiske og datalogiske forskningsmiljøer har i nyere tid også indsamlet store tekstmængder til brug til træning af store sprogmodeller (LLM-er), fx GigaWord udviklet ved IT-Universitetet i samarbejde med andre institutioner, og senest Dynaword udviklet ved Århus Universitet, som lægger op til kontinuerlig udvikling via fælles tekstbidrag fra interessenter.

Opmærkninger

Teksterne i et korpus kan forsynes med eksterne og interne opmærkninger. De eksterne opmærkninger indeholder oplysninger om teksten som helhed, fx forfatter, årstal og kilde. De interne opmærkninger indeholder oplysninger om tekstens byggesten. For de enkelte ord angives ordklasse og betydning, for ordforbindelser angives afgrænsning og betegnelse, for samtaler angives replikskifte og talere. De eksterne oplysninger gør det muligt at filtrere, så man fx kan søge i tekster skrevet udelukkende af mænd eller tekster fra en bestemt avis. De interne oplysninger gør det muligt at frasortere homografer, så man fx kan skelne mellem (adverbium) og (verbum), og at søge efter bestemte sætningskonstruktioner eller ordbetydninger. Søgninger i korpusser præsenteres ofte i form af konkordanser. Således præsenterer en KWIC-konkordans (Keyword in Context) de fundne ordforekomster på hver linje omgivet af et antal ord på hver side.

Læs mere i Lex

Kommentarer

Kommentarer til artiklen bliver synlige for alle. Undlad at skrive følsomme oplysninger, for eksempel sundhedsoplysninger. Fagansvarlig eller redaktør svarer, når de kan.

Du skal være logget ind for at kommentere.

eller registrer dig