Datalingvistik er en gren af sprogvidenskaben, der har som mål at forstå, beskrive og videreudvikle sproglig repræsentation i formelle systemer, som fx i en sprogmodel.
Datalingvistikken er næsten lige så gammel som computeren. Meget tidligt mente man fx, at maskinerne kunne bruges til at oversætte med hvilket i nyere tid er lykkedes i temmelig høj grad ved at bruge statistiske tilgange til sprogbeskrivelse. Anvendt datalingvistik og taleteknologi betegnes også natural language processing, og i dag adskiller datalingvistikken (på engelsk benævnt computational linguistics) sig fra de mere tekniske tilgange ved at interessere sig indgående for hvordan sproglig viden, fx viden om syntaks, metaforer og flertydighed, er forankret i de statistiske repræsentationer, og hvordan fx en flersproglig sprogmodel håndterer at arbejde med flere sprog samtidig.
I sin begyndelse anvendte man i datalingvistikken den såkaldt regelbaserede tilgang. Denne tilgang bygger på den antagelse, at korrekte sætninger på et hvilket som helst sprog er opbygget efter bestemte formelle regler. Man formulerede altså de formelle regler der gælder for et givet sprogs opbygning i relation til fx morfologi, syntaks og semantik.
Den statistiske tilgang til datalingvistikken, som er den fremherskende i dag, benytter avancerede statistiske modeller eller såkaldte neurale netværk eller sprogmodeller. Denne fremgangsmåde forudsætter, at der kan trænes på et stort datamateriale i form af et tekst- eller talekorpus. I træningsfasen opbygger de statistiske programmer hypoteser om sproglige regelmæssigheder ud fra de gentagelsesmønstre, der forekommer i datamaterialet. Derefter kan programmet anvendes på ukendte data og fx kreativt generere ny tekst ud fra tidligere set tekst. De statistiske metoder fandt først anvendelse inden for taleteknologien, nemlig ved talegenkendelse, dvs. maskinel oversættelse af sproglyde til skreven tekst, og ved talesyntese, dvs. maskinel oplæsning af skreven tekst. Siden bruges de statistiske metoder i moderne sprogmodeller, som udgør kernen i populære chatbotter som fx ChatGPT og i oversættelsessystemer som Google-Translate.
Kommentarer
Kommentarer til artiklen bliver synlige for alle. Undlad at skrive følsomme oplysninger, for eksempel sundhedsoplysninger. Fagansvarlig eller redaktør svarer, når de kan.
Du skal være logget ind for at kommentere.