Hoppa till huvudinnehåll

Aktuellt

Nyhet

How native and non-native speakers talk to each other

We at Språkbanken Text have just released a new corpus of native (L1) and non-native (L2) speech in four languages: English, Spanish, French and Italian.
Blogg

How native and non-native speakers talk to each other

We at Språkbanken Text have just released a new corpus of native (L1) and non-native (L2) speech in four languages: English, Spanish, French and Italian.

Nyhet

Sparv 4 är släppt

En ny version av Språkbanken Texts korpuspipeline Sparv har nu släppts. I den här versionen har vi skrivit om Sparv från grunden och gjort verktyget mer användarvänligt. Sparv har även fått nya språkmodeller som leder till en bättre ordklasstaggning och dependensparsning.

Nyhet

Ledig tjänst: projektassistent - en eller flera

Göteborgs universitet ledigförklarar intermittent anställning som projektassistent (en eller flera) med placering vid Språkbanken Text, institutionen för svenska språket. Läs mer här: 

Nyhet

New diachronic word embeddings models trained on newspaper data

Yesterday, we have released word embedding models trained on our historical newspaper archive, Kubhist 2. Word embedding models represent words using vectors and place them in their semantic neighbourhood such that words that are similar are closer together.

Nyhet

New blog corpus in Korp

SIC2, a small corpus of blogs with gold part-of-speech, morphosyntactic and named-entity tags, as well as basic info about the authors, has been added to Korp.
Nyhet

SLTC 2020

Den svenska språkteknologiska konferensen (SLTC) äger rum den 25–27 november med fyra workshopar onsdagen den 25 november och huvudkonferensen torsdag–fredag den 26–27 november. Det är den åttonde konferensen i raden och den hålls vartannat år. I år är det ett helt digitalt arrangemang med mer än 200 registrerade deltagare från hela världen.
Nyhet

Pretrained model for lemmatization of Swedish

We have added a pretrained model for lemmatization of Swedish text to our model collection.

Nyhet

Miljoner till projekt om terrorismens historia

Det tvärvetenskapliga projektet SweTerror tilldelas drygt 22 miljoner kronor i årets utlysning av Digitalisering och kulturarv (DIGARV). Projektet förenar talteknologisk och humanistisk analys och är ett samarbete mellan Språkbanken Tal vid Kungliga tekniska högskolan (KTH), Centrum för digital humaniora (CDH) och Språkbanken Text vid Göteborgs universitet.
Nyhet

2nd International Workshop on Computational Approaches to Historical Language Change 2021 (LChange'21)

Språkbanken Text, and the project Towards Computational Lexical Semantic Change Detection are organizing a second LChange workshop on Computational Approaches to Historical Language Change in August, 2021.

Nyhet

2nd International Workshop on Computational Approaches to Historical Language Change 2021 (LChange'21)

Språkbanken Text, and projektet Towards Computational Lexical Semantic Change Detection organiserar en andra workshop inom LChange-serien om beräkningsmodeller för historiska språkförändringar som är planerad till augusti 2021.

Nyhet

Digitalt seminarium: Maskinöversättning och öppna språkdata

Den 12 november 2020 arrangerar Isof och Språkbanken Sam ett digitalt seminarium om maskinöversättning och om behovet av att identifiera och samla in språkresurser från svenska myndigheter.
Nyhet

Pseudonymization of learner essays as a way to meet GDPR requirements

This blog is based on joint research with Yousuf (Samir) Ali Mohammed, Arild Matsson, Beáta Megyesi and Sandra Derbring Access to language data is an obvious prerequisite for research in digital humanities in general, and for the development of NLP-based tools in particular.
Blogg

Pseudonymization of learner essays as a way to meet GDPR requirements

This blog is based on the author's (Elena Volodina's) joint research with Yousuf (Samir) Ali Mohammed, Arild Matsson, Beáta Megyesi and Sandra Derbring

Nyhet

Lär dig mer om crowdsourcing och maskintranskribering

Under oktober och november 2020 arrangerar Språkbanken Sam flera webbinarier om crowdsourcing och maskintranskribering.
Nyhet

Flerordingar: ord som består av flera delar

När vi tänker på ord så tänker vi oftast på enheter som i text omges av blanksteg (mellanrum): ’huset’, ’superstor’, ’bloggade’. De flesta skulle nog säga att ’idag’ är ett ord, men hur är det om vi skriver det (också rättstavat) ’i dag’ då? ’Mont Blanc-tunneln’? ’Röda blodkroppar’?

Blogg

Flerordingar: ord som består av flera delar

När vi tänker på ord så tänker vi oftast på enheter som i text omges av blanksteg (mellanrum): 'huset', 'superstor', 'bloggade'. De flesta skulle nog säga att 'idag' är ett ord, men hur är det om vi skriver det (också rättstavat) 'i dag' då? 'Mont Blanc-tunneln'?

Nyhet

Stort deltagade vid årskonferens inom CLARIN (Common Language Resources and Technology Infrastructure)

Språkbanken Text är ett CLARIN (auktoriserat) B-center och därför även en viktig komponent i den europeiska forskningsinfrastrukturen CLARIN ERIC. Förra veckan gick den årliga CLARIN-konferensen av stapeln virtuellt, vilket möjliggjorde att flera av oss på Språkbanken Text kunde delta.
Nyhet

Keynote at the Synergies conference - Bridging the Gap Between Traditional and Digital Literary Studies.

Last week, Nina Tahmasebi, Associate professor in NLP at Språkbanken, gave a keynote entitled "The Strengths and Pitfalls of Large-Scale Text Mining for Literary Studies" that equally applies to any text-oriented digital humanities or social science research.

 

Nyhet

Keynote at the Synergies conference - Bridging the Gap Between Traditional and Digital Literary Studies.

I förra veckan gav Nina Tahmasebi, docent i språkteknologi vid Språkbanken Text, en keynote om storskalig textanalys för litteraturvetenskap som appliceras likaväl till alla storskaliga texter inom digital humaniora och samhällsvetenskap.