Skip to main content

Aktuellt

News item

How native and non-native speakers talk to each other

We at Språkbanken Text have just released a new corpus of native (L1) and non-native (L2) speech in four languages: English, Spanish, French and Italian.
Blog

How native and non-native speakers talk to each other

We at Språkbanken Text have just released a new corpus of native (L1) and non-native (L2) speech in four languages: English, Spanish, French and Italian.

News item

Sparv 4 är släppt

En ny version av Språkbanken Texts korpuspipeline Sparv har nu släppts. I den här versionen har vi skrivit om Sparv från grunden och gjort verktyget mer användarvänligt. Sparv har även fått nya språkmodeller som leder till en bättre ordklasstaggning och dependensparsning.

News item

Ledig tjänst: projektassistent - en eller flera

Göteborgs universitet ledigförklarar intermittent anställning som projektassistent (en eller flera) med placering vid Språkbanken Text, institutionen för svenska språket. Läs mer här: 

News item

New diachronic word embeddings models trained on newspaper data

Yesterday, we have released word embedding models trained on our historical newspaper archive, Kubhist 2. Word embedding models represent words using vectors and place them in their semantic neighbourhood such that words that are similar are closer together.

News item

New blog corpus in Korp

SIC2, a small corpus of blogs with gold part-of-speech, morphosyntactic and named-entity tags, as well as basic info about the authors, has been added to Korp.
News item

SLTC 2020

Den svenska språkteknologiska konferensen (SLTC) äger rum den 25–27 november med fyra workshopar onsdagen den 25 november och huvudkonferensen torsdag–fredag den 26–27 november. Det är den åttonde konferensen i raden och den hålls vartannat år. I år är det ett helt digitalt arrangemang med mer än 200 registrerade deltagare från hela världen.
News item

Pretrained model for lemmatization of Swedish

We have added a pretrained model for lemmatization of Swedish text to our model collection.

News item

Miljoner till projekt om terrorismens historia

Det tvärvetenskapliga projektet SweTerror tilldelas drygt 22 miljoner kronor i årets utlysning av Digitalisering och kulturarv (DIGARV). Projektet förenar talteknologisk och humanistisk analys och är ett samarbete mellan Språkbanken Tal vid Kungliga tekniska högskolan (KTH), Centrum för digital humaniora (CDH) och Språkbanken Text vid Göteborgs universitet.
News item

2nd International Workshop on Computational Approaches to Historical Language Change 2021 (LChange'21)

Språkbanken Text, and the project Towards Computational Lexical Semantic Change Detection are organizing a second LChange workshop on Computational Approaches to Historical Language Change in August, 2021.

News item

2nd International Workshop on Computational Approaches to Historical Language Change 2021 (LChange'21)

Språkbanken Text, and projektet Towards Computational Lexical Semantic Change Detection organiserar en andra workshop inom LChange-serien om beräkningsmodeller för historiska språkförändringar som är planerad till augusti 2021.

News item

Digitalt seminarium: Maskinöversättning och öppna språkdata

Den 12 november 2020 arrangerar Isof och Språkbanken Sam ett digitalt seminarium om maskinöversättning och om behovet av att identifiera och samla in språkresurser från svenska myndigheter.
News item

Pseudonymization of learner essays as a way to meet GDPR requirements

This blog is based on joint research with Yousuf (Samir) Ali Mohammed, Arild Matsson, Beáta Megyesi and Sandra Derbring Access to language data is an obvious prerequisite for research in digital humanities in general, and for the development of NLP-based tools in particular.
Blog

Pseudonymization of learner essays as a way to meet GDPR requirements

This blog is based on the author's (Elena Volodina's) joint research with Yousuf (Samir) Ali Mohammed, Arild Matsson, Beáta Megyesi and Sandra Derbring

News item

Lär dig mer om crowdsourcing och maskintranskribering

Under oktober och november 2020 arrangerar Språkbanken Sam flera webbinarier om crowdsourcing och maskintranskribering.
News item

Flerordingar: ord som består av flera delar

När vi tänker på ord så tänker vi oftast på enheter som i text omges av blanksteg (mellanrum): ’huset’, ’superstor’, ’bloggade’. De flesta skulle nog säga att ’idag’ är ett ord, men hur är det om vi skriver det (också rättstavat) ’i dag’ då? ’Mont Blanc-tunneln’? ’Röda blodkroppar’?

Blog

Flerordingar: ord som består av flera delar

När vi tänker på ord så tänker vi oftast på enheter som i text omges av blanksteg (mellanrum): 'huset', 'superstor', 'bloggade'. De flesta skulle nog säga att 'idag' är ett ord, men hur är det om vi skriver det (också rättstavat) 'i dag' då? 'Mont Blanc-tunneln'?

News item

Stort deltagade vid årskonferens inom CLARIN (Common Language Resources and Technology Infrastructure)

Språkbanken Text är ett CLARIN (auktoriserat) B-center och därför även en viktig komponent i den europeiska forskningsinfrastrukturen CLARIN ERIC. Förra veckan gick den årliga CLARIN-konferensen av stapeln virtuellt, vilket möjliggjorde att flera av oss på Språkbanken Text kunde delta.
News item

Keynote at the Synergies conference - Bridging the Gap Between Traditional and Digital Literary Studies.

Last week, Nina Tahmasebi, Associate professor in NLP at Språkbanken, gave a keynote entitled "The Strengths and Pitfalls of Large-Scale Text Mining for Literary Studies" that equally applies to any text-oriented digital humanities or social science research.

 

News item

Keynote at the Synergies conference - Bridging the Gap Between Traditional and Digital Literary Studies.

I förra veckan gav Nina Tahmasebi, docent i språkteknologi vid Språkbanken Text, en keynote om storskalig textanalys för litteraturvetenskap som appliceras likaväl till alla storskaliga texter inom digital humaniora och samhällsvetenskap.