Aktuellt | Språkbanken

Aktuellt

News item 2020-12-09

How native and non-native speakers talk to each other

We at Språkbanken Text have just released a new corpus of native (L1) and non-native (L2) speech in four languages: English, Spanish, French and Italian.

Blog 2020-12-09

How native and non-native speakers talk to each other

We at Språkbanken Text have just released a new corpus of native (L1) and non-native (L2) speech in four languages: English, Spanish, French and Italian.

News item 2020-12-07

Sparv 4 är släppt

En ny version av Språkbanken Texts korpuspipeline Sparv har nu släppts. I den här versionen har vi skrivit om Sparv från grunden och gjort verktyget mer användarvänligt. Sparv har även fått nya språkmodeller som leder till en bättre ordklasstaggning och dependensparsning.

News item 2020-12-07

Ledig tjänst: projektassistent - en eller flera

Göteborgs universitet ledigförklarar intermittent anställning som projektassistent (en eller flera) med placering vid Språkbanken Text, institutionen för svenska språket. Läs mer här:

News item 2020-12-03

New diachronic word embeddings models trained on newspaper data

Yesterday, we have released word embedding models trained on our historical newspaper archive, Kubhist 2. Word embedding models represent words using vectors and place them in their semantic neighbourhood such that words that are similar are closer together.

News item 2020-11-27

New blog corpus in Korp

SIC2, a small corpus of blogs with gold part-of-speech, morphosyntactic and named-entity tags, as well as basic info about the authors, has been added to Korp.

News item 2020-11-23

SLTC 2020

Den svenska språkteknologiska konferensen (SLTC) äger rum den 25–27 november med fyra workshopar onsdagen den 25 november och huvudkonferensen torsdag–fredag den 26–27 november. Det är den åttonde konferensen i raden och den hålls vartannat år. I år är det ett helt digitalt arrangemang med mer än 200 registrerade deltagare från hela världen.

News item 2020-11-20

Pretrained model for lemmatization of Swedish

We have added a pretrained model for lemmatization of Swedish text to our model collection.

News item 2020-11-13

Miljoner till projekt om terrorismens historia

Det tvärvetenskapliga projektet SweTerror tilldelas drygt 22 miljoner kronor i årets utlysning av Digitalisering och kulturarv (DIGARV). Projektet förenar talteknologisk och humanistisk analys och är ett samarbete mellan Språkbanken Tal vid Kungliga tekniska högskolan (KTH), Centrum för digital humaniora (CDH) och Språkbanken Text vid Göteborgs universitet.

News item 2020-11-12

2nd International Workshop on Computational Approaches to Historical Language Change 2021 (LChange'21)

Språkbanken Text, and the project Towards Computational Lexical Semantic Change Detection are organizing a second LChange workshop on Computational Approaches to Historical Language Change in August, 2021.

News item 2020-11-12

2nd International Workshop on Computational Approaches to Historical Language Change 2021 (LChange'21)

Språkbanken Text, and projektet Towards Computational Lexical Semantic Change Detection organiserar en andra workshop inom LChange-serien om beräkningsmodeller för historiska språkförändringar som är planerad till augusti 2021.

News item 2020-10-29

Digitalt seminarium: Maskinöversättning och öppna språkdata

Den 12 november 2020 arrangerar Isof och Språkbanken Sam ett digitalt seminarium om maskinöversättning och om behovet av att identifiera och samla in språkresurser från svenska myndigheter.

News item 2020-10-27

Pseudonymization of learner essays as a way to meet GDPR requirements

This blog is based on joint research with Yousuf (Samir) Ali Mohammed, Arild Matsson, Beáta Megyesi and Sandra Derbring Access to language data is an obvious prerequisite for research in digital humanities in general, and for the development of NLP-based tools in particular.

Blog 2020-10-27

Pseudonymization of learner essays as a way to meet GDPR requirements

This blog is based on the author's (Elena Volodina's) joint research with Yousuf (Samir) Ali Mohammed, Arild Matsson, Beáta Megyesi and Sandra Derbring

News item 2020-10-20

Lär dig mer om crowdsourcing och maskintranskribering

Under oktober och november 2020 arrangerar Språkbanken Sam flera webbinarier om crowdsourcing och maskintranskribering.

News item 2020-10-15

Flerordingar: ord som består av flera delar

När vi tänker på ord så tänker vi oftast på enheter som i text omges av blanksteg (mellanrum): ’huset’, ’superstor’, ’bloggade’. De flesta skulle nog säga att ’idag’ är ett ord, men hur är det om vi skriver det (också rättstavat) ’i dag’ då? ’Mont Blanc-tunneln’? ’Röda blodkroppar’?

Blog 2020-10-15

Flerordingar: ord som består av flera delar

När vi tänker på ord så tänker vi oftast på enheter som i text omges av blanksteg (mellanrum): 'huset', 'superstor', 'bloggade'. De flesta skulle nog säga att 'idag' är ett ord, men hur är det om vi skriver det (också rättstavat) 'i dag' då? 'Mont Blanc-tunneln'?

News item 2020-10-12

Stort deltagade vid årskonferens inom CLARIN (Common Language Resources and Technology Infrastructure)

Språkbanken Text är ett CLARIN (auktoriserat) B-center och därför även en viktig komponent i den europeiska forskningsinfrastrukturen CLARIN ERIC. Förra veckan gick den årliga CLARIN-konferensen av stapeln virtuellt, vilket möjliggjorde att flera av oss på Språkbanken Text kunde delta.

News item 2020-10-02

Keynote at the Synergies conference - Bridging the Gap Between Traditional and Digital Literary Studies.

Last week, Nina Tahmasebi, Associate professor in NLP at Språkbanken, gave a keynote entitled "The Strengths and Pitfalls of Large-Scale Text Mining for Literary Studies" that equally applies to any text-oriented digital humanities or social science research.

News item 2020-10-02

Keynote at the Synergies conference - Bridging the Gap Between Traditional and Digital Literary Studies.

I förra veckan gav Nina Tahmasebi, docent i språkteknologi vid Språkbanken Text, en keynote om storskalig textanalys för litteraturvetenskap som appliceras likaväl till alla storskaliga texter inom digital humaniora och samhällsvetenskap.