• Heim
  • Gagnasafn
  • Um CLARIN á Íslandi
  • CLARIN
  •  Login
  • English íslenska
  • CLARIN-IS gagnagrunnur
  • Skoða atriði
  •  
  •   What can you do?
  •   Skima  
    •    Allt varðveislusafnið  
      •   Útgáfudagur
      •   Höfundar
      •   Titlar
      •   Efni
      •   Útgefandi
      •   Tungumál
      •   Gerð
      •   Réttindamerki
  •   My Account  
    •    Login
  •   Statistics  
    •    StatisticsBETA
  •   General Information  
    •    Deposit
    •    Cite
    •    Submission Lifecycle
    •    FAQ
    •    About
    •    Help Desk
 
 

IGC-News2-21.05 (The Icelandic Gigaword Corpus: News 2)

 
Clarin IS Repository
  Authors
Barkarson, Starkaður and Steingrímsson, Steinþór
  Item identifier
http://hdl.handle.net/20.500.12537/142
 Project URL
http://igc.arnastofnun.is
 Demo URL
https://malheildir.arnastofnun.is
 Date issued
2021-09-30
 Type
corpus, text
 Size
49246907 sentences, 855480334 words, 952174584 tokens
 Language(s)
Icelandic
 Description
[ENGLISH] IGC-News2 is a part of the IGC-project (Icelandic Gigaword corpus) that aims to collect as much as possible of Icelandic texts that can be published under aThe corpus-file is temporarily available at https://repository.clarin.is/opin_gogn/documents/IGC-News1-21.05.zip but will later be uploaded to the repository.n open or restricted license. IGC-News1 contains texts from news media. IGC-News2 is published under a restricted licence while IGC-News1 is published under CC_BY. The corpus comes in two formats. One contains the texts untokenized and untagged while the other has been tokenized, POS-tagged and lemmatized. [ICELANDIC] IGC-News2 er hluti af IGC-verkefninu (Íslenska risamálheildin - Icelandic Gigaword corpus) sem hefur að markmiði að safna eins miklum texta og mögulegt er sem gefa má út með opnu eða takmörkuðu leyfi. IGC-News2 inniheldur texta fréttamiðla. IGC-News2 er gefin út með takmörkuðu leyfi en IGC-News1 er gefin út með CC_BY-leyfi. Málheildin er tvískipt. Annar hluti hennar inniheldur skjöl með hreinum texta, án þess að hann hafi verið tókaður. Hinn hlutinn inniheldur textann tókaðan, markaðan og lemmaðan. The corpus-file is temporarily available at https://repository.clarin.is/opin_gogn/documents/IGC-News2-21.05.zip but will later be uploaded to the repository.
 Publisher
The Árni Magnússon Institue for Icelandic Studies
 Acknowledgement

Ministry of Education, Science and Culture (Mennta- og menningamálaráðuneytið)

Project code: Language Technology for Icelandic 2019-2023

Project name: Icelandic Gigaword Corpus (G1)

 Subject(s)
corpora news pos-tagged lemmatized tei
 Collection(s)
Clarin IS
 Other versions
Sýna fulla færslu atriðis
 
 

Samstarfsaðilar, stjórn og fjármögnun

  • Stofnun Árna Magnússonar í Íslenskum fræðum
  • Menningar- og viðskiptaráðuneytið

Gagnasafn

  • Aðalsíða
  • Hafa samband
  • Ferill gagnaskráningar
  • Algengar spurningar
  • Markmið og stefna

Meira

  • CLARIN
  • META-Net

CLARIN verkefnið á Íslandi er stutt af Mennta- og menningarmálaráðuneytinu

Copyright (c) 2023. Stofnun Árna Magnússonar í íslenskum fræðum. Allur réttur áskilinn.