Od nagrania do korpusu, czyli o metodzie archiwizowania języka mówionego mieszkańców wsi z wykorzystaniem narzędzi lingwistyki cyfrowej
Main Article Content
Abstrakt
The article presents the method of archiving of the rural speech during the development of the electronic language corpus. Attention is focused on how to get spoken data and transcription of non-standard dialect code. It also presents the problems and limitations resulting from nonnormative spoken data and the solutions applied. The recording and converting of spoken language data for corpus is a complex and multi-phase process. The data is obtained from recorded interviews with respondents. The developed system of spoken data transcription combines the properties of non-standard code, the capabilities of tools and needs of corpus.
Downloads
Article Details
Utwór dostępny jest na licencji Creative Commons Uznanie autorstwa – Użycie niekomercyjne – Bez utworów zależnych 4.0 Międzynarodowe.
Autor, zgłaszając tekst do redakcji czasopisma „Annales Universitatis Paedagogicae Cracoviensis. Studia Linguistica”, zaświadcza, iż jest on rezultatem wyłącznie jego własnej twórczości, że treść artykułu nie była dotychczas publikowana oraz że utwór nie narusza w żadnym stopniu praw autorskich ani praw pokrewnych innych osób, jak również innych praw osób trzecich, a także, że niczyje prawa do utworu (lub jego jakiejkolwiek części) nie zostały pominięte. Po podpisaniu umowy prawa majątkowe do opublikowanych materiałów zostają przeniesione na Wydawnictwo Naukowe Uniwersytetu Komisji Edukacji Narodowej w Krakowie.
Rocznik „Annales Universitatis Paedagogicae Cracoviensis. Studia Linguistica” to czasopismo o otwartym dostępie, a cała jego zawartość jest udostępniana bezpłatnie dla użytkowników i instytucji na zasadach licencji Creative Commons CC-BY-NC-ND 4.0 (uznanie autorstwa, użycie niekomercyjne, bez utworów zależnych). Na podstawie tej licencji autorzy zgadzają się, że ich prace mogą być zgodnie z prawem ponownie wykorzystywane do jakichkolwiek celów, za wyjątkiem celów komercyjnych, bez konieczności uzyskania uprzedniej zgody ze strony autora lub wydawcy. Każdy może prace te czytać, pobierać, kopiować, drukować, rozpowszechniać oraz przetwarzać, pod warunkiem poprawnego oznaczenia autorstwa oraz oryginalnego miejsca publikacji. Publikowanych tekstów nie można wykorzystywać do tworzenia utworów zależnych (np. do tłumaczenia ich i publikowania w innym języku bez zgody wydawcy). Jest to zgodne z definicją otwartego dostępu BOAI (Budapest Open Access Initiative) „Studia Linguistica”nie pobiera opłat za składanie artykułów ani ich przetwarzanie.
Autor, przesyłając artykuł do redakcji „Studia Linguistica”, bezwględnie zgadza się z poniższymi punktami:
-
Oświadczam, że jestem Autorem lub Współautorem nadesłanego tekstu. Przesłany tekst nie był nigdzie publikowany, jest całkowicie oryginalny i nie narusza w żadnym stopniu praw autorskich ani praw pokrewnych innych osób, jak również innych praw osób trzecich, a także, że niczyje prawa do utwory nie zostały pominięte.
-
Oświadczam, że nadesłany tekst nie został złożony do recenzji lub/i publikacji w innym czasopiśmie.
-
Przyjmuję do wiadomości, że Autor ponosi pełną odpowiedzialność za każdy przypadek plagiatu, niezależnie od tego, czy został on wykryty podczas procesu recenzji, czy po publikacji w „Studia Linguistica”.
-
Oświadczam, że ponoszę pełną odpowiedzialność finansową i prawną za wszelkie roszczenia związane z utworem.
-
Potwierdzam uznanie wszystkich źródeł danych wykorzystanych i cytowanych w badaniach.
-
Potwierdzam, że artykuł został wykonany z należytą starannością zgodnie ze standardami edytorskimi „Studia Linguistica”.
Bibliografia
Bańko M., Kłosińska A., 1994, Polszczyzna mówiona nieobecna w słownikach, [w:] Współczesna polszczyzna mówiona w odmianie opracowanej (oficjalnej), red. Z. Kurzowa, W. Śliwiński, Kraków, s. 89–96.
Google Scholar
Dunaj B., 1986, Dialektologia a socjolingwistyka, „Folia Linguistica” 12, s. 15–23.
Google Scholar
Grochola-Szczepanek H., Górski R.L., von Waldenfels R., Woźniak M., 2019, Korpus języka mówionego mieszkańców Spisza, „LingVaria” LV/1, s. 165–180.
Google Scholar
Grochola-Szczepanek H., Woźniak M., 2018a, Badania korpusowe języka mieszkańców Spisza a czynnik pokoleniowy, [w:] Dialog pokoleń w języku i językoznawstwie, red. E. Wierzbicka-Piotrowska, Warszawa, s. 79–90.
Google Scholar
Grochola-Szczepanek H., Woźniak M., 2018b, Transkrypcja języka mieszkańców wsi w aplikacji ELAN w Korpusie Spiskim, [w:] Historia języka, dialektologia i onomastyka w nowych kontekstach interpretacyjnych, red. R. Przybylska, M. Rak, A. Kwaśnicka-Janowicz, Kraków, s. 267–278.
Google Scholar
Klessa K., Wagner A., Oleśkowicz‑Popiel M., Karpiński M., 2013, Paralingua – A New Speech Corpus for the Studies of Paralinguistic Features, „Procedia‑Social and Behavioral Sciences” 95, s. 48–58.
Google Scholar
Labocha J., 2012, Pragmatyczne mechanizmy składni języka mówionego, „Slavia Occidentalis” 69, s. 139–145.
Google Scholar
Lewaszkiewicz T., 2017, O zapisach fonetycznych polskiej i słowiańskiej mowy ludowej i potocznej, „Gwary Dziś” 9, s. 183–197.
Google Scholar
Przybylska R., 2009, Badania nad polszczyzną mówioną a leksykografia, [w:] Polszczyzna mówiona ogólna i regionalna, red. B. Dunaj, M. Rak, Kraków, s. 33–39.
Google Scholar
Sierociuk J., 2009, Zasoby fonograficzne Zakładu Dialektologii Polskiej Uniwersytetu im. Adama Mickiewicza i ich przydatność w badaniach procesów rozwojowych polszczyzny mówionej, [w:] Polszczyzna mówiona ogólna i regionalna, red. B. Dunaj, M. Rak, Kraków, s. 179–188.
Google Scholar
Wagner A., Bachan J., Klessa K., Demenko G., 2015, Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby technologii mowy, „Prace Filologiczne” LXVI, s. 271–298.
Google Scholar
Waldenfels R. von, Woźniak M., 2016, SpoCo – a simple and adaptable web interface for dialect corpora, „Journal for Language Technology and Computational Linguistics” 31, s. 155–170.
Google Scholar
Baza Mazak, Akustyczna baza danych gwar mazowieckich. Wokalizm, http://www.bazamazak.uw.edu.pl/ (dostęp: 07.02.2021).
Google Scholar
Český národní korpus, http://ucnk.ff.cuni.cz (dostęp: 07.02.2021).
Google Scholar
GOS – Referenčni govorni korpus slovenskega jezika, http://korpus-gos.net (dostęp: 07.02.2021).
Google Scholar
Korpus Spiski, Język mieszkańców Spisza. Korpus tekstów i nagrań gwarowych, http://spisz.ijp.pan.pl (dostęp: 07.02.2021).
Google Scholar
NKJP – Narodowy Korpus Języka Polskiego, http://nkjp.pl (dostęp: 07.02.2021).
Google Scholar
Pęzik P., 2012, Język mówiony w NKJP, [w:] Narodowy Korpus Języka Polskiego, red. A. Przepiórkowski, M. Bańko, R. Górski, B. Lewandowska‑Tomaszczyk, Warszawa, s. 37–47, http://nkjp.pl/index.php?page=3&lang=0 (dostęp: 27.02.2021).
Google Scholar
Pęzik P., 2014, Spokes – a search and exploration service for conversational corpus data, https://clarin-pl.eu/dspace/bitstream/handle/11321/47/spokes_pezik.pdf?sequence=5&isAllowed=y (dostęp: 10.01.2021).
Google Scholar
Przepiórkowski A., Bańko M., Górski R.L., Lewandowska-Tomaszczyk B. (red.), 2012, Narodowy Korpus Języka Polskiego, Warszawa, http://nkjp.pl/index.php?page=3&lang=0 (dostęp: 27.02.2021).
Google Scholar
Spokes-CLARIN, http://spokes.clarin-pl.eu/ (dostęp: 07.02.2021).
Google Scholar