Wielojęzyczne edycje źródeł w przetwarzaniu języka naturalnego – studium przypadku wybranych akt sejmikowych z Wielkiego Księstwa Litewskiego

Albert Byrski

doi:10.18290/rh25732.6s

Data publikacji : 2025-12-29

Tom 73 Nr 2 Zeszyt specjalny (2025)

Wielojęzyczne edycje źródeł w przetwarzaniu języka naturalnego – studium przypadku wybranych akt sejmikowych z Wielkiego Księstwa Litewskiego

Albert Byrski

https://orcid.org/0000-0003-0595-2839

DOI: https://doi.org/10.18290/rh25732.6s

Abstrakt

Artykuł omawia wyzwania związane z komputerową analizą wielojęzycznych tekstów historycznych na przykładzie akt sejmikowych z terenu Wielkiego Księstwa Litewskiego. Przedstawiono proces przygotowania danych: ekstrakcję tekstu z plików PDF, czyszczenie oraz anotację językową. Szczególną uwagę poświęcono problemom wynikającym z braku ujednoliconych edycji cyfrowych, współczesnych modyfikacji ortograficznych oraz wielojęzyczności tekstów (polski, ruski, łacina). Wykorzystano narzędzia NLP, takie jak Morfeusz (Korbeusz), Concraft oraz Stanza. Podkreślono znaczenie dostosowania narzędzi do specyfiki materiału historycznego i konieczność dalszej standaryzacji anotacji w ramach Universal Dependencies.

Słowa kluczowe:

przetwarzanie języka naturalnego, akta sejmikowe, edycje źródeł, wielojęzyczność, Wielkie Księstwo Litewskie

Szczegóły

Bibliografia

Statystyki

Autorzy

Pobierz pliki

pdf

Wskaźniki altmetryczne

Cited by / Share

Licencja

Utwór dostępny jest na licencji Creative Commons Uznanie autorstwa – Użycie niekomercyjne – Bez utworów zależnych 4.0 Międzynarodowe.

Bibliografia

Ambroziak, Tomasz. „Jak wydawać cyrylickie akta sejmikowe? Analiza rosyjskich, ukraińskich i białoruskich współczesnych zasad wydawniczych oraz wybranej praktyki edytorskiej”, cz. 1. Miscellanea Historico-Iuridica 21, nr 1 (2022): 321–45.

Andreassen, Helene, Hanne Grønnestad. „The Tromsø Old Russian and OCS Treebank (TOROT)”. Scripta & e-Scripta nr 14–15 (2015): 9–25. https:// munin.uit.no/handle/10037/22366.

Augustyniak, Urszula. Koncepcje narodu i społeczeństwa w literaturze plebejskiej od końca XVI do końca XVII w. Warszawa: Państwowe Wydawnictwo Naukowe, 1989.

Augustyniak, Urszula. „Polska i łacińska terminologia ustrojowa w publicystyce politycznej epoki Wazów”. W Łacina jako język elit, red. Jerzy Axer, 33-71. Warszawa: Wydawnictwo DiG, 2004.

Augustyniak, Urszula. „Wolność szlachcica w Rzeczypospolitej XVII w. Propozycje badawcze”. Przegląd Historyczny 114 (2023): 23–49.

Хорошкевич, Анна Леонидовна, Сергей Михайлович Каштанов, ред. Методические рекомендации по изданию и описанию материалов Литовской метрики. Москва, Вильнюс, 1985. [Khoroshkyevich, Anna Leonidovna, Sergey Mikhailovich Kashtanov, red. Metodicheskie rekomendatsii po izdaniyu i opisaniyu materialov Litovskoy metriky. Moskva–Vil’nyus, 1985.]

Gruszczyński, Włodzimierz, Dorota Adamiec, Maciej Ogrodniczuk. „Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)”. Polonica 33 (2013): 311–8.

Johnson, Kyle P., Patrick J. Burns, John Stewart, Todd Cook, Clément Besnier, William J. B. Mattingly. „The Classical Language Toolkit: An NLP Framework for Pre-Modern Languages”. W Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations, red. Heng Ji Jong, C. Park, Rui Xia, 20–9. Online. Association for Computational Linguistics, 2021. https://doi.org/ 10.18653/v1/2021.acl-demo.3.

Jusupović, Monika, red. Akta sejmiku kowieńskiego z lat 1733–1795. Warszawa: Neriton, 2019.

Lepszy, Kazimierz, oprac. Instrukcja wydawnicza dla źródeł historycznych od XVI do połowy XIX wieku. Wrocław: Ossolineum, 1953.

Maciszewski, Jarema. „Kultura polityczna Polski «złotego wieku»”. W Dzieje kultury politycznej w Polsce, red. Jerzy A. Gierowski, 11–5. Warszawa: Państwowe Wydawnictwo Naukowe, 1977.

Mazur, Karol, W stronę integracji z Koroną. Sejmiki Wołynia i Ukrainy w latach 1569–1648. Warszawa: Wydawnictwo Neriton, 2006.

Qi, Peng, Yuhao Zhang, Yuhui Zhang, Jason Bolton, Christopher D. Manning. „Stanza: A Python Natural Language Processing Toolkit for Many Human Languages”. W Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations, 101–8. Online (2020). https://doi.org/10.48550 /arXiv.2003.07082.

Piotrowski, Michael. Natural Language Processing for Historical Texts. San Rafael: Morgan & Claypool Publishers, 2012.

Rachuba, Andrzej. „Edycje akt sejmikowych z terenu Wielkiego Księstwa Litewskiego”. Miscellanea Historico-Iuridica 21, nr 1 (2022): 347–63.

Woliński, Marcin. „Morfeusz Reloaded”. W Proceedings of the Ninth International Conference on Language Resources and Evaluation, red. Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Hrafn Loftsson, Bente Maegaard, Joseph Mariani, Asunción Moreno, Jan Odijk, and Stelios Piperidis, 1106–11. Reykjavík: European Language Resources Association (ELRA).

Waszczuk, Jakub, Witold Kieraś, Marcin Woliński. „Morphosyntactic Disambiguation and Segmentation for Historical Polish With Graph-Based Conditional Random Fields”. W Text, Speech, and Dialogue: 21st International Conference, TSD 2018, Brno, Czech Republic, September 11–14, 2018, Proceedings, red. Petr Sojka, Aleš Horák, Ivan Kopeček, Karel Pala, vol. 11107, 188–96. Cham, Switzerland: Springer International Publishing, 2018.