Data publikacji : 2025-12-29

Wielojęzyczne edycje źródeł w przetwarzaniu języka naturalnego – studium przypadku wybranych akt sejmikowych z Wielkiego Księstwa Litewskiego

Abstrakt

Artykuł omawia wyzwania związane z komputerową analizą wielojęzycznych tekstów historycznych na przykładzie akt sejmikowych z terenu Wielkiego Księstwa Litewskiego. Przedstawiono proces przygotowania danych: ekstrakcję tekstu z plików PDF, czyszczenie oraz anotację językową. Szczególną uwagę poświęcono problemom wynikającym z braku ujednoliconych edycji cyfrowych, współczesnych modyfikacji ortograficznych oraz wielojęzyczności tekstów (polski, ruski, łacina). Wykorzystano narzędzia NLP, takie jak Morfeusz (Korbeusz), Concraft oraz Stanza. Podkreślono znaczenie dostosowania narzędzi do specyfiki materiału historycznego i konieczność dalszej standaryzacji anotacji w ramach Universal Dependencies.

Słowa kluczowe:

przetwarzanie języka naturalnego, akta sejmikowe, edycje źródeł, wielojęzyczność, Wielkie Księstwo Litewskie



Szczegóły

Bibliografia

Statystyki

Autorzy

Pobierz pliki

pdf

Wskaźniki altmetryczne


Cited by / Share


Roczniki Humanistyczne · ISSN 0035-7707 | eISSN 2544-5200 | DOI: 10.18290/rh
© Towarzystwo Naukowe KUL & Katolicki Uniwersytet Lubelski Jana Pawła II – Wydział Nauk Humanistycznych


Artykuły w czasopiśmie dostępne są na licencji Creative Commons Uznanie autorstwa – Użycie niekomercyjne – Bez utworów zależnych 4.0 Międzynarodowe (CC BY-NC-ND 4.0)