Artykuł przedstawia koncepcję oraz efekty wstępnej fazy realizacji grantu „Digitalizacja trzeciego stopnia wielkich słowników XVII i XVIII wieku – stworzenie Bazy Historycznych Leksykonów Polskich” (BazHiLek), realizowanego w Pracowni Historii Języka Polskiego XVII i XVIII wieku IJP PAN (finansowanie: NPRH 2024–2029). Pierwszy etap prac poświęcono edycji cyfrowej trzech słowników: Thesaurusa Knapiusza (1643, wyd. II), Nowego dykcjonarza Troca (1764, t. III) oraz Forytarza Ernestiego (1674), stanowiących zalążek Bazy. Leksykony te odznaczają się oryginalnym warsztatem i są bogatym źródłem informacji lingwistycznych. Przygotowanie materiału wymagało połączenia działań filologicznych i informatycznych: konwersji obrazów do postaci tekstowej, rozpoznania mikrostruktury artykułów hasłowych, przygotowania modeli OCR, wyboru znaczników TEI, strukturalnego oznakowania materiału i opracowania reguł automatycznego tagowania danych pod kątem przeszukiwania i porównywania zasobów leksykograficznych w Bazie. Celem projektu jest opracowanie standardów umożliwiających poszerzanie jej o kolejne słowniki oraz stworzenie zaawansowanej wyszukiwarki. W artykule omówiono poszczególne zadania i trudności w ich realizacji oraz zarysowano planowane etapy prac.
Cited by / Share
Licencja

Utwór dostępny jest na licencji Creative Commons Uznanie autorstwa – Użycie niekomercyjne – Bez utworów zależnych 4.0 Międzynarodowe.
Roczniki Humanistyczne · ISSN 0035-7707 | eISSN 2544-5200 | DOI: 10.18290/rh
© Towarzystwo Naukowe KUL & Katolicki Uniwersytet Lubelski Jana Pawła II – Wydział Nauk Humanistycznych
Artykuły w czasopiśmie dostępne są na licencji Creative Commons Uznanie autorstwa – Użycie niekomercyjne – Bez utworów zależnych 4.0 Międzynarodowe (CC BY-NC-ND 4.0)