Morfologia fińskiego i estońskiego

Jakiś czas temu skończyliśmy opis systemu morfologicznego fińskiego i estońskiego. Ciekawą cechą tych języków ugrofińskich jest bardzo bogata fleksja, przejawiająca się tworzeniem dziesiątek czy nawet setek derywatów od jednej formy podstawowej. I tak w fińskim i estońskim używa się aż czternastu przypadków – w polszczyźnie mamy ich dwa razy mniej. Warto zwrócić także uwagę, że, inaczej niż w naszym języku, końcówka niesie zaledwie jedną informację (a więc nie może, jak w polskim, informować jednocześnie o liczbie i przypadku). Od jednego tematu możemy więc utworzyć niekiedy setki form, co znacząco utrudnia opis systemu morfologicznego. Dla nas na szczęście nie było to nic nowego – przed podobnym wyzwaniem stanęliśmy już parę lat temu, opracowując morfologię węgierskiego.

helsinki.jpg (354 KB)     talin.jpg (358 KB)

W jakim celu tworzy się jednak właściwie takie opisy? Są one niezbędne dla funkcjonowania wielu aplikacji językowych. Wymieńmy chociaż niektóre z nich.

Korektor literówek, ang. spell checker, znany nam wszystkim z edytorów tekstu takich jak choćby Microsoft Word. To ta sprytna funkcja, zwracająca wam uwagę na wyrazy, w których zrobiliście literówkę. Mając do czynienia z którymś z mniej skomplikowanych morfologicznie języków, wystarczyłoby odszukać konkretne/podobnie brzmiące słowo na liście obejmującej wszystkie poprawne formy. W przypadku polskiego i czeskiego mówimy jednak o liście liczącej ponad trzy miliony pozycji, a w przypadku fińskiego czy węgierskiego – setki milionów. Sami przyznacie, że to znacząco utrudnia sprawę. Dlatego stworzenie korektora literówek wymaga inteligentniejszego narzędzia, opartego właśnie o kompleksowy opis morfologiczny.

Lematyzator to narzędzie, które jest w stanie wskazać formę podstawową dowolnego słowa. Np. na hasło psom odsyła nas do słowa pies, na hasło ludzie – do słowa człowiek, na hasło mogę – do móc itd. Dzięki temu korzystając z programu Lexicon czy portalu dict.com, nie musicie wiedzieć, jaka jest forma podstawowa słowa, które wrzucacie w wyszukiwarkę. To naturalne, że kiedy człowiek dopiero zaczyna swoją przygodę z językiem, nie musi wiedzieć, że np, teette to derywat od czasownika tehdä („robić”).

Wyszukiwanie pełnotekstowe: jeśli przeglądacie w internecie oferty sklepów sprzedających meble ogrodowe, zapewne uznacie za  przydatne, jeśli wyszukiwarka wskaże także teksty zawierające zdania w rodzaju: Wybierzcie swój zestaw mebli ogrodowych albo: Cieszcie się nowymi meblami ogrodowymi. Słowa mebel i ogrodowy występują tu w innych formach niż te wpisane w wyszukiwarce, ale dzięki lematyzatorowi także one zostaną wyświetlone wśród wyników.

Rozpoznawanie języka: wiele aplikacji wymaga rozpoznania języka, w którym został napisany dany tekst na podstawie pierwszego zdania czy nawet krótkiej frazy. Czasami nie sprawia to większej trudności – np. nowogrecki czy armeński używają odrębnych alfabetów. W przypadku języków posługujących się łacinką czy cyrylicą potrzebujemy jednak lepszych narzędzi – i tu znów przydaje się opis systemu morfologicznego języków będących w użyciu.

Do narzędzi wykorzystujących informacje o morfologii zaliczymy także np. korektory gramatyki, automatyczne translatory, systemy dialogowe czy aplikacje rozpoznające mowę; znajdują one zastosowanie także w tworzeniu korpusów. Dlatego z dumą stwierdzamy, że Lingea dysponuje wspomnianymi narzędziami aż dla trzydziestu języków, od polskiego po japoński czy łotewski.

https://slowniki.lingea.pl