Wyszukiwanie pełnotekstowe 

Wyszukiwanie pełnotekstowe da się opisać jako moduł, który umożliwia wyszukiwanie wyrazów bez względu na to, w jakiej formie występują w tekście. Moduł ten umożliwia więc dwie rzeczy:

  • identyfikować podstawową formę wyrazu od jego dowolnej formy  
  • wygenerować wszystkie formy od danej formy podstawowej 

Za podstawową formę wyrazu uważa się zazwyczaj mianownik liczby pojedynczej, w przypadku czasowników jest to bezokolicznik, np. szukać. W niektórych językach zdarzają się jednak wyjątki. Na przykład w języku bułgarskim bezokoliczniki nie występują, więc za formę podstawową uważa się czasownik w 1 os. liczby pojedynczej. W języku węgierskim występują bezokoliczniki, mimo to za formę podstawową czasownika uważa się formę 3 os. liczby pojedynczej. 

Część językowa 

Podobnie jak w przypadku korektora literówek, podstawowym elementem modułu jest formalny opis morfologii, wzbogacony jednak o dodatkowe informacje, do których należą przede wszystkim:

  • przypadek, liczba i rodzaj - w przypadku rzeczowników oraz pozostałych imiennych części mowy 
  • osoba, liczba, tryb, czas i aspekt - w przypadku czasowników
  • kategorie zaimków, liczebników, przysłówków oraz spójników

Identyfikacja podstawowej formy wyrazu nie zawsze jest rzeczą prostą. Języki naturalne charakteryzuje duża liczba nieregularności, np. alternacje w odmianie (mróz-mrozu, stół-stołu, piec-piecze, cześć-czci itd.). Podobne przypadki zdarzają się we wszystkich językach. Nawet w stosunkowo mało skomplikowanym języku angielskim znajdują się przypadki typu come-came, break-broken czy go-went.

Kolejnym problemem są homonimy. W przypadku wielu form nie można jednoznacznie określić, od której podstawy słowotwórczej pochodzi dany wyraz. Jest to tak zwany synkretyzm form fleksyjnych, np. dam jako forma fleksyjna czasownika dać i rzeczownika dama. 

Rozwiązanie softwarowe 

Rozwiązanie softwarowe jest bardzo oszczędne. Biorąc pod uwagę, że w języku polskim można wyróżnić kilka milionów różnych form, może dziwić fakt, że włącznie ze wszystkimi informacjami dotyczącymi morfologii, program mieści się w pliku o wielkości nieprzekraczającej 1 MB. Można więc powiedzieć, że jeden bit danych wystarczy nam na 3 polskie słowa. 

Dostępne funkcje

  • Podanie podstawowej formy wyrazu
  • Podanie wszystkich pokrewnych form danego wyrazu  
  • Odmiana całej grupy wyrazów tworzonej przez rzeczownik i jego określenia, np. spółka akcyjna, spółki akcyjnej, spółce akcyjnej, spółkę akcyjną itp.

 

Obecnie oferujemy moduł wyszukiwania pełnotekstowego dla wielu światowych języków (zob. tabelka) oraz platform. Komfort wyszukiwania można zwiększyć korzystając z innego modułu naszej produkcji - Słownika synonimów. W celu wyszukiwania w wielu językach można stosować wyszukiwanie pełnotekstowe z innymi technologiami tłumaczeniowymi, ewentualnie technologiami mowy, które umożliwiają wyszukiwanie w plikach audio i video. 

Referencje

Możliwości wyszukiwania pełnotekstowego dla różnych języków można wypróbować w aplikacjach Lingea Lexicon. Nasz moduł znalazł również zastosowanie w systemach wyszukiwania różnych produktów oraz w wielu systemach firmowych.