Przykładowe tematy projektów WEDT (uwaga – to nie jest pełna lista tematów a jedynie przykłady tematów; dobrym źródłem ciekawych tematów może być np. także książka Foundations of statistical... – zadania z trzema gwiazdkami i niektóre – trudniejsze – zadanie z dwiema gwiazdkami).

Z racji ogłoszenia dnia wolnego w poniedziałek 31 października, termin wybrania tematu ulega przesunięciu o tydzień (tj. na 7-go listopada), podobnie o tydzień ulega przesunięciu termin oddania pierwszego raportu (tj, na 5 grudnia). (Pierwsze trzy tematy są związane z realizacją projektów w których uczestniczy Zakład Systemów Informacyjnych)

1. Tokenizator z inteligentnym rozpoznawaniem granic słów, zdań i akapitów oraz podstawową klasyfikacją tokenów (słowo, liczba, e-mail etc.). Proszę zwrócić uwagę na strumieniowe przetwarzanie tekstu (zawężony horyzont działania tokenizatora). Tokenizator powinien być przystosowany do języków europejskich. Mile widziana implementacja oparta na algorytmach uczących się. Preferowany język implementacji - Java. Preferowane odniesienie się do istniejących rozwiązań.

2. Klasyfikator części mowy (Part Of Speech - POS) wykonany przy użyciu dostępnych darmowo słowników fleksyjnych. Trudnością dla języka polskiego jest fleksja która utrudnia rozpoznanie słowa. Wskazane wykorzystanie istniejących rozwiązań i przetworzenie do określonego w zadaniu zastosowania.

3. Implementacja algorytmu Suffix Tree Clustering z jakąś lepszą niż standardowa miarą odległości i testy na standardowych repozytoriach tekstowych.

4. Poszukiwanie kolokacji w korpusie tekstowym, przy wykorzystaniu różnych metod (znane głównie różnego rodzaju testy statystyczne) oraz metod własnych. Dobrze aby warianty kolokacji (np. Ministerstwo Finansów, Ministerstwo Finansów RP itd.) były także odpowiednio oznaczane.

5. Oznaczanie i rozpoznawanie istotnych wyrażeń (nazwy własne, imiona i nazwiska, daty itp.; ale także słowa kluczowe istotne dla danego dokumentu) w tekście.

6. System rozpoznawania języka dokumentów, obsługujący najważniejsze języki europejskie i mogący oznaczać także części (zdania, akapity) dokumentów.

7. Zastosowanie page-rank (a także innych algorytmów analizy hiperpołączeń – hilltop, hits itd.) do repozytorium innego niż WWW (np. Wordnet) – oczywiście obejmuje to przede wszystkim rozważenie czy tego rodzaju zastosowanie będzie miało w ogóle sens.

8. Zbudowanie klasyfikatora dokumentów tekstowych wykorzystującego różne algorytmy klasyfikacji i porównanie ich wydajności – także testy porównawcze dla repozytoriów w różnych językach (np. polski i angielski).

9. Metawyszukiwarka, analizująca wyniki przeszukiwania sieci WWW wykonane przez kilka wyszukiwarek (włączając w to analizę hiperpołączeń pomiędzy odnalezionymi stronami) i prezentująca wynik w postaci graficznej.