piątek, 3 sierpnia 2007

Text mining - po co to komu?

Text mininig - ale o co chodzi?

Coraz częściej można spotkać się z pojęciami data mining, web mining, text mining itd. Hmm... pisałam swoją pracę inżynierską z tej dziedziny i szczerze mówiąc na początku nie miałam na ten temat zielonego pojęcia;) Z czasem jednak odkryłam ogrom możliwości jakie daje stosowanie metod text miningu. Możecie wierzyć lub nie, ale rezultaty działania algorytmów sprawiały ogromną radość;P (nie twierdzę, że jestem normalna;))

Ale do rzeczy - po co w ogóle "marnować" czas na czytanie artykułów z tej tematyki. Pierwsze co przychodzi mi na myśl to Google. Popatrzcie na wyniki wyszukiwania. Po pierwsze - krótkie streszczenia artykułów. Po drugie wyszukiwanie pełnotekstowe. Po trzecie podpowiedzi do zapytań. Czy to nie jest fenomenalne? Jeśli niektórych to nie przekonało to wyobraźcie sobie np
że to co "wypluje" wyszukiwarka będzie automatycznie grupowane, a grupom będą nadawane sensowne nazwy. Dalej wydaje Wam się, że to nudny temat? A co powiecie na to, że system będzie Wam podsuwał treści coraz bardziej odpowiadające Waszym zainteresowaniom. Dalej nic? Hmm... spora liczba osób ma problem ze spamem przychodzącym na maila. Pomyśl teraz, że to Ty możesz być twórcą filtra, który będzie segregował wiadomości! Robi się ciekawie? To popatrz na to: jest sobie robot, który potrafi z Wami prowadzić w miarę "inteligentne" rozmowy. Ciekawe? - Kwestia gusty;) Łatwe? - Kwestia umiejętności i wiedzy;) Ale najfajniejsze jest to, że text mining przychodzi tutaj z pomocą!

Czym tak właściwie jest text mining? Najłatwiejsza definicja (choć bardzo ogólna i niewnosząca za dużo) to wydobywanie wiedzy z zasobów tekstowych. Ktoś może się zapytać ale po co to wszytko? Spróbuję wyjaśnić na przykładach:)

Dawno dawno temu wyszukiwanie jakichkolwiek informacji w internecie/intranecie odbywało się z pomocą osób trzecich, tzn jeśli chciałeś coś znaleźć to musiałeś iść do kogoś, kto umiał przetłumaczyć Twoje zapytanie na takie, które będzie rozumiała wyszukiwarka. Ciężko to sobie wyobrazić ale taka jest (okrutna) prawda:) Na szczęście technika poszła do przodu i ten prymitywny sposób został sukcesywnie zastąpiony przez wyrafinowane formy wyszukiwania. Na chwilę obecną jest tylko kilka "dobrych" wyszukiwarek. Przykład - Google. Jaka jest jego przewaga? Hmm to łatwe. W większości przypadków, gdy dokumenty są umieszczane w jakichś serwisach, to użytkownik musi/może określić tzw słowa kluczowe opisujące dany tekst. Dodatkowo wpisuje tytuł oraz określa tematykę jakiej dotyczy dokument. Wyszukiwarki (te zwykłe) biorą tylko te informacje pod uwagę. To trochę mało, bo nie uwzględniają całej treści tekstu, przez co wyszukiwanie jest niedokładne. Idea jaka przyświeca wyszukiwaniu pełnotekstowemu z użyciem metod text miningu jest zupełnym przeciwieństwem poprzedniego podejścia. Po pierwsze wyszukiwanie nie uwzględnia fleksji języka czyli odmiana wyrazów jest bez znaczenia. Po drugie zawartość całego dokumentu jest brana pod uwagę. Do mnie te argumenty przemawiają;)

Teraz trochę z innej beczki. Spróbujcie wyszukać jakieś informacje na temat LaTeX'a. Praktycznie każda wyszukiwarka oprócz żądanej tematyki zwróci również masę dokumentów o innej ciekawej treści;) Wniosek nie radzą sobie z polisemią. Dlatego właśnie istnieje konieczność dołączania do dokumentów abstraktów, które będą w dużym skrócie określały tematykę. Ręczne generowanie jest czasochłonne i pewnie nikomu nie chciałoby się tego robić. Wyjściem z tego jest automatyzacja tego procesu, która nie jest trudna a na pewno pomocna:) Dodatkowo można również dokumenty pogrupować oraz nadać im nazwy składające się z kilku wyrazów lub fraz.

To tylko krótki wstęp, który ma Was zachęcić do poszukiwań materiałów odnośnie text miningu. Ja osobiście polecam kilka pozycji, które można znaleźć w sieci.

1. Morgan Kaufmann Mining the Web Discovering Knowledge from Hypertext Data
2. Springer - Survey of Text Mining - Clustering, Classification and Retrieval
3. Modelowanie rozmyte - Grzegorz Głowaty (praca magisterska)
4. Hybrydowa metoda rekomendacji dokumentów w środowisku hipertekstowym - Maciej Kiewra (praca doktorska)
5. Model użytkownika w internetowych systemach wyszukiwania informacji - Agnieszka Indyga Piasecka (praca doktorska)
6. Eksploracja danych
7. Strona Pawła Cichosza