Elektroniczne wersje książek
Można je znaleźć w Internecie, czytać dosłownie wszędzie; zajmują mniej miejsca, łatwiej jest wyszukiwać i korzystać z zawartych w nich informacji.
Microsoft Search Server, o nazwie kodowej Tripoli, to oprogramowanie pozwalające na stworzenie indeksu pełnotekstowego dla różnego typu plików - takich jak HTML, Word .DOC, Excel .XLS - znajdujących się na serwerze World-Wide Web. Dzięki niemu staje się możliwe jest zarówno szukanie po zawartosci dokumentu, jaki i jego właściwosciach, takich jak temat czy autor.
Wszystkie czynnosci administracyjne na serwerze, takie jak tworzenie i uaktualnianie indeksu pełnotekstowego, optymizacja indeksu, odtwarzanie indeksu po uszkodzeniu, odbywają się automatycznie. Dostępne są narzędzia administracyjne, pozwalające na obserwację pracy serwera, liczby użytkowników i zapytań. Serwer przechowuje informacje o użytkownikach i ich zapytaniach.
Obecna pierwsza wersja beta posiada wbudowane rozszerzenia dla siedmiu języków: duńskiego, angielskiego, francuskiego, niemieckiego, włoskiego, hiszpańskiego i szwedzkiego. Dla tych języków dostępny jest stemming, czyli wyszukiwanie słów o tej samej podstawie słowotwórczej (co nie jest dokładnie tym samym, co fleksja, ale równie pomocne). Dobór języków wskazuje, że w przyszłości może znaleźć się tu też polski (bo są to języki pierwszej fali lokalizacji wersji Windows, a język polski znajduje się w fali drugiej).
Tripoli jest rozszerzeniem (add-on module) do Internet Information Server 2.0; podobnie jak on pracuje na Windows NT 4.0 Server. Zapytania do indeksu tworzonego przez Tripoli są tworzone przy pomocy formularzy i dowolnej przeglądarki World-Wide Web. Gotowe zapytanie trafia do serwera World-Wide Web, który przesyła je do Tripoli. Tripoli znajduje przy pomocy indeksu dokumenty odpowiadające na dane zapytanie i wysyła odpowiedź w postaci strony HTML z odniesieniami do danych dokumentów.
Istotną różnicą w stosunku do innych internetowych programów wyszukiwawczych jest tu możliwosć indeksowania dokumentów innego typu niż HTML - plików tekstowych ASCII, dokumentów tekstowych z Microsoft Word, w formacie .DOC czy arkuszy stworzonych w Microsoft Excel, w formacie .XLS, prezentacje Microsoft PowerPoint. Umożliwia to traktowanie dokumentów z Microsoft Office tak samo jak dokumenty World-Wide Web, bez potrzeby zamiany ich na pliki HTML. Dokumenty z Worda czy Excela mogą być oglądane w przeglądarkach przy pomocy dodatkowych modułów do Netscape Navigator czy Internet Explorer. Możliwe jest także zdefiniowanie innych formatów plików.
Formularze służące do wyszukiwania mogą być przystosowane do potrzeb użytkownika przez administratora; są to zwykłe pliki HTML, które można napisać czy zmienić w ciągu kilku minut.
Dla każdego zapytania określa się jego zakres (scope), ograniczenie (restriction) i zestaw wyników (result set). Zakres pozwala podać zestaw dokumentów, który ma być przeszukiwany. Można tu podawać katalog, na przykład D:\Rynek jak i adres wirtualnego serwera, na przykład rynek.batrieda.com.pl. Ograniczenie zapytania jest rodzajem testu, który pozwala stwierdzić, czy dany dokument jest dostępny. Zestaw wyników określa, jakie informacje mają być pokazane w odpowiedzi, jak długa ma być lista dokumentów, na przykład nie więcej niż 100 i jak wiele dokumentów ma być pokazane na jednej stronie odpowiedzi, na przykład 10. Określana jest jakość odpowiedzi (quality of the hits) i na jej podstawie sortowane są dokumenty. Określa się, jakie własciwosci mają być pokazane (autor, tytuł, data) w odpowiedzi. Serwer tworzy też streszczenie (abstract) dokumentu. Można także określić kolejnosć, w jakiej prezentowane będą dokumenty.
Można wyszukiwać słowa, frazy, słowa blisko (NEAR) innych słów, słowa w konkretnych właściwościach (Autor CONTAINS "Anna Kowalska"), używać operatorów logicznych (AND, OR, AND NOT), znaków zastępczych (*, ?). Możliwe jest też zadawanie pytań "wolnotekstowych" (free-text query), gdzie wpisywany jest fragment tekstu i na jego podstawie wyszukiwane są odpowiedzi.
Koncepcja właściwości (properties) pozwala na wyszukiwanie takich informacji jak wielkość pliku, czas utworzenia, nazwa pliku, autor. Wykorzystywana jest tu konstrukcja plików .DOC i .XLS, które mają zdefiniowane niektóre właściwości, a inne można do nich dodać. Właściwości, jak można się już zorientować, to specjalne microsoftowe określenie na to, co zwykle nazywa się polami bazy danych.
Dostęp do indeksowanego przez Tripoli archiwum dokumentów jest spójny z systemem bezpieczeństwa serwera Windows NT. Gdy dokumenty przechowywane są na dysku z systemem NTFS (w Windows NT na komputerach z procesorem Intel może być założony także FAT) to serwer respektuje ograniczenia bezpieczeństwa - w odpowiedzi na pytanie nie można zobaczyć odniesienia do dokumentu, do którego nie ma praw dostępu.
Nie jest jeszcze znana cena serwera; bardzo prawdopodobne, że będzie on dostępny za darmo, traktowany jako rozszerzenie serwera Windows NT 4.0; obecnie dostępny jest w Internecie, na serwerze internetowym firmy Microsoft.
Tripoli jest programem prostym w instalacji i niezauważalnym prawie w działaniu. Rozpoczyna swą pracę po uruchomieniu Internet Information Server 2.0 i zaczyna uaktualniać swój indeks, dodając nowe lub zmienione dokumenty. Czynności administracyjne dokonywane są z użyciem stron HTML; w ten sam sposób można się zapoznać z raportami pracy programu.
Istotną cechą Tripoli, szczególnie na polskim rynku, jest duża konfigurowalność programu - w tym możliwość zmiany wyglądu stron HTML z pytaniami, z odpowiedziami na pytania, z komunikatami dla użytkownika. Oznacza to nie tylko możliwość stworzenia eleganckiego własnego systemu, dołączenia na stronach logo firmy czy podobnych ozdobników, ale przede wszystkim szybkiego przetłumaczenia na polski. Użytkownik szukający przy pomocy swej przeglądarki dokumentów będzie miał przed sobą system porozumiewający się z nim w jego własnym języku, używający zrozumiałej terminologii, prowadzący za rękę przez skomplikowany świat poszukiwania informacji.
W obecnej fazie rozwoju - na poziomie pierwszej wersji beta - Tripoli nie jest jeszcze użyteczny w Polsce, z racji braku polskiego wsparcia językowego. Chodzi tu nie tylko o stemming, który jest pożądanym, ale nie niezbędnym dodatkiem, ale o prawidłowe rozpoznawanie polskich liter w pytaniach i dokumentach tworzonych automatycznie przez Tripoli. Nie ma więc innego wyjścia, jak tylko cierpliwie czekać na kolejną wersję programu, która ukaże się prawdopodonie jeszcze w lecie, przed oficjalną premierą Windows NT Server 4.0.
Przyglądałem się Tripoli w toku prac nad wyborem konkretnego oprogramowania dla archiwum tekstowego Gazety Wyborczej; jest to spore, liczące ponad sto tysięcy artykułów i kilkaset megabajtów archiwum, wymaga więc naprawdę dobrego programu. Porównywałem go między innymi z Topic Internet Server firmy Verity oraz z Netscape Search, prostym wyszukiwaniem wbudowanym w serwer Netscape Enterprise.
Topic Search ma mniej możliwości i jest nieco droższy: za serwer Netscape trzeba zapłacić tysiąc dolarów, ale bardzo prosty i elegancki w obsłudze. Topic Internet Server to wydatek rzędu ośmiu tysięcy dolarów, ale też i znacznie bardziej zaawansowany produkt, w dodatku już dziś respektujący istnienie języka polskiego.
Do niezbyt dużych zbiorów informacji można też użyć kombinacji Lotus Notes i Web Publisher czy Lotus Notes i Domino, ale te produkty również mają kłopoty z językiem polskim. System oparty na Notes to wydatek rzędu tysiąca dolarów.
Tripoli ma więc silnych konkurentów; u nas najważniejsze będzie to, jak poradzi sobie z językiem polskim, co jest kluczową rzeczą dla każdego systemu wyszukiwania, który ma pracować na polskich tekstach umieszczonych w Internecie czy sieciach intranetowych.
11 lipca 1996
› Pięć najlepszych Open Source (19 lutego 2005)
› XML w Microsoft Office 2003 (4 lipca 2003)
› Prosty i elegancki FTP Surfer (21 czerwca 2003)
› Nowa szybka przeglądarka z Irlandii (27 stycznia 2003)
› W Internecie pod znakiem Microsoftu (6 stycznia 2003)
› Najczęściej Internet Explorer (19 grudnia 2002)
› Nie tak szybko nowe przeglądarki (19 listopada 2002)
› Język programowania dla .Net (21 lipca 2000)
› Już niedługo Windows Millennium (17 lipca 2000)
› Nowa Opera 4.0 rozpoznaje WML (28 czerwca 2000)