Да търсиш игла във виртуална купа сено

Ако напишете в Google думата „PC Mania”, за части от секундата популярната търсачка ще извади около 80 милиона резултати. От тях на първо място е страницата на нашето списание, но задавали ли сте си въпроса какво се крие в другите милиони сайтове, които се разпростират по-надолу в резултатите и може ли да откриете нещо полезно някъде там?

Днес средният интернет потребител има свободата да използва няколко само една или няколко ключови думи или фрази, свързани с дадена тема и пак да получи огромно количество интересна информация от милиони източници.

Но навигацията в интернет не винаги е била толкова лесна

През първата половина на 90-те години на миналия век бе необходимо да знаете точното название на това, което търсите, за да се надявате на някакъв резултат. Някои думи като „кредитна карта” например изобщо не връщаха никакви резултати, а програмистите се нуждаеха от седмици, за да добавят URL адреса към списъка с индекси на дадена търсачка. Всъщност първата търсачка, появила се през далечната 1990 г. дори не е такава в съвременния смисъл на думата. Тя се нарича Archie (като английската дума за архив, но без V) и при нея на един FTP сървър се съхраняват списъци с директории, които може да отворите. Поради ограниченията на пространството потребителите имат достъп само до каталозите, но не и до съдържанието на самия сайт.

Година по-късно се появява VLib, която се намира на сървър на CERN, където се съхраняват списъци със сайтове от зората на интернет.

Първата комерсиална търсачка под името Excite е пусната през февруари 1993 г.

от шестима млади учени, току що завършили Станфорд. Проектът набира популярност и през 1999 г. е продаден на @Home за 6.5 милиарда долара, само за да фалира две години след това. Основите на съвременните търсачки обаче са поставени през юни 1993 г. със стартирането на World Wide Web Wanderer – създаден от Матю Грей, този софтуер, наречен бот обикаля из все още младото интернет пространство, брои активните уеб страници и отчита растежа на световната мрежа. Събраните резултати се обобщават в база данни, наречена Wandex, но прогресът е доста бавен, тъй като несъвършенният бот влиза в една и съща страница стотици пъти на ден и това създава забавяне.

Първата търсачка, която се превръща в наистина важен фактор в начина, по който ползваме интернет е AltaVista, дебютирала през 1994 г. Тя предлага невиждани дотогава функции – възможност за търсене на език, различен от английския, повече опции при въвеждане на ключови думи и опция да добавите или премахнете от базата данни адреса на собствения си сайт. В период от няколко месеца през същата година се появяват още две търсачи – Yahoo и Lycos – които до голяма степен ще определят начина, по който потребителите събират информация в мрежата за следващите 7-8 години.

Именно при Yahoo и Lycos се формират основните принципи на действие на търсачките –

събиране на информация, непрекъснато движение в мрежата и индексиране

Предоставянето на информация означава, че търсачката реагира на питане на потребителя и връща поредица от резултати, които се подреждат йерархично по релевантност и достоверност. Движението в мрежата или „пълзене” (web crawling) се извършва от програмирани ботове, които обикалят мрежата и автоматично събират данни за срещнатите сайтове, които след това подреждат. Накрая събраната информация се индексира по заглавие, име на сайтовете и тематика, готова да бъде предоставена на потребителя при запитване.     

Докато AltaVista и Lycos жънат популярност, двама млади предприемачи разработват собствена търсачка, която е призвана да стане нарицателно за съвременния интернет потребител. Това са Лари Пейдж и Сергей Брин, а името е Google. Търсачката стартира през 1998 г. и въпреки първоначалния скептицизъм и финансови трудности днес тя е най-използваният сайт от този тип, който ежедневно регистрира по няколко стотин милиона заявки. Начинът, по който Google търси информация в мрежата се базира на

т.нар. PageRank или алгоритъм за подреждане на различните елементи в даден уеб сайт

и връзките помежду им. Идеята на алгоритъма е, че колкото повече връзки водят към даден сайт, толкова по-напред в списъка с резултатите ще излезе той. Патентован от самия Лари Пейдж, откъдето идва и името, PageRank определя колко важна е всяка страница – ако една страница води към друга, то втората получава една точка. Ако отправящата страница има повече тежест, това увеличава точките на втората. Никой не знае колко е точния брой на страниците, индексирани от Google, защото с въвеждането на Universal Search през 2007 г. търсачката отчита не само сайтове, но и картинки и различни документи.     

Два сайта обаче заплашват хегемонията на Google в последно време. И двата стартираха през лятото на 2009 г. и въпреки, че все още са далеч от броя на потребителите, които интернет гигантът има, се очертават като сериозна алтернатива.

Това са Bing на софтуерния гигантя Microsft и Wolfram Alpha,

като начинът, по който двете търсачки се развиват е различен. Bing повече или по-малко ползва модела на Google, като се опитва да го усъвършенства чрез т.нар. “decision engine”. При тази концепция търсачката използва зададени термини, за да персонализира резултатите. Така например ако търсите фотоапарат, Bing ви позволява да зададете различни критерии и тяхната важност като размер на екрана, мегапиксели, лещи, цвят и др. След това търсачката предлага списък с резултати, които отговарят на всички критерии и по този начин премахва нуждата от това да сравнявате поотделно всички обекти.

С това си качество Bing прилича и на уеб портал, който позволява на потребителя да черпи голямо количество информация без да напуска самия сайт. Тук може да четете новини, да купите самолетни билети и дори да гледате платени филми. Идеята на Microsoft е потребителите да създадат дългосрочна връзка с търсачката и по този начин тя да „опознае” профилите им, предлагайки персонализирани резултати на базата на техни интереси и предишни търсения.

Вместо да представя списък от документи или уеб страници, които може да съдържат отговора, подобно на стандартна търсачка, Wolfram Alpha е създадена, за да отговаря на фактологически запитвания от типа на „Кои са компаниите от индекса Dow Jones?” или „Кой е десетият американски президент?”. По този начин търсачката се превръща в изключително полезен статистически инструмент, който може да се ползва при различни изследвания. Именно за да привлече повече специализирани потребители Wolfram Alpha стартира през февруари платена Pro версия, която позволява качването а данни от самите потребители, които след това да бъдат споделяни и използвани за кръстосан анализ. Така например, ако въведете информация за статистиката за най-замърсените градове в света, Wolfram Alpha е в състояние да сравни данните, да извади различни сходни статистики, да предложи триизмерна графика или друг тип визуализация на предмета.

Платената версия позволява и имиджов анализ

– ако качите някаква снимка в един от поддържаните формати, програмата може да извади информация за нейнни характеристики като наситеността на образа, доминиращите цветове, както и да предложи функции за нейното редактиране. По подобен начин функционира и лингвистичния анализ, където потребителите качват определен текст и Wolfram Alpha прави справка за дължината на изреченията в него и най-често използваните думи.

Засега съществуват ограничения относно обема и големината на файловете, които могат да бъдат обработвани, но създателят на Wolfram Alpha Стивън Фолфрам е убеден, че

търсачката може да стане незаменим помощник на изследователите

„Не всички учени поддържат редовно бази данни, а по този начин ще имат достъп до същата функционалност всеки път, когато поискат”, обяснява математикът.

Усещайки променящата се тенденция, Google вече обяви, че обмисля мащабна реформа в начина, по който се поднасят резултатите. Целта е търсачката да показва конкретни отговори на формулирани въпроси, вместо линковете с информация, които дава в момента. Идеята е потребителите да могат да задават въпроси за конкретни хора, места и страници, чието значение да бъде разбирано от търсачката. Очакванията са  се, поне на първия етап, показваните резултати чрез новата опция да достигнат 20% от всички търсения в Google. Каквото и да се случи обаче е ясно, че начинът, по който търсим информация в мрежата вече се променя. След умни телефони и телевизори много скоро ще можем да ползваме и умни търсачки.