Web-технологии.

14.12.2020 16:58
    В сети Internet имеется уникальная информационная система WWW (World Wide Web — всемирная паутина). Другое ее краткое название — Web. Она представляет собой распределенное хранилище информации, а также серверное и клиентское программное обеспечение для обслуживания этой информации и доступа к ней.
    Система WWW использует гипертекст — структурированный текст с введением в него перекрестных ссылок, отражающих смысловые связи частей текста. Слова-ссылки выделяются цветом и/или подчеркиванием. Выбор ссылки вызывает на экран связанный со словом-ссылкой текст или рисунок. Можно искать нужный материал по ключевым словам.
    Информация, доступная по Web-технологии, хранится на Web-серверах. Сервер имеет специальную программу, постоянно отслеживающую приход на определенный порт (обычно это порт 80) запросов от клиентов. Сервер удовлетворяет запросы, посылая клиенту содержимое запрошенных Web-страниц или результаты выполнения запрошенных процедур.
    Клиентские программы WWW называют браузерами (brousers). Имеются текстовые (например, Lynx) и графические (наиболее известны Google Chrome, Яндекс.Браузер, MS Explorer) браузеры. В браузерах имеются команды листания, перехода к предыдущему или последующему документу, печати, перехода по гипертекстовой ссылке и т. п. Из браузеров доступны различные сервисы — FTP, Gopher, USENET, E-mail. Для подготовки материалов для их включения в базу WWW разработаны специальный язык HTML (Hyper Text Markup Language) и реализующие его программные редакторы, например Internet Assistant в составе редактора Word. Подготовка документов предусмотрена и в составе большинства браузеров.
    Для связи Web-серверов и клиентов разработан протокол HTTP (Hyper Text Transfer Protocol), работающий на базе TCP/IP. Web-сервер получает запрос от браузера, находит соответствующий запросу файл и передает его для просмотра в браузер. Популярными серверами являются Apache, Netscape Enterprise Server и Microsoft Internet Information Server (IIS), которые могут работать как в Unix, так и в Windows NT. Все три сервера поддерживают механизм программных расширений, основанный на применении так называемого шлюзового интерфейса CGI (Common Gateway Interface), имеют встроенный HTML-редактор. Кроме того, в первых двух из них поддерживается стандарт шифрования SSL (Secure Sockets Layer) для защиты передаваемых по сети данных от несанкционированного доступа. Опыт показывает, что для крупных серверов предпочтительнее платформа Unix, тогда как для серверов с малым числом транзакций лучше подходит ОС Windows NT.
    В настоящее время для облегчения поиска информации в Internet применяют информационно-поисковые системы (ИПС)(рис. 69), располагаемые на доступных пользователям Internet-серверах. В этих системах собирается, индексируется и регистрируется информация о документах, имеющихся в обслуживаемой группе Web-серверов. Индексируются или все значащие слова, имеющиеся в документах, или только слова из заголовков. Пользователю предоставляется возможность обращаться к серверу с запросами на естественном языке, со сложными запросами, включающими логические связки. Примером таких ИПС может служить Google, Yandex, Bing, Mail.RU, и др.
 
Рис. 69. Пример информационно-поисковой системы компании Google.
 
    Поисковая система тем лучше, чем больше документов, релевантных запросу пользователя, она будет возвращать. Результаты поиска могут становиться менее релевантными из-за особенностей алгоритмов или вследствие человеческого фактора. По состоянию на 2015 год самой популярной поисковой системой в мире является Google, однако есть страны, где пользователи отдали предпочтение другим поисковикам. Так, например, в России «Яндекс» обгоняет Google больше, чем на 10 %.
    По методам поиска и обслуживания разделяют четыре типа поисковых систем: системы, использующие поисковых роботов, системы, управляемые человеком, гибридные системы и мета-системы. 
    В архитектуру поисковой системы обычно входят:
- поисковый робот, собирающий информацию с сайтов сети Интернет или из других документов;
- индексатор, обеспечивающий быстрый поиск по накопленной информации;
- поисковик — графический интерфейс для работы пользователя.
    Как правило, системы работают поэтапно. Сначала поисковый робот получает контент, затем индексатор генерирует доступный для поиска индекс, и наконец, поисковик обеспечивает функциональность для поиска индексируемых данных. Чтобы обновить поисковую систему, этот цикл индексации выполняется повторно.
    Поисковые системы работают, храня информацию о многих веб-страницах, которые они получают из HTML-страниц. Поисковый робот или «краулер» (англ. Crawler) — программа, которая автоматически проходит по всем ссылкам, найденным на странице, и выделяет их. Краулер, основываясь на ссылках или исходя из заранее заданного списка адресов, осуществляет поиск новых документов, ещё не известных поисковой системе. Владелец сайта может исключить определённые страницы при помощи robots.txt, используя который можно запретить индексацию файлов, страниц или каталогов сайта.
    Поисковая система анализирует содержание каждой страницы для дальнейшего индексирования. Слова могут быть извлечены из заголовков, текста страницы или специальных полей — метатегов. Индексатор — это модуль, который анализирует страницу, предварительно разбив её на части, применяя собственные лексические и морфологические алгоритмы. Все элементы веб-страницы вычленяются и анализируются отдельно.     Данные о веб-страницах хранятся в индексной базе данных для использования в последующих запросах. Индекс позволяет быстро находить информацию по запросу пользователя.
    Мета-поисковые системы — это поисковый инструмент, посылающий запрос пользователя одновременно но несколько поисковых Internet-ресурсов.В отличие от поисковых систем, мета-поисковые системы не имеют ни своих роботов-пауков, ни базы данных. Они берут результаты поиска исключительно от нескольких других поисковых серверов.
    В основу работы мета-поисковой системы заложен следующий принцип: из запроса пользователя генерируются запросы, отформатированные в синтаксисе и логических конструкциях каждого конкретного поискового ресурса. В качестве поисковых ресурсов для мета-поисковых систем могут служить поисковые системы, каталоги и даже некоторая информация, не проиндексированная традиционными поисковыми системами. Таким образом, из одного запроса мета-поисковая машина делает множество запросов, которые затем рассылаются широкому кругу поисковых машин и/или каталогов. Собрав результаты, мета-поисковая система удаляет дублированные ссылки и, в соответствии со своим алгоритмом, ранжирует результаты.
    Пользователь, исходя из своей информационной потребности и предлагаемых стратегий, генерирует запрос. В соответствии с принятыми на каждой поисковой системе требованиями мета-поисковая система преобразовывает запрос и ретранслирует его мета-поисковым агентом соответствующей поисковой системе или каталогу. После обработки полученного запроса каждая система возвращает мета-поисковому агенту множество описаний и ссылок на документы, которые считает релевантными данному запросу. В качестве примера можно привести профессиональную утилиту Copernic Agent Professional, в которой присутствует поддержка нескольких сотен поисковиков и онлайновых справочников, разбитых на тематические и национальные группы.
    Число пользователей Интернета и поисковых систем, а так же требований пользователей к этим системам, постоянно растёт. Для увеличений скорости поиска нужной информации крупные поисковые системы содержат большое количество серверов. Сервера обычно группируют в серверные центры (дата-центры). У популярных поисковых систем серверные центры разбросаны по всему миру.