Работа с поисковыми системами. Перенос текста и рисунков веб-страниц в текстовый документ.
КРАТКАЯ СПРАВКА
Общие сведения
Глобальная сеть Интернет объединяет миллионы компьютеров и локальных сетей, к ее услугам прибегают сотни миллионов человек. Но сеть Интернет - это лишь средство связи компьютеров и локальных сетей между собой. Для хранения и передачи информации по сети Интернет созданы специальные информационные службы, иногда называемые сервисами Интернет. Этих служб несколько, наиболее часто используемыми являются электронная почта, электронные библиотеки, телеконференции. Но самой популярной службой является World Wide Web (WWW) - всемирная паутина.
Служба WWW имеет свои особенности, благодаря которым она и стала такой популярной. Вся информация в этой службе хранится на WWW-серверах в виде гипертекстовых документов, называемых Web-странщами. Эти документы пишутся на языке HTML (Hyper Text Markup Language) и могут содержать информацию различного вида: текст, рисунки, аудио и видео, что делает эту информацию чрезвычайно привлекательной для пользователей. Гиперссылки в HTML-документах могут указывать как на другую часть этого документа, так и на другой документ, расположенный на любом сервере сети Интернет. Это позволяет легко отыскивать требуемую информацию, переходя посредством гиперссылок от документа к документу. А вообще-то для поиска информации в сети Интернет используются специальные поисковые серверы. Но прежде чем что-то искать, надо знать, где информация находится, поэтому рассмотрим, хотя бы конспективно, способы адресации в сети Интернет.
Способы адресации в сети Интернет
По сети Интернет данные между компьютерами передаются разбитыми на небольшие порции, называемые пакетами. Пакеты состоят из собственно данных и заголовка, необходимого для их доставки на место назначения. В заголовке указаны адреса отправителя и получателя, порядковый номер пакета и некоторая другая информация. В сети Интернет используется не просто адрес, а IP-адрес (IP расшифровывается как Internet Protocol) - последовательность четырех чисел, от 0 до 255 каждое, разделенных точками, например:
195.182.128.3. Каждый компьютер в сети Интернет обязательно имеет такой адрес, причем адреса различны. Надо отметить, что компьютеры, к которым подключаются пользователи, часто называют хост-компьютерами, и они имеют один (или несколько) постоянных адресов в Интернет, а компьютеры пользователей обычно при каждом сеансе связи получают новые адреса, хотя могут иметь и постоянные.
Для пользователей числовой IP-адрес все же неудобен, поэтому была придумана доменная система обозначения компьютеров. Компьютеры теперь можно обозначать не трудными для запоминания цифрами, а словами (именами), при этом сеть оказалась поделенной на части, называемые доменами (лат. dominium - владение). Домены даются во "владение" различным организациям, которые отвечают за их поддержку. Домены могут быть вложены друг в друга, т.е. организация, отвечающая за более крупный домен, имеет право назначать более мелкие в пределах этого домена.
Подобный принцип нашел свое отражение и в написании адреса компьютера, или URL (Universal Resource Location): он состоит из нескольких слов, разделенных точками, - сначала указывается имя компьютера, затем имя самого мелкого домена, затем охватывающего и т.д. Адрес заканчивается именем самого крупного домена, который называется доменом первого уровня или корневым. В общем случае URL может указывать тип и место расположения ресурса, например объекта (файла или документа, написанного на языке HTML), и имеет вид, представленный ниже:
- protocol://host.domain/path/o6beKT, где protocol обозначает конкретный протокол передачи данных одной из служб Интернет:
- http, ftp, telnet и т.п. Например, адрес компьютера, на котором расположен WWW-сервер поисковой системы Rambler, имеет вид http://www.rambler.ru, и по этому адресу в программах просмотра загружается стартовая страница системы Rambler, a Web-страница, описывающая поисковый язык системы, имеет URL http://www.rambler.ru/new/help.html. В этом адресе rambler - имя "мелкого" домена, a ru - имя корневого домена.
Пользователи узлов (компьютеров сети Интернет), входящих в состав WWW, общаются между собой на основе протокола HTTP (Hyper Text Transfer Protocol). Этот протокол задает правила общения между программой просмотра Web-страниц и WWW-сервером, которые укладываются в схему "запрос - ответ". Указывая доменный адрес сервера и вид протокола (HTTP), мы тем самым запрашиваем определенную услугу: найти на сервере в нужном месте нужный нам HTML-документ. В простейшем случае программа просмотра Web-страниц требует некий документ, и сервер его выдает. Таким образом, чтобы просмот╜реть нужную вам Web-страницу, вы должны в адресном, поле программы просмотра Web-страниц написать требуемый адрес (например, http://www.rambler.ru) и нажать на клавиатуре клавишу <Enter>.