Краткий словарь основных терминов, связанных с поиском информации в Интернет


Агент поисковый – специальная программа (поисковый робот, автомат, агент, паук) постоянно обходит сеть и собирает информацию с веб-страниц (индексирует их). Процесс индексации - это секрет поисковой машины. Но чаще всего робот обращает внимание на описание документа, заголовки, иногда просматривает текст документа и пытается понять, какие слова и словосочетания являются ключевыми. Основной объект индексации - тексты. Однако существуют роботы, позволяющие индексировать картинки, mp3, архивы программ, новости и т.д. Робот возвращается через определенные периоды времени (например, каждый месяц) и индексирует страницу снова. Вся информация заносится роботом в индексы поисковой системы.


База данных –  БД (data base, database, DB) - совокупность данных, организованных по определенным правилам, устанавливающим общие принципы описания, хранения и манипулирования данными; 2.  -  специальное программное обеспечение, предназначенное для организации хранения информации и доступа к ней. Используются при создании программного обеспечения для систем управления веб-сайтом.


База знаний –  БЗ (knowledge base) - совокупность знаний о некоторой предметной области, на основе которых можно производить рассуждения. Обычно БЗ представляет собой набор фактов и правил, формализующих опыт специалистов в конкретной предметной области и позволяющих давать на вопросы об этой предметной области ответы, которые в явном виде не содержатся в БЗ.


Байт – единица двоичной информации, равная последовательности из 8 бит. Может принимать 256 различных значений. Минимальная единица информации в компьютере. Например, каждая буква текста, который вы сейчас читаете, занимает один байт.


Бит – элементарная единица двоичной информации. Бит может принимать только два значения, представляемые двоичными цифрами 0 (ноль) и 1 (единица). Двоичное исчисление оказалось очень удобным для использования в цифровых электронных системах: 1 – «есть сигнал», 0 – «нет сигнала».


Браузер, броузер, обозреватель (от англ. Brouse – просмотр). Компьютерная программа – обозреватель, дающая возможность просмотра содержимого Всемирной паутины (WWW). Браузеры делятся на два типа: графические и текстовые. Браузер обращается к серверу, "читает" документ, сверстанный средствами HTML; интерпретирует полученную информацию и отображает содержание документа. Этот отображенный (чаще всего на экране) документ и называется Web-страницей. Наиболее распространенные  браузеры – Internet Explorer (Microsoft), Netscape Navigator, Mozilla и Opera.


Всемирная паутина см. WORD WIDE WEB;  WWW.


Веб-интерфейс – это совокупность информации и средств навигации на веб-сайте, позволяющая пользователю самостоятельно, без применения дополнительных программ, пользоваться и управлять этой информацией. Применительно к понятию «веб-интерфейс» существует понятие «юзабильность».


Веб-сайт, сайт, сервер (Web-Site) – совокупность web-страниц, объединенных по смыслу, навигационно и физически находящихся на одном сервере.


Веб сервер – компьютер, оснащенный специальным программным обеспечением, который может хранить и обрабатывать файлы одного и более веб-сайтов. В случае, когда несколько веб-сайтов работают на одном компьютере, веб-сервером принято называть то виртуальное пространство (программное обеспечение и место на компьютере), в котором работает веб-сайт. Поэтому многие говорят "веб-сервер", подразумевая "веб-сайт". Большие веб-сайты, содержащие много информации, могут храниться и обрабатываться сразу на нескольких компьютерах. Обмен информацией с веб-серверами происходит только по специальным протоколам http:// или https://.


Веб страница, Web страница (Web-page) – составная часть web-сайта. Физически предсталяет собой HTML-файл. Может содержать текст, изображения, JAVA апплеты и другие веб-элеметы. Страница может быть статическая или динамически сгенерированная. В случае использования фреймов каждый фрейм считается как отдельная страница.


Гигабайт – единица измерения количества информации, равная 1024 мегабайтам.


Гипермедиа документ – активный и интерактивный документ, состоящий из гипермедиа-страниц, которые могут размещаться на одном или разных компьютерах сети. Навигация в таком документе происходит по гиперсвязям, идущим от горячих слов и других горячих объектов.


Гиперссылка – строка в HTML-документе, указывающая на любой другой файл, который может быть расположен в Интернете, и содержащая полный путь (URL) к этому файлу. Гиперссылки - графическое изображение или текст на сайте или в письме электронной почты, нажав на которые мышью можно загрузить (другую) Web-страницу.


Гипертекст – 1. Нелинейный текст, характеризующийся набором взаимосвязанных гиперссылок; 2. Представленная в компьютере совокупность текстовых документов, часто называемых страницами, между которыми установлены гиперсвязи, соединяющие выделенные в тексте горячие слова или группы слов с теми страницами, где разъясняются соответствующие понятия. Благодаря гиперсвязям гипертекст можно читать так, как читают энциклопедические словари, т.е. следуя смысловым связям и с учётом потребностей читателя. Компьютер обеспечивает быструю и удобную навигацию, т.е. перемещение между страницами гипертекста. Самым распространённым примером гипертекста являются справочные файлы (help-файлы) программ, работающих под Windows. Для их использования необходима справочная система Windows, а для создания - специальное программное обеспечение.


Горячий объект – это область на гипермедиа-странице, которая обычно выделяется шрифтом, цветом, рисунком, формой курсора, звуком или другим каким-то способом. Активация горячего объекта может вызвать не только смену страницы, но и какое-нибудь другое действие - звучание музыки, показ видеоклипа, проверку выполнения задания, приглашение ввести информацию и пр.


Документ – информационный объект, который желает найти и получить пользователь. Это может быть текстовый файл, файл, картинка и т.д.


Домен (доменное имя) – это часть www-адреса веб-сайта, которая является его основой. Домены могут быть первого, второго, третьего и т.д. уровней, например, http://www.ru – домен первого уровня, закрепленный за Российской Федерацией, http://www.tsu.ru – домен второго уровня. http://www.ido.tsu.ru – домен третьего уровня. Доменные имена второго уровня регистрируются специальными организациями, координирующими распределение доменных имен. Доменные имена третьего уровня может зарегистрировать администратор соответствующего доменного имени второго уровня, а доменное имя первого уровня вы легко сможете получить, имея собственное государство.


Домашняя страница, Home Page (главная, начальная) – начальная страница Web–сайта. По главной странице посетитель обычно получает представление о том, куда он попал и что он может увидеть на других страницах сайта. Как правило, ссылки делаются именно на главную страницу web-сайта, поэтому кол-во посещений на этой странице обычно намного больше, чем на любой другой.


Единицы измерения объемов информации – в основе измерения больших объемов информации лежит байт. Более крупные единицы измерения: килобайт (1 Кбайт = 1024 байта), мегабайт (1 Мбайт = 1024 Кбайт = 1048576 байт), гигабайт (1 Гбайт = 1024 Мбайт = 1073741824 байт).


Закладки – сервисная функция браузеров, позволяющая пользователю создавать перечень любимых Интернет-ресурсов. Щелчок "мышью" по закладке вызывает загрузку данной страницы на компьютере пользователя. В браузере Internet Explorer закладки именуются "Избранное".


Загрузка – передача программ или данных на компьютер с подключенного к нему устройства: 1) Любой просмотр пользователем web-страницы, т.е. передача данных с web-сервера на компьютер ("Загрузить страницу"); 2) Передача любых файлов с сервера на компьютер ("Загрузить файл"); 3) Перемещение программы с жёсткого диска в оперативную память компьютера ("Загрузка операционной системы").


Запрос – набор слов и служебных символов, характеризующий информацию, которую хочет найти пользователь.


Зеркало – копии целых сайтов или отдельных ресурсов на различных серверах. Служат для распределения нагрузки между основным сервером и локальными серверами, а также для обслуживания местных сетей.


Индекс – индекс поисковой системы, представляет собой гигантский информационный массив, где хранятся преобразованные особым образом текстовые составляющие всех посещенных и проиндексированных роботом НТМL-страниц и текстовых файлов. Робот не только пополняет массив новыми поступлениями, но и регулярно обновляет уже имеющиеся в индексах документы.


Индексация – лексический анализ и разбор текстовых материалов сайта с целью составления списка используемых слов и выражений. Составленный таким образом список используется при поиске информации на сайте по запросу пользователя. Индексация производится в автоматическом режиме специальными программами, называемыми поисковыми роботами. Используется всеми поисковыми системами. Индексация страницы поисковой системой – внесение страницы в базу данных поисковой системы. Как правило, происходит через некоторое время после подачи заявки на регистрацию.


Интернет (Internet – inter + net – объединение сетей) 1. Всемирная компьютерная сеть, объединяющая миллионы компьютеров в единую информационную систему; 2. Глобальная мировая сеть обмена информацией, возникшая в последние десятилетия в результате объединения национальных, региональных и континентальных сетей; 3. Технические и программные средства, обеспечивающие функционирование любых необходимых сервисов Интернета: http (сайт), e-mail (электронная почта), конференции, ftp и т.п.  Для размещения сайта в Интернете необходим Интернет-сервер с поддержкой как минимум сервиса http.


Интерфейс (User interface) – часть программы, непосредственно обращенная к пользователю, через которую он общается с ней и дает ей команды.


Информационно-поисковая система – система, выполняющая функции хранения большого объёма информации, быстрого поиска требуемой информации, добавления, удаления и изменения хранимой информации, вывода её в удобном для человека виде.


Информационные ресурсы - отдельные документы и отдельные массивы документов, документы и массивы документов в информационных системах (библиотеках, архивах, фондах, банках данных, других информационных системах).


Каталог, директория, папка, оглавление файлов – 1) Перечень произведений печати и других документов, составленный по определенному принципу и раскрывающий состав или содержание библиотечных фондов; 2)  В широком смысле – список элементов данных, файлов, серверов, принтеров, магнитных накопителей и других объектов, составленный в порядке, облегчающем их нахождение. Каталоги упорядочиваются по алфавиту, датам, размеру содержащихся в них объектов и другим признакам. Часто имеет иерархическую структуру.


Классификация – процесс определения категории того или иного документа, сайта и т. д.


Клиент – 1. Один из группы компьютеров, получающих данные по сети от компьютера, называемого сервером; 2. Компьютерная программа, запрашивающая информацию от программы-сервера.


Ключевые слова (фразы) – слова, по которым предположительно должен находиться сайт при поиске в поисковых системах.


Концептуальный поиск – поиск документов, имеющих прямое отношение к указанному поисковому слову, а не просто содержащих его. Логотип – графический знак фирмы, позволяющий идентифицировать ее или ее продукцию (включает графическое изображение, надпись или их комбинацию).


Курсор – светящийся символ на экране дисплея, указывающий позицию, на которой будет отображаться следующий вводимый с клавиатуры знак.


Мультимедиа – комплексное представление информации с использованием текста, графики, видеоизображения, анимации и звука.


Навигация – перемещение, движение. Применительно к Интернет означает переходы со страницы на страницу - их последовательный просмотр.


Ошибка web-сервера. Каждый встречался с ситуацией, когда вместо нужной страницы получал ответ об ошибке с номером. По номеру ошибки можно получить некоторую информацию.


300 - Multiple Choices. Несколько вариантов на выбор.
301 - Moved Permanently. Ресурс перемещен на постоянной основе.
302 - Moved Temporarily. Ресурс временно перемещен.
303 - See Other. Смотрите другой ресурс.
304 - Not Modified. Не изменился.
305 - Use Proxy. Используйте прокси-сервер.
400 - Bad Request. Некорректный запрос.
401 - Unauthorized. Нет разрешения.
402 - Payment Required. Требуется оплата.
403 - Forbidden. Доступ запрещен.
404 - Not Found. Ресурс не найден.
405 - Method Not Allowed. Недопустимый метод.
406 - Not Acceptable. Непреемлимый запрос.
407 - Proxy Authentication Required. Необходима регистрация.
408 - Request Timeout. Время обработки запроса истекло.
409 - Conflict. Конфликт.
410 - Gone. Ресурса больше нет.
411 - Length Required. Необходимо указать длину.
412 - Precondition Failed. Не выполнено предварительное условие.
413 - Request Entity Too Large. Запрашиваемый элемент слишком велик.
414 - Request-URI TOO Long. Идентификатор ресурса слишком длинный.
415 - Unsupported Media Type. Неподдерживаемый тип ресурса.
500 - Internal Server Error. Внутренняя ошибка сервера.
501 - Not Implemented. Функция не реализована.
502 - Bad Gateway. Дефект шлюза.
503 - Service Unavailable. Служба недоступна.
504 - Gateway Timeout. Время прохождения через шлюз истекло.
505 - HTTP Version Not Supported. Неподдерживаемая версия HTTP.


Поиск в определенных полях – поиск не по всему документу, а выборочно, по определенным полям. Например, можно искать по заглавию документа, в этом случае учитываются только ключевые слова, встречающиеся именно в заглавии документа.


Поиск морфологический – возможность поисковой системы искать слово в документах не только в строго заданном виде, но и во всех его морфологических формах.


Поиск по ключевым словам – поиск документов, которые содержат указанные пользователем ключевые слова.


Поиск по словосочетаниям – поиск документов, которые содержат в точности указанное пользователем словосочетание, предложение, отрывок текста.


Поиск с расстоянием – поиск, при котором пользователь указывает, на каком расстоянии между собой должны располагаться ключевые слова в документе.


Поисковая система, поисковая машина, машины поисковые – содержит в себе три компонента: 1) Робот, который исследует сайты и заносит страницы в индексы системы; 2) Индекс системы, где хранятся преобразованные особым образом текстовые составляющие всех посещенных и проиндексированных роботом страниц и текстовых файлов; 3)  Система поиска – программа, которая обрабатывает запрос пользователя, находит в индексе документы, отвечающие критериям запроса, и выводит список найденных документов в порядке убывания релевантности. Пример поисковой системы: http://www.yandex.ru или www.rambler.ru.


Поисковый шум в информационном поиске – совокупность выданных нерелевантных документов.


Посещение, визит, сессия на сайте (Site Session). Определяется как серия запросов к серверу, сделанных одним пользователем в заданный промежуток времени. В течение сессии пользователь обращается к тем либо иным страницам сайта каждый его запрос отражается в логах сервера. Если в течение 30 минут от пользователя не поступило к серверу ни одного нового запроса, сессия считается завершенной, и возобновление пользователем активности через 31 минуту будет расцениваться как новое посещение. Для посещения имеются две важные характеристики session time (сколько пользователь провел времени на сайте) и session depth или page views (сколько страниц просмотрел пользователь за сессию). Совокупность этих параметров называется "глубиной интереса пользователя".


Портал – 1. Сайт, организованный как системное многоуровневое объединение разных ресурсов и сервисов.  В перечень предоставляемых сервисов, как правило, входят поиск информации, бесплатная электронная почта, новостная лента, прогноз погоды, сведения о курсах валют, перечень ссылок на сетевые ресурсы и др. В большинстве случаев у порталов есть также значительное собственное содержательное наполнение. Цель порталов – в создании места в Сети, с которого большое число пользователей регулярно начинает свою работу в Интернет и которые поэтому служат привлекательным местом для размещения рекламы. Порталами могут считаться сайты, имеющие стабильно высокую посещаемость. Большинство порталов сформировано вокруг поисковых машин и справочников Интернет-ресурсов; 2. Сайт в Интернете – визитная карточка любой компании или частного пользователя, оформленная в увлекательной графике, от простой информационной странички до путеводителя по конкретной области знаний или сфере бизнеса.


Полнотекстовая поисковая система – полнотекстовые поисковые системы индексируют все слова на странице (иногда за исключением стоп-слов) и учитывают порядок их расположения.


Посещаемость – количество посетителей сайта или страницы за единицу времени (день, месяц и т. д.).


Провайдер – от английского provider – поставщик. Используется для обозначения компаний, предоставляющих услуги подключения к Интернету, кабельным телевизионным сетям и других.


Протокол – стандартизованная процедура установления, поддержания и прекращения цифрового соединения, определяющая порядок передачи управляющей информации и данных, механизм выбора указанной процедуры из списка возможных, структуру и способ кодирования блоков данных.


Расширенный запрос – процесс построения нового запроса на базе предыдущего. Например, позволяет разрядить многотысячный список с результатами поиска путем удаления оттуда документов по определенным критериям.


Релевантность – степень соответствия текста сайта ключевым словам, которые указаны в поле определения ключа поиска в поисковой системе. В зависимости от этой величины поисковая система определяет порядок показа результатов поиска. Чем выше у страницы релевантность, тем ближе к началу списка она будет находиться при выдаче результатов поиска.


Робот поисковой системы см. Агент поисковый.


Рунет – это русский Интернет. Границы в Интернете обычно "проходят" не по географическим признакам, а по языку, поэтому под Рунетом обычно понимают не только сайты в домене .ru, но и русскоязычные ресурсы.


Сайт – см. Веб сайт.


Сервер  – 1) Компьютер, достаточно мощный для обработки запросов через Интернет, на котором хранятся файлы (тексты, изображения, программы) вашего сайта; 2) Программный комплекс этого компьютера, непосредственно обрабатывающий запросы и выдающий конечные документы вашему браузеру; 3) Компьютер или другое устройство, подключенное к сети и предоставляющее определенные услуги другим устройствам в сети – клиентам. См. также Веб сервер.


Справочник (Web-directory, синонимы: Директория, Каталог, Рубрикатор) – систематизированный перечень Интернет-ресурсов, имеющий иерархическую структуру и, фактически, представляющий собой систематический каталог Интернет-ресурсов. Объектом описания являются в большинстве случаев целые сайты или их большие разделы. Описания ресурсов включают название сайта, его адрес (URL) и аннотацию. Работа по классификации и аннотированию ресурсов производится вручную редакторами разделов. Каталоги делятся на универсальные и специализированные (отраслевые), а также на глобальные и национальные (региональные). С помощью справочников выполняется поиск ресурсов (сайтов), определенной тематики путем перехода от более общих его разделов, к более частным. Пример глобального справочника универсального характера: Yahoo.


Стоп-слова – для экономии места и увеличения производительности некоторые поисковые системы не включают в индексы слова, встречающиеся на страницах очень часто.


Страница – составная часть сайта. Физически представляет собой файл. Может содержать текст, изображения, апплеты и другие элементы. Страница может быть статической или динамически сгенерированной. В случае использования фреймов каждый фрейм считается отдельной страницей.


Тезаурус – список синонимов для ключевого слова, которые может использовать система при поиске.


Файл – совокупность связанных записей (кластеров), хранящихся во внешней памяти компьютера и рассматриваемых как единое целое. Обычно файл однозначно идентифицируется указанием имени файла, его расширения и пути доступа к файлу. Каждый файл состоит из атрибутов и содержимого. Различают текстовые, графические и звуковые файлы.  Он размещается на устройстве долговременного хранения информации. Например, жёсткий диск, дискета, компакт-диск, магнитная лента и.т.д. В большинстве файловых систем файл имеет атрибуты, которые разрешают или запрещают чтение, изменение, удаление, выполнение файла. Часто кроме имени файл имеет расширение. Имя и расширение файла разделяются точкой. Например, файл "index.txt" имеет имя "index" и расширение "txt". Расширение определяет структуру и способ обработки данных, которые хранятся в файле. По расширению имени файла операционная система определяет программу, которую следует запустить для обработки файла.


Унифицированный указатель ресурса (URL) см. URL.


Хост (Host) – узловой компьютер, постоянно подключенный к сети Интернет. Из множества хостов и состоит сеть Интернет.


Шлюз – устройство, обеспечивающее соединение сетей с различными стандартами.


Электронная библиотека, цифровая библиотека, виртуальная библиотека – 1) Библиотека, в которой документы хранятся и используются в машиночитаемой (электронной) форме; 2) Совокупность информационных изданий, баз данных и других электронных продуктов, объединенных единым электронным каталогом, технологических и технических средств, обеспечивающих доступ к этим информационным ресурсам для любых пользователей. При этом может и должен реализовываться принцип распределенного хранения информационных ресурсов; 3) Упорядоченные коллекции разнородных электронных документов, снабженные средствами навигации и поиска.


HTML, HyperText Markup Lenguage – язык разметки гипертекста.


Intranet – сеть, обладающая всеми возможностями Интернета, но ориентированная на применение в рамках одной организации. Отличается высокой безопасностью и скоростью работы. Используется для решения задач по автоматизации документооборота, поиска и совместного доступа к данным и документам организации. Может иметь шлюзы для подключения в Интернет. В качестве примера можно привести Intranet-сети, реализованные на основе технологии Dashboard от Microsoft. Рабочие места в сети на базе Dashboard строятся с помощью Microsoft Office, очень тесно интегрируясь с ним. Пользователь ищет и работает с данными в привычном интерфейсе, пользуясь Microsoft Outlook для доступа к сетевым данным.


IP-адрес – это уникальный адрес компьютера в сети Интернет, который состоит из четырех чисел, находящихся в диапазоне от 0 до 255 и разделенных точками. Например: 196.25.5.23. в Интернет можно обратиться к любому подключенному компьютеру, используя IP адрес. ISDN (Integrated Service Digital Network) – технология, позволяющая передавать данные по обычным телефонным линиям, но с более высокой скоростью, чем с помощью модемов. Сейчас IP-адрес содержит из 4 байта. Все множество номеров разбивают по блокам. Номера в одном блоке характеризуются одинаковым префиксом (часть цифр в адресе фиксируются, а остальные выбираются произвольно). Сколько цифр в адресе фиксировано определяется маской сети.


On Line  – 1. Работающий в системе, неавтономный; 2. В темпе поступления информации; 3. Интерактивный, диалоговый, оперативный; 4. Под управлением основного оборудования; 5. Непосредственно под управлением центрального процессора.


TCP/IP (Transmission Control Protocol/Internet Protocol) – единые базовые протоколы передачи данных по сети Интернет.


URL (Universal Resource Locator) – унифицированный указатель ресурсов – универсальный адрес ресурса, адрес Web-узла. Основой указателя является имя домена – уникальное имя, однозначно определяющее документ в сети Интернет. Представляет цифровой IP-адрес ресурса в виде строки, например: http://www.edu.ru .


Word Wide Web  – Веб  (World Wide Web, WWW), всемирная паутина – 1. Это часть Интернета, которая состоит из всех страниц с какой-либо информацией, размещенных в Интернете; 2.  Все гипертекстовые серверы сети Интернет (доступные по протоколу http) часто называемые web-серверами.



Литература

1. Англо-русский компьютерный словарь. 11029 статей / Э. Пройдаков, Л. Теплицкий. – [Б.м.], 1999-2004 // Виртуальный компьютерный музей: – http://dict.kolbi.ru/cgi-bin/dict2/view2.pl.

2. Ассистент – Словарь проф. 4.2. / ЗАО Информационно компьютерный центр  ЮНА. – М., 2004 . –  http://yas.yuna.ru/.

3. Воройский Ф.С. Информатика. Новый систематизированный толковый словарь-справочник. 2-е изд., перераб. и доп. М., 2001.

4. Информация  // Glossary Comander  = Служба тематических толковых словарей. – М.,      2000-2005. – http://www.glossary.ru/.

5. Основные понятия и определения прикладной интернетики / Сост. Нехаев С.А., Кривошеин Н.В. – М.,  1999-2005. – http://www.bizon.ru:8101/?t=37.

6. Энциклопедия «Кругосвет» – http://www.krugosvet.ru.