1 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Как проиндексировать сайт в Яндексе, Google и других поисковиках

Индексация сайта в поисковых системах — необходимое условие его видимости при поиске в интернете. Если просто создать сайт и не заботиться о его индексации, скорее всего, на него смогут попасть только те, кто знает непосредственный адрес домена.

Индексирование — это процесс считывания страниц сайта роботом той или иной поисковой системы с последующим добавлением данных страниц в базу поисковой системы

Краулеры с некоторой периодичностью обходят страницы сайта, считывая

  • Метаданные;
  • Контент;
  • Внутренние и внешние ссылки;
  • Ответ сервера;

И множество других данных.

Благодаря тому, что поисковая система узнаёт о сайте, она способна предлагать и продвигать его в результатах поиска. На основе контента, ссылок и ряда факторов определяется тематическая категория сайта, ключевые фразы, по которым он наиболее релевантен поисковым запросам.

Статья в тему:  Безопасный браузер. Подробный тест шести браузеров

Таким образом, поисковая система предлагает пользователям страницы вашего сайта, максимально соответствующие их запросам.

В то же время, не стоит возлагать больших надежд на продвижение сайта в выдаче. Ведущую роль здесь играют не настройки обхода страниц, а поведенческие факторы .

Индексация всего лишь способствует актуализации материалов сайта. Благодаря этому страницы и их содержимое, во-первых, попадают в поисковую выдачу с наименьшей задержкой. А, во-вторых, постоянно обновляются.

Как работает индексирование

Индексирование происходит благодаря краулеру: он обходит страницы всех сайтов в интернете и отправляет получаемую информацию в базу данных поисковой системы. Она и называется индексом. В дальнейшем собранные данные задействуются по-разному. Частично – для выстраивания ранжирования и формирования максимально релевантных поисковой фразе результатов поиска. Частично – для иных, например, служебных целей.

Поисковик может использовать данные только с тех страниц, которые уже были проиндексированы им. Пока первичная индексация не состоялась, его не будет существовать для Google. Зато после Google быстро найдет любую информацию в своих базах данных, и поиск по нескольким миллионам страниц займет считанные миллисекунды.

Стоит отметить, что, даже если краулер уже «обошел» страницу, это не гарантия того, что она мгновенно или вообще когда-либо попадет в поисковую выдачу. Да, краулер обходит абсолютно все страницы, но в SERP попадают только страницы с полезным и уникальным контентом.

Статья в тему:  Безопасное хранение паролей. Где и как хранить свои пароли

Тяжело создавать контент, который удовлетворит не только запросы поисковиков, но и пользователей? Обращайтесь за помощью в «Текстерру».

Обмануть поисковую систему точно не удастся, а если и удастся, то ненадолго: для распознавания некачественного контента у Google есть собственные наработки, защищенные патентами.

Индекс E-A-T, рейтинг Page Quality и алгоритм BERT – все эти разработки позволяют точно определять полезность контента на странице и автоматически распознать его качество. В их основе лежит взаимодействие машинного обучения и других разработок Google, связанных с оценкой пользовательского опыта.

Как происходит индексация сайта

Анастасия Шестова, руководитель направления поискового продвижения в ИнтерЛабс, сравнивает индексацию с добавлением книги в библиотеку: когда определен жанр, автор и название книги, она занимает свое место в библиотеке, и читатель может ее найти. Поэтому индексацию сайта вернее рассматривать как двухэтапный процесс: сначала идет сканирование страниц, затем — их обработка.

Сканирование страниц

Сканирование страниц — это основная задача поискового робота. Когда он попадает на новую страницу, то получает два набора данных:

  • Содержание, информацию о сервере и служебные данные.
  • Перечень ссылок на страницах.

Затем робот передает данные в обработку, а после — сохраняет в базе. Самый простой способ индексации страниц в рамках домена — создание карты сайта sitemap.xml.

Чтобы Google и Яндекс увидели ваш сайт, нужно cначала добавить его в сервисы, а затем прикрепить ссылку на файл Sitemap в Google Search Console и Яндекс.Вебмастере. Это специальные сервисы для веб-мастеров, которые помогают работать с индексацией.

Статья в тему:  Расчет раскроя дсп. Программы для раскроя дсп

Чтобы добавить файл Sitemap в Google Search Console, зайдите в сервис, добавьте свой сайт и перейдите в раздел «Сканирование». В пункте «Файлы Sitemap» выберите «Добавить файл Sitemap» и вставьте ссылку на файл Sitemap.

В Яндекс.Вебмастере путь похож: зайдите в ваш аккаунт, выберите нужный сайт. Затем в левом меню нажмите на раздел «Индексирование» и выберите вкладку «Файлы Sitemap». В строку «Добавить файл Sitemap» вставьте ссылку файла и нажмите «Добавить». Кстати, если вы внесли изменения в карту сайта, то просто отправьте карту на перепроверку, нажав на стрелочки рядом с файлом Sitemap.

Обработка страниц

После сбора роботами информация проходит обработку и потом попадает в базу данных. Это необходимо для ускорения дальнейшего поиска.

В начале программа формирует страницу со всем содержимым: скрипты, эффекты, стили. Важно, чтобы робот имел полный доступ ко всем файлам, потому что без них индексатор не сможет понять структуру.

Вы можете посмотреть, одинаково ли видят страницу пользователи и поисковой робот. Для этого зайдите в Google Search Console, выберите отчет «Посмотреть как Googlebot» в разделе «Сканирование».

Затем робот анализирует текст страницы: упрощает слова и определяет частоту упоминания ключевого слова, проверяет уникальность. Так, если ваш контент уже индексировали в интернете, то у страниц будет низкая уникальность. Значит, робот может не добавить их в поисковый индекс. Поэтому важно наполнять свой сайт уникальным и полезным контентом.

Статья в тему:  Как удалить человека из вк навсегда. Способы удаления друзей

Процессы поисковых систем

Каждый процесс, происходящий в поисковых системах, уникален и интересен. Зная архитектуру поисковой системы, можно понимать причины «выпадения» сайта из выдачи или повышения позиций. Рассмотрим каждый процесс в отдельности.

Процесс индексации

Индексация – это процесс, во время которого поисковые роботы посещают сайты, собирая с их страниц разнообразную информацию и занося ее в специальные базы данных. Потом эти данные обрабатываются, и строится индекс – выжимка из документов. Именно по индексу поисковая система ищет и выдает ссылки на сайты, исходя из запросов пользователей.

Рассмотрим процесс индексации на примере поисковой системы Яндекс.

В поисковой системе есть 2 типа роботов: быстрый и основной. Задача основного робота – индексация всего контента, а быстрого – занесение в базы данных самой свежей информации. Планировщик поискового робота составляет маршруты посещения и передает его «пауку», который ходит по выбранным страницам и выкачивает из них информацию. Если во время индексации в документах обнаруживаются новые ссылки, они добавляются в общий список.

При первом посещении «паук» проверяет состояние ресурса. Если его характеристики подходят под требования Яндекса, сайт заносится в базу. При повторном посещении «пауком» уже проиндексированной страницы происходит обновление содержащейся на ней информации.

Документы в индекс попадают следующими способами: автоматически, когда поисковый робот сам переходит по внешним и внутренним ссылкам, ибо если владелец сайта сам добавил URL через специальную форму или через установленную на сайте Яндекс.Метрику. Этот сервис передает URL страниц на индексацию Яндексу. При необходимости в интерфейсе Метрики можно отключить данную опцию.

Статья в тему:  Улучшаем производительность windows 7

Скорость индексации и обновления страниц сайта

В идеале, как только создана новая страница, она должна быть сразу же проиндексирована. Однако большие объемы информации затрудняют индексацию новых страниц и обновление старых. Роботы поисковых систем постоянно обновляют базу данных, но, чтобы она была доступна пользователям, ее необходимо переносить на «базовый поиск». База данных переносится туда не полностью. Исключаются зеркала сайтов, страницы, содержащие поисковый спам, и другие ненужные, по мнению поисковика, документы.

Глобально базы поисковых систем обновляются роботами примерно раз в неделю.

Однако для некоторых типов информации такая скорость обновления неприемлема. Примером может служить индексация новостных сайтов. Размещенные новости должны быть доступны в поисковой системе практически сразу после их добавления. Для того, чтобы увеличить скорость индексации часто обновляемых страниц, и существует специальный быстрый робот, который посещает новостные сайты несколько раз в день.

Понять, что сайт посетил быстрый робот, можно сразу по двум признакам: если в поисковой выдаче рядом с URL сайта показывается время последнего обновления и если в числе проиндексированных страниц сохранены две копии одного и того же документа.

Поисковые роботы стремятся проиндексировать как можно больше информации, однако существует ряд факторов, которые накладывают ограничения на процесс индексации. Так, например, возможность попадания в индекс напрямую зависит от авторитетности ресурса, уровня вложенности страниц, наличия файла sitemap.xml, отсутствия ошибок, мешающих нормальной скорости индексации сайта. Основными инструментами управления индексацией сайтов являются robots.txt, мета-теги, теги, атрибуты noindex и nofollow.

Статья в тему:  Как легко сбросить забытый пароль в любой версии Windows

На сегодняшний день могут индексироваться следующие типы документов:

1. PDF, Flash (Adobe Systems).

2. DOC/DOCX, XLS/XLSX, PPT/PPTX (MS Office).

3. ODS, ODP, ODT, ODG (Open Office).

Robots.txt — это текстовый файл, в котором можно задавать параметры индексирования как для всех роботов поисковых систем сразу, так и по отдельности. Тег и метатег noindex отвечают за индексацию текста или самой страницы, а nofollow – за индексацию ссылок. В одной из следующих глав мы подробно разберем настройку этих элементов сайта.

Помимо обычных текстов, размещенных на сайтах, все современные поисковые системы умеют индексировать и документы в закрытых форматах, хотя существуют некоторые ограничения на типы данных, размещенных в этих файлах. Так, в PDF индексируется только текстовое содержимое. Во flash-документе индексируется текст, который размещен только в определенных блоках, в то время как документы больше 10 Мб не индексируются вовсе.

Роботы поисковых систем

Среди всех существующих поисковых роботов выделяют 4 основных типа:

1. Индексирующий робот;

2. Робот по изображениям;

3. Робот по зеркалам сайта;

4. Робот, проверяющий работоспособность сайта или страницы.

Определить, какой робот зашел на сайт, можно с помощью лог-файла, который обычно доступен либо в админке, либо на ftp. Все существующие роботы представляются по одной схеме, но каждый имеет свое название. Например: «Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)» — основной индексирующий робот поисковой системы Яндекс.

Статья в тему:  Что делать если ноут не читает диски. Ноутбук не видит диск

Некоторые посторонние роботы могут маскироваться под роботов Яндекса путем указания соответствующего user-agent. Вы можете проверить подлинность робота с помощью идентификации, основанной на обратных DNS-запросах.

Индексирующий робот обнаруживает и индексирует страницы, чтобы создать базу для основного поиска.

Робот по изображениям заносит в индекс графическую информацию, которая в дальнейшем отображается в выдаче соответствующего сервиса, например, Яндекс.Картинки или Картинки Google.

Робот, определяющий зеркала, проверяет зеркала сайтов, прописанных в файле robots.txt. Если они идентичны, то в результатах выдачи поисковой системы будет только один сайт – главное зеркало.

Специальный робот проверяет доступность сайта, добавленного через форму «Добавить URL» в Яндекс.Вебмастере.

Существуют и другие типы индексирующих роботов: индексаторы видео и пиктограмм (иконок) сайтов; робот, проверяющий работоспособность сайтов в Яндекс.Каталоге; индексатор «быстрого» контента на площадках типа Яндекс.Новостей и др.

Важно понимать, что процесс индексации сайта является длительным, за ним следует процесс обновления индексных баз, который также требует временных затрат. Поэтому результат внесенных на сайте изменений будет виден только через 1-2 недели.

Этапы создания индекса в Google

Формирование индекса состоит из 4-х основных этапов. Рассмотрим подробнее каждый из них:

  • Извлечение текста. На этом этапе роботы извлекают текст из ресурса или страницы и отделяют его от лишних элементов: фотографии, разметки и других структурных элементов.
  • Формирование списка слов-лексем. На втором этапе робот формирует выборочную совокупность, чтобы дальше выделить лексему. Лексема — это слово или выражение, считающиеся за отдельную единицу. Такие единицы выделяются со всех слов в тексте на сайте.
  • Структурирование и обработка. На третьем этапе сформированные лексемы упорядочиваются в алфавитном порядке и пронумеровываются. Таким образом каждая лексема получает свой номер страницы и номер вхождения.
  • Формирование индексной записи. Подобная запись выглядит так: лексема/ № страницы + № вхождения/ № страницы + № вхождения/ № страницы + № вхождения. Поисковые роботы могут создать более сложную запись, но в ее основе все равно будет этот скелет.
Статья в тему:  Учетная запись электронной почты. Что значит учетная запись

Как индексирует сайты Гугл и Яндекс

Яндекс и Гугл, пожалуй, самые популярные поисковики в России. Чтобы поисковые системы проиндексировали сайт, о нем нужно сообщить. Сделать это можно двумя способами:

  1. Добавить сайт на индексацию при помощи ссылок на других ресурсах в интернете — этот способ считается оптимальным, так как страницы, найденные таким путем, робот считает полезными и их индексирование проходит быстрее, от 12 часов до двух недель.
  2. Отправить сайт на индексацию путем заполнения специальной формы поисковой системы вручную с использованием сервисов Яндекс.Вебмастер, Google Webmaster Tools, Bing Webmaster Tools и др.

Второй способ медленнее, сайт встает в очередь и индексируется в течение двух недель или больше.

В среднем, новые сайты и страницы проходят индексацию за 1–2 недели.

Считается, что Гугл индексирует сайты быстрее. Это происходит потому, что поисковая система Google индексирует все страницы — и полезные, и неполезные. Однако в ранжирование попадает только качественный контент.

Яндекс работает медленнее, но индексирует полезные материалы и сразу исключает из поиска все мусорные страницы.

Индексирование сайта происходит так:

  • поисковый робот находит портал и изучает его содержимое;
  • полученная информация заносится в базу данных;
  • примерно через две недели материал, успешно прошедший индексацию, появится в выдаче по запросу.

Есть 3 способа проверки индексации сайта и его страниц в Гугл и Яндексе:

  1. при помощи инструментов для вебмастеров — google.com/webmasters или webmaster.yandex.ru;
  2. при помощи ввода специальных команд в поисковую строку, команда для Яндекс будет выглядеть так: host: имя сайта+домен первого уровня; а для Гугл — site: имя сайта+домен;
  3. с помощью специальных автоматических сервисов.
Статья в тему:  Почему не загружается фото ВКонтакте

Как управлять индексированием?

Как стимулировать роботов внести страницы в индекс:

1. Открыть закрытые для индексирования страницы.

2. Проследить, чтобы страницы просканировались, добавляя ссылки для сканирования в очередь с помощью вебмастера. Также можно использовать «ловцов ботов» — программы, основная задача которых предоставлять поисковым роботам ссылки на важные страницы сайта.

3. Размещать релевантный контент, метатеги, оптимизировать изображения, следить, чтобы рекламные блоки занимали максимум 30% первого экрана сайта.

Как ограничить доступ роботов к индексированию контента:

1. Добавить специальный метатег в верхней части HTML-страниц: .

2. Добавить специальный HTTP-заголовок: X-Robots-Tag: noindex.

Google Serving Index — Индекс обслуживания

Индекс обслуживания или Serving Index — основной индекс поисковой системы состоящий из страниц, которые участвуют в ранжировании.

Находится в отдельных дата-центрах, откуда пользователи получают результаты поиска.

Документ попадает в Serving Index если:

  • Код ответа — 200;
  • Нет запрета к индексации;
  • Collapsor пропустил страницу в индекс.

Поисковая система обрабатывает коды ответа так:

  • 200. Роботу надо обойти страницу;
  • 3XX. Роботу надо обойти страницу, которая открывается по редиректу.
  • 4XX и 5XX. Страница с таким кодом не должна участвовать в поиске. Если до момента обращения робота страницы была размещена в поисковой выдаче, то будет удалена из индекса.

Как проверить наличие страниц в индексе? Разберемся на примере сайта indexoid.com.

Проверка индексации сайта в Яндекс с учетом всех поддоменов сайта:

Статья в тему:  Создание выкроек. Программы для моделирования одежды

Проверка индексации в Яндекс по разделу:

Проверка индексации сайта в системе Google с учетом всех поддоменов сайта:

Проверка индексации по разделу:

С учетом вхождений в заголовки:

Проверка индексации по разделу:

Если страницы перестали открываться, то такие страницы подлежат удалению из индекса.

Если сайт отдает код ошибки, то страницы удаляются из индекса.

Уязвимость могут эксплуатировать конкуренты по выдаче.

Как проверить доступность сайта? К примеру, можно использовать сервис от MegaIndex. Стоимость 1 проверки составляет 0.01 рублей. Если сервер сайта перестанет работать, система уведомит об инциденте удобным способом.

Какие типы документов индексируют поисковики

На сегодня индексируются следующие типы документов.

  • Документы MS Office (DOC/DOCX, XLS/XLSX, PPT/PPTX);
  • PDF, Flash (Adobe Sys.);
  • Документы Open Office (ODS, ODP, ODT, ODG).
  • TXT, RTF.

Примечание: В документах PDF индексируется только тексты. Во всех flash-документах индексируется текст, размещенный в определенных блоках. Документы объемнее 10 Мб совсем не индексируются.

Индексация сайта в поиске

Теперь, когда мы рассказали, что такое индексация, почему она так важна и как её проверить, приступим к практике.

Как ускорить индексацию?

Мы писали выше, что управлять индексацией, что бы кто не говорил, вы не можете. Но повлиять на процесс или даже ускорить возможно.

Советы по ускорению индексации

  • Обязательно добавьте сайт во все сервисы Яндекса и Google, особенно в Яндекс Вебмастер и Google Search Console.
  • Создайте sitemap.xml, поместите карту в корень сайта и постоянно обновляйте.
  • Следите за robots.txt и исключайте ненужные страницы (об этом ниже).
  • Выберите надёжный и быстрый хостинг, чтобы робот мог беспрепятственно индексировать содержимое сайта.
  • Используйте инструменты Яндекс Вебмастера (Индексирование → Переобход страниц) и Google Search Console (Проверка URL → Запросить индексирование). Способ идеально подходит для работы с отдельными страницами.
  • Если ваша CMS любит создавать дубли (например, Битрикс), то используйте атрибут rel=canonical.
  • Автоматизируйте создание новых ссылок со старых страниц. Как вариант, можно сделать блок на главной с новыми товарами или статьями.
  • Ведите соцсети и анонсируйте новые товары, услуги, страницы. Замечено, что ссылки с соцсетей могут ускорить процесс.
  • Создавайте качественный контент на каждой странице. Под качественным контентом мы понимаем актуальную, релевантную и уникальную информацию для пользователей.
  • Работайте над структурой сайта и делайте её удобной и понятной пользователю. Помните о правиле 3 кликов: это оптимальное количество действий для пользователя.
  • Проверяйте периодически сайт на вирусы и санкции поисковых систем. В Яндекс Вебмастере раздел Диагностика → Безопасность и нарушения, в Google Search Console — раздел Проблемы безопасности и меры, принятые вручную.
  • Улучшайте свой ссылочный профиль и пишите анонсы на других сайтах (в рамках правил поисковых систем).
  • Используйте родные браузеры (Chrome, Яндекс Браузер) и заходите на новые страницы с них.
Статья в тему:  Аваст скачать полный дистрибутив. Установка без интернета

Как запретить индексацию?

Выше мы рассмотрели основные способы, как ускорить индексацию, и рассказали, что такое краулинговый бюджет и почему он ограничен для каждого сайта. Поэтому чтобы его не тратить зря, советуем закрывать от индексации служебные и технические страницы, кабинеты пользователей и конфиденциальную информацию, а также страницы в разработке и дубли.

3 основных способа запретить индексацию:

  1. Директива Disallow в файле robots. Мы писали, что такой запрет может не сработать в отдельных случаях. Тем не менее это основной способ запрета индексации.
  2. В коде страницы указать метатег robots с директивой noindex (для текста) и/или nofollow (для ссылок). Хорошо подходит для запрета индексации отдельных страниц.
  3. Настроить HTTP-заголовок X-Robots-Tag с директивой noindex и/или nofollow. Лучше всего подходит для закрытия индексации не HTML-файлов (PDF, изображения, видео и другие).

Индексация многостраничных сайтов

Отдельным столпом стоит работа с краулинговым бюджетом для многостраничных сайтов: маркетплейсы, агрегаторы, интернет-магазины, новостники, форумы и другие. Скажем по секрету, что владельцам небольших сайтов (до 1000 страниц) о бюджете краулинга можно волноваться меньше. А вот владельцам многостраничников придётся нелегко.

Как улучшить индексацию многостраничного сайта:

  1. Используйте все наши советы по улучшению индексации на полную мощь.
  2. Максимальное внимание уделите улучшению структуры и навигации и обновлению карты сайта.
  3. Структура сайта должна быть проста и понятна, охватывать весь спектр ключевых запросов, а каждая страница сайта в идеале должна быть доступна в 3–4 клика. Для этого используйте дополнительные блоки на главной странице и в разделах.
  4. Хорошо работает облако тегов: с помощью него часто получается продвигать категории, улучшать навигацию и полно охватывать семантику.
  5. Для многостраничных сайтов действительно важно постоянно обновлять sitemap.xml. Зачастую в таких случаях карту делят на несколько частей, чтобы охватить весь список страниц.
  6. Настройте маски (автоматические шаблоны) метатегов для новых страниц в категориях и каталогах.
  7. Скорее всего, вам не обойтись без команды профессионалов, которые смогут обеспечить техподдержку, производство контента и SEO-продвижение.
Ссылка на основную публикацию
Статьи c упоминанием слов:

Adblock
detector