вход на сайт

Имя пользователя :
Пароль :

Восстановление пароля Регистрация

Используйте эти инструменты, чтобы увидеть, какие объекты находятся на веб-странице

  1. Полезные плагины / расширения Chrome
  2. Инструмент визуализации структурированных данных: Gruff
  3. Инструменты, которые позволяют вам получать информацию из текста
  4. Ключевые вынос

Поисковые системы используют структурированные данные, чтобы определить, какие объекты находятся на вашей веб-странице. Они также могут сделать это, используя другие методы, такие как обработка естественного языка (NLP) и машинное обучение.

Эта статья познакомит вас с различными инструментами, которые помогут вам идентифицировать сущности на веб-странице. Эти инструменты включают в себя:

  • Интересные плагины / расширения Chrome, которые позволяют вам видеть объекты, полученные из структурированных данных / разметки, когда вы просматриваете любую веб-страницу
  • Фантастический инструмент визуализации для графов объектов, которые можно запускать локально на вашем компьютере
  • Инструменты, которые извлекают сущности на веб-странице, используя в основном методы обработки естественного языка (NLP)
Поисковые системы используют структурированные данные, чтобы определить, какие объекты находятся на вашей веб-странице

Как видеть ваши веб-страницы, как это делает поисковая система

Полезные плагины / расширения Chrome

Существует несколько плагинов для Chrome, которые чрезвычайно полезны для понимания (и фактического просмотра) того, что структурированные данные находятся на веб-странице. Ниже показаны используемые мной расширения Chrome, перечисленные под ключевым словом, используемым для их поиска с помощью Интернет-магазин Chrome поиск.

Ниже показаны используемые мной расширения Chrome, перечисленные под ключевым словом, используемым для их поиска с помощью   Интернет-магазин Chrome   поиск

Вот ссылки на каждое расширение:

Есть много преимуществ использования этих плагинов. С одной стороны, они действительно дают вам хорошее представление о том, кто использует какую разметку на своих веб-сайтах, когда вы ежедневно просматриваете веб-страницы. Когда вы видите, что эти маленькие микроданные и значки структурированной разметки появляются в вашем браузере, вам нужно всего лишь щелкнуть мышью, чтобы сразу увидеть, какие виды разметки и метаданных находятся на странице.

Другое преимущество состоит в том, что некоторые из этих расширений сканируют JavaScript, поэтому вы можете видеть все виды интересной информации, которую вы не могли видеть, если бы вы просматривали те же самые страницы. Богатый инструмент для тестирования фрагментов Google ,

Попытка отобразить объем информации, предоставляемой всеми этими расширениями на одном снимке экрана, невозможна, поэтому я решил включить только несколько примеров, разбитых на несколько снимков экрана.

( Примечание : тот факт, что на одном снимке экрана отображается слишком много информации, свидетельствует о росте структурированных данных в Интернете, поскольку последний написал по теме 2 года назад. Объем информации, доступной на средней веб-странице, по сравнению с 2012 годом увеличился на несколько порядков.)

Три скриншота ниже обеспечивают выборку видов информации, получаемой с помощью расширений микроданных. (Все можно увеличить, щелкнув.) Несмотря на то, что информация довольно схожа для всех трех расширений, неплохо иметь несколько доступных инструментов на случай, если один обнаружит что-то, что другие пропустили.

Информация предоставлена ​​расширением инспектора микроданных. (Нажмите, чтобы увеличить.)

)

Информация предоставлена ​​расширением Microdata / JSON-LD sniffer. (Нажмите, чтобы увеличить.)

)

Информация предоставлена ​​расширением Semantic Inspector. (Нажмите, чтобы увеличить.)

Все три плагина определены schema.org Разметка товара , включая свойства для изображения, названия, бренда, производителя, модели, идентификатора продукта, предложений и описания. Они также определили разметку на странице для обзоров и оценок.

Маркетологи, желающие реализовать собственную структурированную разметку, могут быть наиболее заинтересованы в Расширение для микроданных / JSON-LD (средний скриншот выше), так как он предоставляет информацию в удобном HTML-виде.

SEO-инспектор META обеспечивает еще более высокий уровень просмотра данных страницы:

Информация предоставлена ​​расширением инспектора META SEO. (Нажмите, чтобы увеличить.)

Как показано на снимке экрана выше, инспектор META SEO позволяет просматривать все виды метаданных, предоставляемых поисковым системам, начиная от устаревших, но все еще используемых тегов метаданных, до информации schema.org, Facebook Open Graph, инструментов / карт Twitter и многого другого.

Последнее расширение, которое я собираюсь охватить здесь, называется Green Turtle RDFa. Это расширение предоставляет не только полный список информации о субъектах-предикатах-объектах на веб-странице, но и визуализацию этой информации. Вот представление информации, которую Green Turtle почерпнула со страницы продукта Walmart, которую мы использовали в качестве примера:

Вот представление информации, которую Green Turtle почерпнула со страницы продукта Walmart, которую мы использовали в качестве примера:

Информация предоставлена ​​Зеленой черепахой. (Нажмите, чтобы увеличить.)

При правильных настройках этот инструмент также извлекает микроданные. Чтобы включить эту функцию для этого расширения после его загрузки, необходимо выполнить следующие действия:

Загрузив расширение Green Turtle в браузер Chrome, перейдите в «Инструменты» -> «Расширения» и найдите его в списке расширений. Выберите «Опции», затем установите флажок «Включить микроданные».

Выберите «Опции», затем установите флажок «Включить микроданные»

Включение микроданных (а также RDFa в Green Turtle

Теперь, когда вы включили анализ RDFa и микроданных для плагина Green Turtle, вы сможете увидеть много информации. Проверьте новые результаты для той же страницы продукта Walmart:

Информация о Зеленой черепахе с включенными микроданными. (Нажмите, чтобы увеличить.)

Инструмент визуализации структурированных данных: Gruff

Гриф это инструмент, который скачать бесплатно (Mac или ПК) и позволяет визуализировать, какие структурированные данные (или тройки - объекты данных, состоящие из объекта-предиката-объекта) собираются с веб-страницы. График ниже (извлечено из недавняя статья Land Search Engine, которую я написал ) даст вам представление о том, какую информацию может предоставить вам Gruff.

График ниже (извлечено из   недавняя статья Land Search Engine, которую я написал   ) даст вам представление о том, какую информацию может предоставить вам Gruff

Иллюстрации структурированной информации, полученной от Gruff, на основе статьи из Search Engine Land. (Нажмите, чтобы увеличить.)

Чтобы использовать Gruff, вы должны сначала скачать здесь , Чтобы запустить его локально и использовать более простую установку, я бы порекомендовал загрузить версию 3.3 (вы увидите оба варианта при выборе варианта загрузки).

После установки Gruff вам нужно будет создать «Новый Triple-Store» в меню «Файл». После завершения вы можете извлечь данные веб-страницы, выбрав Файл -> Извлечь данные микроформата / RDFa с веб-страницы, а затем введя URL-адрес в соответствующее поле. (Оставьте поле Имя графика пустым.)

)

Когда программа закончит извлечение данных, перейдите на вкладку «Отображение» и выберите последний параметр, «Показать тройки одного графика». Это должно вызвать карту визуализации данных (как показано выше).

Инструменты, которые позволяют вам получать информацию из текста

(Смотрите, какие объекты в вашем тексте - НЛП Инструменты)

TextRazor это API, который анализирует ввод текста, чтобы определить информацию о конкретных объектах в этом тексте. С помощью этого инструмента вы можете «извлечь кто, что, почему и как» из текста веб-страниц, твитов, электронных писем и т. Д. Чтобы увидеть, как это работает, посмотрите их демонстрационная страница и введите текст.

В качестве примера, вот что пришло в голову TextRazor при анализе первых двух абзацев один из моих предыдущих столбцов (нажмите на картинку, чтобы увеличить):

TextRazor анализирует текст и извлекает информацию об объектах. (Нажмите, чтобы увеличить.)

)

Когда вы наводите курсор на объекты, идентифицированные TextRazor, всплывает дополнительная информация об этом объекте, включая ссылку в Википедии и идентификатор Freebase. (Нажмите, чтобы увеличить.)

Другие полезные инструменты и API для извлечения именованных объектов из текста включают в себя:

С этими инструментами может быть интересно поиграть, обеспечивая при этом полезное понимание того, как сущности и графы сущностей могут быть получены как из структурированных, так и из неструктурированных источников информации на веб-странице.

Ключевые вынос

  • Понимание того, что сущности могут быть получены из структурированной, полуструктурированной, а также неструктурированной информации на странице, может быть чрезвычайно полезным при переходе к пониманию семантического поиска.
  • Потратьте некоторое время, просто играя с этими инструментами, и вы обнаружите, что задача и концепция менее устрашающие, чем могут показаться.
  • Если это кажется сложным, это потому, что это сложно! Однако в целях простого использования технологии для получения представления о том, какие объекты находятся на странице (это все, что вам нужно знать, если вы не хотите стать исследователем или создавать инструменты), это просто полезно и весело.

Мнения, выраженные в этой статье, принадлежат автору гостя и не обязательно относятся к Search Engine Land. Штатные авторы перечислены Вот ,


Об авторе

Поиск по сайту
Меню
Реклама на сайте
Архив новостей
Реклама на сайте

Реклама на сайте







Архив сайта
Информация
www.home-4-homo.ru © 2016 Copyright. Все права защищены.

Копирование материалов допускается только с указанием ссылки на сайт.