Форма входа
Меню сайта
Главное Меню
Главная страница
Помощь Web мастеру
Связь с админом
Залить фото
Статьи
Форум
Всё для ucoz
Шаблоны для форума
Светлые шаблоны
Тёмные шаблоны
Иконки групп
Иконки разные
Скрипты
Другое
Темы форума
Бесплатные услуги
Раскрутка сайтов
Аренда(реклама)
Заработок
Клик-Клик



Календарь
Опрос
Оцените мой сайт
Всего ответов: 197
Архив сайта
Статистика

Облоко тэгов
Новые ajax окна для ucoz Игровой Шаблон Адаптация Новое горизонтальное меню Панель навигации для uCoz Рип сайта Codegames.Ru для ucoz Ну очень красивые иконки для форума ucoz Пак кнопок для UcoZ Еще вид новостей ucoz Рейтинг пользователя как Вконтакте для uCoz Уроки по рипу шаблонов DataLife Engine (DLE) Опрос с картинками Новейший вид менюшки (Красивый очень) для uCoz Сворачивания тем на форуме шаблон для ucoz (Линейка2) Танцующий террорист Новый информер "Онлайн" для uCoz Часы web 2.1 любой цвет, красиво Красивое уникальное меню для ucoz Шаблон на тему "Кино" для uCoz Интернет-магазин для UCOZ
Наш банер
Всё для ucoz

Мини-чат
Тэги сайта

скрипты для ucoz, ucoz, шаблоны для ucoz, иконки групп для ucoz, гсщя, всё для ucoz, скачать бесплатно шаблоны для ucoz, скрипты для ucoz без регистрации

[ Новые сообщения · Участники · Правила форума · Поиск · RSS ]
  • Страница 1 из 1
  • 1
Как яндекс определяет синонимайз
autumn Дата: Четверг, 03.06.2010, 21:11 | Сообщение # 1

Сообщений:32
Награды :2 +
Репутация:0 ±
Замечания:
% 
Offline

В сети наткнулся на довольно любопытный документ. Статья называется "Поиск неестественных текстов" (Е.А. Гречников, Г.Г. Гусев, А.А. Кустарев, А.М. Райгородский, Яндекс, Лаборатория комбинаторных и вероятностных методов,). К посту файл прикрепить не получилось, но статья довольно популярная, так что все желающие могут найти.
Для тех, кому лень искать и читать, изложу тезисно:
Описывается технология работы алгоритма, позволяющего определить, является ли текст результатом работы синонимайзера или автоматического переводчика.
Для этого используется большой частотный каталог биграмм, собранный на основе качественных авторских текстов. Естественный текст (т.е. текст, созданный человеком), имеет определенной распределение частотности биграмм. Проще говоря, в любом тексте содержится определенный процент редких словосочетаний и определенный процент частых словосочетаний. В неестественном тексте это соотношение грубо нарушено.
в статье утверждается, что такая технология позволяет фильтровать около 75% синонимайза

Из всего этого можно сделать несколько выводов:
1. К счастью, технология определения синонимайза далеко не так сложна, и при желании можно создать инструмент, позволяющий проверять естественность текста наравне с его уникальностью.
2. Если не добавлять в словари синонимайзеров всякие экзотические слова и словосочетания, можно добиться очень хороших результатов в плане индексации

Прикрепления:




Сообщение отредактировал
  • Страница 1 из 1
  • 1
Поиск: