Форма входа
Меню сайта
Главное Меню
Главная страница
Помощь Web мастеру
Связь с админом
Залить фото
Статьи
Форум
Всё для ucoz
Шаблоны для форума
Светлые шаблоны
Тёмные шаблоны
Иконки групп
Иконки разные
Скрипты
Другое
Темы форума
Бесплатные услуги
Раскрутка сайтов
Аренда(реклама)
Заработок
Клик-Клик



Календарь
Опрос
Откуда вы узнали о нас?
Всего ответов: 382
Архив сайта
Статистика

Облоко тэгов
Torrent Pier Часы web 2.1 любой цвет, красиво шаблон сайта Вконтакте для ucoz Ну очень красивые иконки для форума ucoz Скачать шаблон CS 1.6 для ucoz Доступ запрещен Красивый Мини-чат Ссылка на мою страницу GrungeMag шаблон для ucoz Вид мини чата для UcoZ Рип extm.clan.su блок Ваш баннер для UcoZ Steam & CS:S Rip ucoz-master для ucoz Скрипт эффекта прозрачности для ucoz Домен .TK Мини-профиль для uCoz При клике увеличивается картинка для uCoz Шаблон DragLife + рабочий конструктор Новый мини профиль для светлого дизайна для ucoz
Наш банер
Всё для ucoz

Мини-чат
Тэги сайта

скрипты для ucoz, ucoz, шаблоны для ucoz, иконки групп для ucoz, гсщя, всё для ucoz, скачать бесплатно шаблоны для ucoz, скрипты для ucoz без регистрации

[ Новые сообщения · Участники · Правила форума · Поиск · RSS ]
  • Страница 1 из 1
  • 1
Как яндекс определяет синонимайз
autumn Дата: Четверг, 03.06.2010, 21:11 | Сообщение # 1

Сообщений:32
Награды :2 +
Репутация:0 ±
Замечания:
% 
Offline

В сети наткнулся на довольно любопытный документ. Статья называется "Поиск неестественных текстов" (Е.А. Гречников, Г.Г. Гусев, А.А. Кустарев, А.М. Райгородский, Яндекс, Лаборатория комбинаторных и вероятностных методов,). К посту файл прикрепить не получилось, но статья довольно популярная, так что все желающие могут найти.
Для тех, кому лень искать и читать, изложу тезисно:
Описывается технология работы алгоритма, позволяющего определить, является ли текст результатом работы синонимайзера или автоматического переводчика.
Для этого используется большой частотный каталог биграмм, собранный на основе качественных авторских текстов. Естественный текст (т.е. текст, созданный человеком), имеет определенной распределение частотности биграмм. Проще говоря, в любом тексте содержится определенный процент редких словосочетаний и определенный процент частых словосочетаний. В неестественном тексте это соотношение грубо нарушено.
в статье утверждается, что такая технология позволяет фильтровать около 75% синонимайза

Из всего этого можно сделать несколько выводов:
1. К счастью, технология определения синонимайза далеко не так сложна, и при желании можно создать инструмент, позволяющий проверять естественность текста наравне с его уникальностью.
2. Если не добавлять в словари синонимайзеров всякие экзотические слова и словосочетания, можно добиться очень хороших результатов в плане индексации

Прикрепления:




Сообщение отредактировал
  • Страница 1 из 1
  • 1
Поиск: