Форма входа
Меню сайта
Главное Меню
Главная страница
Помощь Web мастеру
Связь с админом
Залить фото
Статьи
Форум
Всё для ucoz
Шаблоны для форума
Светлые шаблоны
Тёмные шаблоны
Иконки групп
Иконки разные
Скрипты
Другое
Темы форума
Бесплатные услуги
Раскрутка сайтов
Аренда(реклама)
Заработок
Клик-Клик



Календарь
Опрос
Откуда вы узнали о нас?
Всего ответов: 382
Архив сайта
Статистика

Облоко тэгов
прикольная Страница 404 Хинт для сайта Полезный блок для Сайтов CS Синее меню для системы ucoz Скрипт эффекта прозрачности для ucoz Шаблон для форума ucoz Шаблон онлайн кинотеатра Шаблон для софт портала Cinemax Diz_ Шаблон для кино сайта Design Counter-Strike (+ Конструктор) для uCoz Часы для Хелуина для ucoz Часы в стиле Vista для ucoz Случайный анекдот для UcoZ Синие блоки для uCoz Шаблон Dyed-Black от FreeD-Net для ucoz иконки by doker + PSD мини профиль для ucoz Блок-Информер: Случайная СМСка Блог друзья сайта ucoz Раздвижной мини профиль для светлого дизайна для ucoz
Наш банер
Всё для ucoz

Мини-чат
Тэги сайта

скрипты для ucoz, ucoz, шаблоны для ucoz, иконки групп для ucoz, гсщя, всё для ucoz, скачать бесплатно шаблоны для ucoz, скрипты для ucoz без регистрации

[ Новые сообщения · Участники · Правила форума · Поиск · RSS ]
  • Страница 1 из 1
  • 1
Как яндекс определяет синонимайз
autumn Дата: Четверг, 03.06.2010, 21:11 | Сообщение # 1

Сообщений:32
Награды :2 +
Репутация:0 ±
Замечания:
% 
Offline

В сети наткнулся на довольно любопытный документ. Статья называется "Поиск неестественных текстов" (Е.А. Гречников, Г.Г. Гусев, А.А. Кустарев, А.М. Райгородский, Яндекс, Лаборатория комбинаторных и вероятностных методов,). К посту файл прикрепить не получилось, но статья довольно популярная, так что все желающие могут найти.
Для тех, кому лень искать и читать, изложу тезисно:
Описывается технология работы алгоритма, позволяющего определить, является ли текст результатом работы синонимайзера или автоматического переводчика.
Для этого используется большой частотный каталог биграмм, собранный на основе качественных авторских текстов. Естественный текст (т.е. текст, созданный человеком), имеет определенной распределение частотности биграмм. Проще говоря, в любом тексте содержится определенный процент редких словосочетаний и определенный процент частых словосочетаний. В неестественном тексте это соотношение грубо нарушено.
в статье утверждается, что такая технология позволяет фильтровать около 75% синонимайза

Из всего этого можно сделать несколько выводов:
1. К счастью, технология определения синонимайза далеко не так сложна, и при желании можно создать инструмент, позволяющий проверять естественность текста наравне с его уникальностью.
2. Если не добавлять в словари синонимайзеров всякие экзотические слова и словосочетания, можно добиться очень хороших результатов в плане индексации

Прикрепления:




Сообщение отредактировал
  • Страница 1 из 1
  • 1
Поиск: