| 06.02.2012 |
«Охотник за адресами» 1.4 |
Версия 1.4 сервиса «Охотник за адресами» запущена в режиме on-line. В рамках данной версии выполнены работы по наращиванию возможностей распознавателя, а также по увеличению его быстродействия.
Из наиболее интересных нововведений отметим следующие.
-
Введена полноценная работа с устаревшими адресными объектами, подвергшимися сложному переподчинению.
Это в первую очередь касается населенных пунктов, которые вместе со всеми своими улицами вошли в состав крупных городов.
Например, поселок городского типа Врангель Приморского края вошел в состав города Находки.
Как такового поселка в настоящее время не существует. Тем не менее, в нашей работе мы часто сталкиваемся с адресами, ссылающимися на улицы этого уже не существующего поселка.
Предыдущие версии нашего сервиса объявляли такие адреса не существующими и отбрасывали их при обработке.
В новой версии «Охотник за адресами» корректно преобразует такие объекты в актуальные адреса.
Например, введя в разделе «Анализ адреса» нашего сервиса строку «Врангель ул. Морская», теперь можно получить адрес, в котором данная улица является частью города Находки.
-
В режиме «Анализ адреса» добавлена возможность просмотреть все улицы городов и населенных пунктов.
Ранее такая возможность не предоставлялась для городов, а для населенных пунктов можно было получить список входящих в них улиц только в ограниченных случаях.
Сейчас информацию по всем улицам города или населенного пункта можно получить, введя его название и название соответствующего региона в поисковой строке сервиса.
Например, для получения всех улиц города Находки достаточно ввести строку «Приморский край, Находка».
Более того, можно получить все улицы, принадлежавшие ранее поселку Врангель и в настоящее время вошедшие в состав города Находки.
Для этого достаточно ввести запрос «Приморский край, Врангель».
-
Введена возможность исправления сложных орфографических ошибок, вносящих большие многобуквенные искажения в оригинальные названия адресных объектов.
Для этих целей мы проанализировали большие массивы адресов наших партнеров, на основе которых составили базу данных сложных искажений.
Используя данную базу, мы сформировали расширяемый набор правил, позволяющий выполнять сложные многобуквенные преобразования одних слов в другие. В дальнейшем мы будем наращивать данный набор правил, по мере накопления статистики сложных орфографических ошибок.
-
Оптимизирована работа партнерского раздела. Данный раздел позволяет обрабатывать реестры почтовых адресов любого объема.
Мы провели ряд экспериментов по обработке реестров сверхбольшого размера, содержащих суммарно порядка 1 млн. записей.
В рамках данной работы была выполнена оптимизация веб-сервиса, позволяющая комфортно работать пользователям при таких нагрузках.
| 25.10.2011 |
Наши нестандартные веб-проекты |
Выполнены работы над двумя независимыми веб-проектами: веб-архив видеоматериалов и социальная сеть для членов ЖСК.
Основное назначение веб-архива – создание сайтов класса видео-хостинга с централизованным управлением видеоматериалами. Отличительной особенностью такого рода сайтов в сравнении с известными крупными видео-ресурсами является ограниченность вычислительных возможностей хостинга. Вместе с тем современные тенденции в области видео-порталов таковы, что требуется обеспечивать кроссплатформенное воспроизведение видеоматериалов, в том числе на мобильных устройствах, не поддерживающих технологию Adobe® Flash® Player.
В нашем решении кроссплатформенность воспроизведения видеоматериалов реализована прозрачно как для администратора сайта, так и для его посетителей. Переключение между технологиями воспроизведения видео Adobe® Flash® Player или HTML5 выполняется незаметно для пользователя в зависимости от типа браузера и типа пользовательского устройства. Обычно при решении данной задачи для каждого видеоматериала на видео-хостинге создается несколько его версий с использованием разных видео-форматов. Это достаточно нерациональное и громоздкое решение, поскольку, с одной стороны, требуется контролировать все версии каждого видео-файла, что создает дополнительные неудобства администратору, а с другой стороны, увеличивается в несколько раз объем хранимых данных. Новизна нашей разработки заключается в том, что для хранения используется один единственный формат, при этом обеспечивается воспроизведение как посредством технологии Flash, так и посредством HTML5.
Дополнительно мы добились сохранения кроссплатформенности нашего решения при внедрении видеоматериалов на произвольные сайты. Созданный нами специализированный код для вставки видео позволяет внедрять видеоматериалы на внешние веб-страницы (например, блоги или статьи веб-порталов) с сохранением возможности воспроизведения внедренного видео на любой платформе без необходимости вносить изменения в заголовки и скрипты самой страницы.
Наше решение успешно апробировано при разработке видео-архива synergyteam.tv, содержащего материалы, освещающие события спортивной жизни российской парусной команды «Синергия».
При разработке социальной сети для членов ЖСК, мы решали задачу создания информационного портала, который могли бы наполнять материалами и управлять ими все члены ЖСК. По своей сути, созданный сайт является коллективным блогом, где все зарегистрированные пользователи могут публиковать статьи в предопределенных разделах сайта, а также вести обсуждения этих статей, оставляя комментарии к ним.
Основная проблема, с которой мы столкнулись в данном проекте, связана с разграничением прав доступа. Разграничение необходимо, поскольку на сайте кроме материалов пользователей также выкладываются материалы, имеющие официальный характер: контактные данные членов правления, устав и пр. Во избежание случайной или умышленной публикации недостоверной информации в официальных разделах сайта, нами была разработана и внедрена политика безопасности, учитывающая разделение прав между обычными пользователями и пользователями, входящими в состав правления и несущими дополнительную ответственность за достоверность официальной информации сайта.
Наше решение успешно апробировано при разработке веб-сайта zkubanskiy.ru, являющегося площадкой для обсуждения актуальных вопросов членами ЖСК «Кубанский».
| 25.08.2011 |
«Охотник за адресами» 1.3 |
Закончена разработка новой версии сервиса «Охотник за адресами». Обновление получило номер 1.3. Относительно предыдущей версии был полностью переработан механизм распознавания почтовых адресов, учитывающий двухлетний опыт использования сервиса нашими партнерами. В новой версии мы уделили особое внимание минимизации количества неточных исправлений почтовых адресов.
Специфика работы нашего сервиса такова, что, с одной стороны, на вход поступают нечеткие данные, содержащие ошибочную и неполную адресную информацию, которая зачастую весьма отличается от эталонных записей классификатора адресов России, а с другой стороны, сам классификатор адресов не является полным. При отсутствии в классификаторе искомой записи в общем случае можно сделать два альтернативных заключения: либо исходный обрабатываемый адрес записан с сильными искажениями, либо его действительно нет в классификаторе адресов. В первом случае необходимо делать множество гипотез об искажениях исходной информации, а во втором случае достаточно просто откинуть адрес.
Первый путь может привести к тому, что построенные гипотезы об искажениях дадут результат распознавания адреса, который на самом деле изначально не предполагался человеком. Такие распознавания мы называем неточными, а адреса, на которых выполняется распознавание - спорными. Вероятность откинуть спорный адрес и вероятность распознать его неточно зависят от возможностей модели, лежащей в основе распознавания. В нашем случае модель распознанного адреса представлена многомерным вектором признаков, каждый из которых количественно отражает то или иное свойство распознаваемого почтового адреса. К таким признакам, например, относится степень подобия распознанных полей адреса эталонным названиям, степень структурного соответствия исходной строки с адресом одному из типовых предопределенных шаблонов, количество слов в исходной строке записанных с ошибкой, общее количество слов, задействованных при распознавании и т.д. Чем больше в модели задействовано таких признаков, тем точнее можно отразить результат распознавания в численном виде, и, как следствие, точнее принять решение о том, нужно ли откидывать спорный адрес.
При разработке новой версии нашего сервиса, мы расширили набор признаков модели распознавания так, чтобы в процессе распознавания относительно спорных адресов как можно чаще принимались правильные решения об отбрасывании или исправлении. Кроме расширения модели распознавания, нам также потребовалось выполнить ее тренировку, которая заключается в определении поведения распознавателя на тех или иных спорных адресах.
Мы также основательно проработали вопрос быстродействия новой версии сервиса, так, чтобы расширение модели распознавания не сильно снизило время обработки, в некоторых случаях нам даже удалось увеличить быстродействие сервиса в полтора раза.
| 23.06.2011 |
Распознавание и проверка телефонных номеров |
На сервисе «Охотник за адресами» добавлена возможность распознавать и проверять на существование телефонные номера. При этом проверяются как стационарные номера телефонов, так и мобильные номера, принадлежащие операторам сотовой связи.
Для успешно распознанных стационарных номеров сервис выдает информацию о географической принадлежности номера с точностью до населенного пункта или города, а также информацию о наименовании оператора связи, за которым закреплен данный номер. Для мобильных номеров имеется возможность узнать наименование оператора сотовой связи, а также определить географическую принадлежность с точностью до региона, в котором зарегистрирован данный номер. За основу для этих целей взята открытая информация Россвязи.
Проверить телефонный номер можно в разделе «Анализ адреса» сервиса. Для этого достаточно ввести полный (с учетом кода зоны) или частично заполненный телефонный номер. Также здесь существует возможность совместной проверки телефонного номера и почтового адреса. Эта возможность весьма полезна в случае, когда полный номер не известен. В этом случае достаточно ввести известную часть номера и почтовый адрес, соответствующий ему. Порядок следования двух этих блоков информации не имеет значения, оба они будут успешно обработаны. В результате наш сервис выполнит распознавание адреса и телефонного номера, а также восстановит недостающую информацию как адреса, так и телефона.
|
Последние события
06.02.2012 Версия 1.4 сервиса «Охотник за адресами» запущена в режиме on-line.
25.10.2011Выполнены работы над двумя независимыми веб-проектами: веб-архив видеоматериалов и социальная сеть для членов ЖСК.
25.08.2011Закончена разработка новой версии сервиса «Охотник за адресами». Обновление получило номер 1.3.
23.06.2011На сервисе «Охотник за адресами» добавлена возможность распознавать и проверять на существование телефонные номера.
Архив событий
15.03.2011Сервис "Охотник за адресами" успешно прошел Platform Ready тесты для Windows Server 2008 R2.
27.12.2010Запущен партнерский раздел сервиса "Охотник за адресами". Проверять и исправлять базы контактных данных стало еще проще!
27.07.2010Сервис "Охотник за адресами" адаптирован к платформе HP-UX на базе Intel Itanium 2 и успешно прошел тесты на серверах HP класса Integrity.
21.09.2009В раздел "Публикации" добавлена статья "Методы машинного обучения в задачах извлечения информации из текстов по эталону",
основные положения которой докладывались и обсуждались на конференции RCDL'2009.
Страницы:
1
2
3
|