| 12.07.2012 |
Внедрение системы чистки контактных данных в ОАО «Ростелеком» |
Информационная система по распознаванию и исправлению контактных данных («Охотник за адресами») внедрена в ИТ-инфраструктуре компании ОАО «Ростелеком».
Внедренное решение ориентировано на обработку неструктурированных почтовых адресов абонентов ОАО «Ростелеком».
В рамках такой обработки выполняется чистка почтовых адресов, включающая распознавание адресных полей, исправление ошибок в них и приведение адресов к стандартной форме.
Предусмотрена работа системы как в режиме on-line сервиса, так и в режиме пакетной чистки отложенных массивов с адресными данными.
Оба режима реализуются в рамках одного серверного процесса.
В режиме on-line система получает запросы на обработку через специальный программный интерфейс (API), основанный на передаче XML документов посредством протокола HTTP.
Отправителями запросов являются внутренние бизнес-процессы ОАО «Ростелеком».
Для пакетной чистки отложенных массивов разработано специализированное веб-приложение.
Данное приложение построено на основе стандартного веб-интерфейса сервиса «Охотник за адресами», в рамках которого выполнены доработки, позволяющие адаптировать его под работу в рамках внутренней инфраструктуры.
Приложение позволяет пользователям внутренней сети ОАО «Ростелеком» запускать на сервере пакетную обработку посредством обычных веб-браузеров.
Внедренное решение запущено на 64-битной платформе Red Hat.
| 06.02.2012 |
«Охотник за адресами» 1.4 |
Версия 1.4 сервиса «Охотник за адресами» запущена в режиме on-line. В рамках данной версии выполнены работы по наращиванию возможностей распознавателя, а также по увеличению его быстродействия.
Из наиболее интересных нововведений отметим следующие.
-
Введена полноценная работа с устаревшими адресными объектами, подвергшимися сложному переподчинению.
Это в первую очередь касается населенных пунктов, которые вместе со всеми своими улицами вошли в состав крупных городов.
Например, поселок городского типа Врангель Приморского края вошел в состав города Находки.
Как такового поселка в настоящее время не существует. Тем не менее, в нашей работе мы часто сталкиваемся с адресами, ссылающимися на улицы этого уже не существующего поселка.
Предыдущие версии нашего сервиса объявляли такие адреса не существующими и отбрасывали их при обработке.
В новой версии «Охотник за адресами» корректно преобразует такие объекты в актуальные адреса.
Например, введя в разделе «Анализ адреса» нашего сервиса строку «Врангель ул. Морская», теперь можно получить адрес, в котором данная улица является частью города Находки.
-
В режиме «Анализ адреса» добавлена возможность просмотреть все улицы городов и населенных пунктов.
Ранее такая возможность не предоставлялась для городов, а для населенных пунктов можно было получить список входящих в них улиц только в ограниченных случаях.
Сейчас информацию по всем улицам города или населенного пункта можно получить, введя его название и название соответствующего региона в поисковой строке сервиса.
Например, для получения всех улиц города Находки достаточно ввести строку «Приморский край, Находка».
Более того, можно получить все улицы, принадлежавшие ранее поселку Врангель и в настоящее время вошедшие в состав города Находки.
Для этого достаточно ввести запрос «Приморский край, Врангель».
-
Введена возможность исправления сложных орфографических ошибок, вносящих большие многобуквенные искажения в оригинальные названия адресных объектов.
Для этих целей мы проанализировали большие массивы адресов наших партнеров, на основе которых составили базу данных сложных искажений.
Используя данную базу, мы сформировали расширяемый набор правил, позволяющий выполнять сложные многобуквенные преобразования одних слов в другие. В дальнейшем мы будем наращивать данный набор правил, по мере накопления статистики сложных орфографических ошибок.
-
Оптимизирована работа партнерского раздела. Данный раздел позволяет обрабатывать реестры почтовых адресов любого объема.
Мы провели ряд экспериментов по обработке реестров сверхбольшого размера, содержащих суммарно порядка 1 млн. записей.
В рамках данной работы была выполнена оптимизация веб-сервиса, позволяющая комфортно работать пользователям при таких нагрузках.
|
Последние события
06.02.2012 Версия 1.4 сервиса «Охотник за адресами» запущена в режиме on-line. 25.10.2011Выполнены работы над двумя независимыми веб-проектами: веб-архив видеоматериалов и социальная сеть для членов ЖСК. 25.08.2011Закончена разработка новой версии сервиса «Охотник за адресами». Обновление получило номер 1.3. 23.06.2011На сервисе «Охотник за адресами» добавлена возможность распознавать и проверять на существование телефонные номера.
Архив событий
15.03.2011Сервис "Охотник за адресами" успешно прошел Platform Ready тесты для Windows Server 2008 R2. 27.12.2010Запущен партнерский раздел сервиса "Охотник за адресами". Проверять и исправлять базы контактных данных стало еще проще! 27.07.2010Сервис "Охотник за адресами" адаптирован к платформе HP-UX на базе Intel Itanium 2 и успешно прошел тесты на серверах HP класса Integrity. 21.09.2009В раздел "Публикации" добавлена статья "Методы машинного обучения в задачах извлечения информации из текстов по эталону", основные положения которой докладывались и обсуждались на конференции RCDL'2009.
Страницы:
1
2
3
|