Страницы новостей: 1 2 3 4 вперед »
15.01.2014

Технология обогащения справочника КЛАДР

Наша компания выполнила государственный научно-исследовательский проект в области обогащения справочника КЛАДР новыми адресными данными. Мы разработали технологию, позволяющую максимально автоматизировать пополнение адресных баз КЛАДР и ФИАС новой информацией об объектах недвижимости, зарегистрированной в сторонних достоверных источниках, таких как Государственный кадастр недвижимости (ГКН) и Единый государственный реестр прав на недвижимое имущество и сделок с ним (ЕГРП).

На диаграмме приведены цифры, позволяющие оценить эффективность обогащения КЛАДР, применяя нашу технологию к сырым данным из ГКН и ЕГРП. Согласно данной диаграмме, для 73% адресных объектов, представленных в ГКН, удается найти соответствующие объекты в КЛАДР, для остальных объектов такого соответствия нет, поскольку упоминаний о них нет в КЛАДР. Однако в 12,7% таких случаев наша технология позволяет автоматически выявить новые классы и имена адресных объектов и впоследствии добавлять их в КЛАДР.

Ни для кого не секрет, что КЛАДР и ФИАС содержат не полную информацию об адресных объектах, располагающихся на территории России. Данные базы постоянно пополняются, однако данный процесс мог бы быть намного эффективней, если бы в ходе пополнения использовалась официальная информация о зарегистрированных в ГКН и ЕГРП объектах недвижимости. Проблема таких источников, как ГКН и ЕГРП, заключается в том, что адресная информация об объектах в них зачастую представлена в неструктурированном виде. Что препятствует простому переносу этих данных в КЛАДР. Вместе с тем, адреса в ГКН и ЕГРП содержат намного больше информации, чем доступно в КЛАДР и ФИАС. Это касается как актуальных адресных объектов, так и объектов, которые исторически существовали ранее.

В рамках данного проекта мы разработали математические модели и соответствующие методы, позволяющие автоматизировано выявлять в неструктурированных адресных данных новые классы адресных объектов, например, садовые участки или гаражные боксы, для последующего их включения в КЛАДР. Также мы разработали методы, позволяющие автоматически распознавать в неструктурированных данных имена новых, отсутствующих в КЛАДР, адресных объектов, например, улиц. При выполнении такого распознавания мы автоматически относим выделенный адресный объект к соответствующему уровню КЛАДР.

Особенность данной технологии заключается в том, что изначально в КЛАДР нет никаких упоминаний о распознанном объекте и его принадлежности определенному уровню, например, уровню улиц или поселков. Так что наши методы применяются к неструктурированным и сырым адресным данным в условиях априорного отсутствия каких-либо сведений о распознаваемых объектах. В результате же распознавания выявленные названия новых адресных объектов автоматически относятся к соответствующему уровню КЛАДР. В ходе данной разработки мы активно задействовали математический аппарат кластерного анализа, а также методы машинного обучения и извлечения информации.

Все разработанные методы мы реализовали в виде соответствующего программного обеспечения, важную роль в котором играют алгоритмы, разработанные нами ранее в рамках нашей системы «Охотник за адресами».

29.11.2013

Статья по очистке адресных данных в журнале "Открытые системы"

В разделе «Публикации» добавлена наша новая статья «Особенности очистки адресных данных». В ней мы отразили основные аспекты построения систем, решающих задачи стандартизации контактных данных. Статья опубликована в журнале Открытые системы и доступна на сайте журнала по следующей ссылке.

В данной публикации мы отразили наш многолетний опыт разработки и развития продуктов, выполняющих очистку контактных данных. Мы показали два пути, которыми могут идти ИТ-службы компаний, при организации работ по стандартизации и исправлению адресных данных.

Первый путь – внедрение универсального решения типа Data Quality Services и последовательная настройка и адаптация такого рода продукта под специфику работы с адресными данными. Проблема такого пути заключается в том, что для достижения приемлемого качества ИТ-персоналу приходится натаскивать систему на реальных данных. В процессе эксплуатации внедренного решения форматы и содержание реальных данных, как правило, изменяются, что приводит к необходимости постоянно вносить изменения в настройки системы. Процесс натаскивания идет непрерывно, поскольку в ходе обработки данных, встречаются новые аспекты грязных данных, не учтенные к текущему моменту. Такая работа отвлекает ИТ-службы от их непосредственных обязанностей, что снижает их продуктивность, негативно влияет на качество итогового решения и повышает стоимость его владения и обслуживания.

Второй путь – использование узкоспециализированных продуктов и сервисов, заточенных исключительно на работу с адресными данными. Профессиональные решения такого класса не чувствительны к изменениям форматов обрабатываемых данных, поэтому при их внедрении не требуется прилагать большие усилия по дополнительной настройке. Эти решения демонстрируют более высокие показатели качества обрабатываемых данных, поскольку все необходимые усилия по натаскиванию и учету специфики предметной области уже предприняты разработчиком продукта в ходе многолетнего опыта эксплуатации. Примерами таких продуктов за рубежом являются AddressDoctor, AddressCorrect, Postal Address Verification. Для России решения данного класса предлагает наша компания в линейке продуктов ahunter.

В статье мы наглядно проиллюстрировали типовые проблемы, возникающие при попытке решить в лоб задачу стандартизации почтовых адресов. Также мы рассказали о методе распознавания данных по эталону, который реализован в системе «Охотник за адресами», являющейся ядром наших продуктов. В рамках изложенного нами подхода особую роль играют методы машинного обучения, которые мы также отразили в статье.

Большое внимание мы уделили вопросу обогащения эталонной адресной базы. Мы рассмотрели данную задачу на примере пополнения справочника КЛАДР или ФИАС новыми адресными данными, извлеченными из таких достоверных источников, как Государственный кадастр недвижимости. Такого рода извлечение является нетривиальной процедурой, поскольку исходные данные сами по себе не являются очищенными. Основная задача в этом случае заключается в автоматизированном выявлении новых типов адресных объектов, а также в выявлении наименований новых адресных объектов, отсутствующих в КЛАДР или ФИАС для последующего включения этой новой информации в данные справочники. Для этих целей мы предложили подход, использующий кластерный анализ для выявления новых типов адресных объектов и автоматическую генерацию правил распознавания для выявления новых имен адресных объектов.

15.10.2013

Продукт ahunterPro: промышленная стандартизация адресов

В недрах нашей лаборатории создан новый продукт ahunterPro. Основное назначение продукта – сократить издержки пользователей, возникающие при работе с сервисом ahunter.ru при обработке реестров с адресными данными. Кроме того, продукт позволяет избежать передачи конфиденциальной информации за пределы компании.

В обычном режиме пользователи взаимодействуют с сервисом посредством веб-браузера. В большинстве случаев этого оказывается достаточно, поскольку стандартный веб-интерфейс сервиса обеспечивает пользователей всем необходимым для загрузки реестров, их автоматической обработки и скачивания итоговых результатов. Тем не менее, есть ряд подготовительных действий, которые зачастую пользователи выполняют над реестрами, прежде чем отсылать их на сервис. Например, пользователи удаляют из таблиц реестров конфиденциальную информацию, такую как ФИО и паспортные данные. Эти действия невозможно выполнить в рамках веб-приложения без передачи самих данных сервису, что автоматически нарушает их конфиденциальность. Продукт ahunterPro позволяет выполнять удаление конфиденциальных данных на стороне клиента, так что сервис на обработку получает только ту информацию, которую разрешил отсылать пользователь. После получения результатов обработки ahunterPro восстанавливает удаленную до отправки конфиденциальную информацию, так что итоговая таблица реестра принимает изначальный вид с той лишь разницей, что исходные неочищенные адреса в ней заменяются на исправленные и стандартизованные.

Дополнительно ahunterPro позволяет пользователю самостоятельно настраивать формат результирующего адреса, так что имеется возможность указать нужный порядок следования адресных полей и служебных данных, таких как код КЛАДР и код качества. Кроме порядка следования, пользователь может задать, какие именно разделители следует использовать между выводимыми полями.

Сейчас ahunterPro проходит опытную эксплуатацию у одного из наших клиентов. Скоро он станет доступен для всех пользователей сервиса ahunter.ru, работающих по тарифному плану «Расширенный» и «Экспертный».

Страницы новостей: 1 2 3 4 вперед »

Последние события

17.03.2014 Расширили API у продуктов ahunter. Теперь можно обрабатывать пакеты комплексных контактных записей из нескольких адресов и телефонов.

18.02.2014 Выпустили версию 1.7 системы "Охотник за адресами". Сервис ahunter.ru также перевели на новую версию. Система стала работать быстрее в полтора раза.

15.01.2014 Завершили государственный проект по обогащению КЛАДР и ФИАС на основе данных, представленных в кадастре недвижимости.

Архив событий

29.11.2013 В журнале "Открытые системы" опубликовали новую статью, посвященную проблемам очистки адресных данных и обогащению адресных баз.

01.11.2013 Запустили продукт ahunterPro в эксплуатацию в ОАО "ОТП Банк".

15.10.2013 Выпустили новый продукт по очистке адресных данных ahunterPro. Продукт ориентирован на финансовый и банковский сектор.

10.07.2013 Расширили текущее адресное хранилище «Охотник за адресами» на 7% в сравнении с актуальной версией КЛАДР.

11.04.2013 Начали разрабатывать технологию пополнения справочника КЛАДР на основе сторонних источников адресных данных.

01.02.2013 Запустили новый раздел "Навигатор" на сервисе ahunter.ru.

Страницы: 1 2 3 вперед »