Спецификация Информационной системы
Наименование программного обеспечения
Программа для ЭВМ "Информационная система по распознаванию и исправлению почтовых адресов Российской Федерации (Охотник за адресами)" (далее ИС).
Правообладатель
Исключительное право на ИС принадлежит ООО "Лаборатория по извлечению информации" на основании Договора об отчуждении исключительного права на Программу для ЭВМ "Информационная система по распознаванию и исправлению почтовых адресов Российской Федерации (Охотник за адресами)", зарегистрированного Федеральной службой по интеллектуальной собственности, патентам и товарным знакам "03" декабря 2010 г. за Регистрационным номером № РД0073439, и Свидетельства о государственной регистрации программы для ЭВМ № 2010616237, зарегистрированного в Реестре программ для ЭВМ "20" сентября 2010 г.
Назначение
ИС предназначена для выполнения обработки слабоструктурированных текстовых строк, содержащих информацию о почтовых адресах физических и юридических лиц. ИС получает на обработку текстовые строки, содержащие контактную информацию (не полную и/или ошибочную), выявляет в них почтовые адреса России, исправляет в адресах допущенные ошибки, восстанавливает пропущенные поля, приводит к структурированному виду и снабжает его кодами КЛАДР, ФИАС, ГАР, ОКАТО и ОКТМО. Кроме почтовых адресов России ИС выполняет обработку контактных данных других типов, в соответствии с составом модулей ИС и перечнем функций, описанных в настоящей Спецификации.
Способы использования ИС
Использование ИС осуществляется путём воспроизведения ИС на Серверах Лицензиата, в рамках которого Лицензиат выполняет обработку Исходных данных с помощью функциональных возможностей ИС в двух следующих режимах.
-
В ручном режиме посредством веб-приложения (тонкий клиент), предоставляемого в составе ИС и доступного с помощью веб-браузера. В этом случае данные для обработки передаются ИС в виде табличных CSV-файлов. Результаты обработки оформляются в виде табличных CSV-отчетов, которые пользователь ИС может скачать посредством веб-браузера.
-
В автоматическом режиме посредством отправки в адрес ИС запросов с использованием разработанного Лицензиаром сетевого протокола (API). Результаты обработки ИС возвращает в виде ответов на полученные запросы в соответствии со спецификацией сетевого протокола ИС.
Состав ИС
Состав ИС представлен на следующей схеме. Изображенное на схеме "Приложение пользователя" является элементом ИТ-инфраструктуры Лицензиата. На приведенном рисунке данный элемент носит справочный характер и в состав ИС не входит.
Согласно приведенной схеме, ИС реализует клиент-серверную архитектуру. В качестве клиентов могут выступать пользователи, выполняющие пакетную обработку файлов посредством веб-приложения (тонкого веб-клиента), а также приложения Лицензиата, взаимодействующие с серверной частью ИС посредством её программного интерфейса API. ИС не имеет искусственно заложенных ограничений на число пользователей, одновременно работающих с системой посредством веб-приложения, а также взаимодействующих с системой посредством API. Состав и назначение компонентов лицензируемой ИС приведены в табл. 1.
Таблица 1. Спецификация компонентов ИС.
Компонент ИС |
Описание |
Веб-сервер |
Веб-сервер, обеспечивающий обмен данными по протоколу HTTP с внешними приложениями, взаимодействующими с ИС. В роли данного сервера используется открытый веб-сервер lighttpd или открытый веб-севрер nginx.
|
Сервер обработки данных |
Сервер, выполняющий непосредственную обработку контактных данных, поступающих на вход ИС от внешних приложений и пользователей. Функциональные возможности сервера обработки данных определяются модулями, включенными в его состав.
|
Тонкий веб-клиент |
Веб-приложение, запускаемое в рамках веб-браузера и позволяющее пользователям выполнять обработку исходных данных в интерактивном демо-режиме, а также выполнять пакетную обработку исходных данных путём передачи csv-файлов с контактными данными.
|
Спецификация функциональных модулей Сервера обработки данных, включаемых в ИС, приведена в таблице 2.
Таблица 2. Спецификация модулей Сервера обработки данных.
Модуль |
Описание |
Модуль API
|
Программный модуль, реализующий логику взаимодействия ИС с внешними приложениями. Данный модуль позволяет выполнять программную стыковку приложений Лицензиата с ИС для использования функций ИС непосредственно в этих приложениях.
|
Модуль обработки почтовых адресов
|
Модуль реализует функции по разбору слабоструктурированной адресной информации, распознаванию и восстановлению адресных полей. Результатом работы этого модуля является один или несколько адресов, соответствующих исходной адресной информации.
|
Модуль городских районов и округов
|
Модуль позволяет определять принадлежность адресов к административным округам и районам города.
|
Модуль станций метро и ж/д
|
Позволяет подбирать для обработанного адреса ближайшие станции метро и станции легкорельсового ж/д транспорта.
|
Геокодер
|
Данный модуль позволяет получать географические координаты (широту и долготу) для обрабатываемых почтовых адресов.
|
Модуль обработки телефонных номеров
|
Модуль обеспечивает распознавание в исходной строке телефонного номера. Распознаванию подлежат как стационарные, так и мобильные номера. Также данный модуль позволяет выполнять перекрестную обработку телефонных номеров и почтовых адресов.
|
Модуль обработки ФИО
|
Модуль позволяет определять пол и этнический домен персоны по написанию ее ФИО, а также оценивать, насколько характерны для данной комбинации пола и этнического домена введенные компоненты ФИО.
|
Модуль автодополнения и подсказок
|
Модуль позволяет интегрировать в приложения пользователей функции по автоматическому формированию подсказок при вводе почтовых адресов и ФИО.
|
Модуль ЕГРЮЛ и ЕГРИП
|
Модуль позволяет получать открытые сведения о юридических лицах, имеющиеся в ЕГРЮЛ, а также индивидуальных предпринимателях, имеющихся в ЕГРИП. Также данный модуль позволяет получать подсказки при заполнении форм с реквизитами компании и ИП.
|
Перечень функций ИС
-
Пакетная обработка контактных данных
-
Обработка файлов с контактной информацией выполняется в формате CSV. Каждый файл представляет собой таблицу, в которой каждой строке соответствует информация об одном контакте.
-
Одновременно с сервером может работать несколько пользователей. Взаимодействие с сервером осуществляется посредством веб-приложения или посредством API.
-
Прием от пользователя файлов на обработку и предоставление результатов такой обработки осуществляется с помощью тонкого веб-клиента, доступного посредством веб-браузера.
-
Состав колонок и их порядок следования в файле с результатом обработки может быть настроен индивидуально для каждого пользователя.
-
Обработка почтовых адресов
-
Исправление опечаток в наименованиях адресных объектов, в ситуациях, когда искажения в обрабатываемых данных не препятствуют выполнению однозначной их интерпретации и не приводят к ложному толкованию адреса.
-
Восстановление пропущенных адресных компонентов (например, наименование района или региона, которому принадлежит адрес).
-
Исправление адресов, у которых отсутствуют наименования типов адресных объектов (например, указатель переулка или проспекта).
-
Исправление регистра написания наименований адресных объектов (например, улиц).
-
Исправление падежа у наименований регионов и районов, в частности, если они записаны в родительном, а не в именительном падеже.
-
Коррекция адреса с учетом нестандартных и неоднозначных сокращений типов адресных объектов.
-
Исправление адресов с неодинаковым позиционированием типов адресных объектов по отношению к их наименованиям.
-
Стандартизация адресов независимо от порядка следования слов в наименованиях адресных объектов, а также независимо от наличия или отсутствия стандартных разделителей адресных полей.
-
Восстановление почтового индекса адреса.
-
Возможность многозначного распознавания адреса. Для проверяемого адреса может быть представлено несколько вариантов его правильного написания, в случае, если адрес записан неоднозначно.
-
Оценка качества обрабатываемых адресных данных. При обработке адрес сопровождается его количественной оценкой, позволяющей судить о том, насколько качественно были записаны исходные данные.
-
Актуализация переименованных адресных объектов и устаревших почтовых адресов. Если к настоящему моменту адресный объект изменил свое название или оказался переподчинен другому адресному объекту, ИС выполнит его преобразование к актуальному на данный момент виду.
-
Проверка почтового адреса на существование. Если адрес существовал в прошлом, но к настоящему моменту перестал существовать, в результате обработки он помечается соответствующим признаком.
-
Проверка адресных объектов на существование на основе картографической информации и определение их географических координат.
-
Восстановление кодов КЛАДР, ФИАС, ГАР, ОКАТО и ОКТМО для обработанного почтового адреса.
-
Определение округа или района города, которому принадлежит адрес, выявление факта принадлежности адреса кольцевой дороге МКАД или КАД, а также поиск ближайших станций метро и станций легкорельсового транспорта.
-
Определение часовой зоны, которой принадлежит обрабатываемый адрес.
-
Возможность снятия неоднозначной интерпретации почтового адреса за счет его совместной обработки с телефонным номером.
-
Формирование и выдача подсказок при организации ручного ввода почтовых адресов в рамках приложения Лицензиата.
-
Обработка почтовых адресов осуществляется в пределах возможностей, предоставляемых классификаторами адресов КЛАДР, ФИАС и ГАР, а также в пределах открытой картографической базы данных OpenStreetMap, используемой ИС.
-
Обработка телефонных номеров
-
Определение типа телефонного номера – мобильный или стационарный.
-
Определение оператора связи, обслуживающего телефонный номер.
-
Определение географической принадлежности телефонного номера. Для мобильных номеров географическая принадлежность определяется с точностью до региона, в котором зарегистрирован номер. Для стационарных номеров географическая принадлежность определяется с точностью до города или населенного пункта, в котором располагается абонент с данным номером.
-
Восстановление пропущенного кода зоны на основе совместной обработки телефонного номера и почтового адреса.
-
Определение часовой зоны, которой принадлежит обрабатываемый номер телефона.
-
Обработка телефонных номеров осуществляется в пределах информации, доступной посредством реестра Российской системы и плана нумерации Россвязи.
-
Обработка ФИО физических лиц
-
Выделение из строки, содержащей запись ФИО, ее отдельных компонентов – фамилии, имени и отчества.
-
Определение пола персоны на основе анализа фамилии, имени и отчества персоны.
-
Определение принадлежности персоны вероятному этническому домену на основе анализа фамилии, имени и отчества персоны.
-
Количественная оценка степени совместимости компонентов ФИО друг с другом по полу и этническому домену.
-
Формирование и выдача подсказок при организации ручного ввода ФИО физических лиц (персон) в рамках приложения Лицензиата.
-
Обработка ФИО осуществляется на основе базы данных Лицензиара, полученной на основе консолидации и анализа сведений о фамилиях, именах и отчествах персон, публично доступных в открытых источниках информации. База данных не гарантирует охвата всех возможных комбинаций ФИО реальных персон, когда-либо встречавшихся на территории РФ.
-
Обработка данных юридических лиц и индивидуальных предпринимателей
-
Формирование и выдача подсказок при организации ручного ввода сведений о юридических лицах в рамках приложения Лицензиата. ИС позволяет получать подсказки по юридическим лицам при вводе в единое поле наименования организации, её адреса до улицы включительно, ФИО руководителя, а также ИНН и ОГРН компании.
-
Получение полных сведений, доступных в открытом виде в ЕГРЮЛ, о действующих юридических лицах, а также о юридических лицах, находящихся в процессе ликвидации или реорганизации. К таким сведениям относятся: ИНН и ОГРН компании, юридический адрес, сведения о регистрации в государственных органах (ПФР, ФСС и ФНС), сведения об уставном капитале и учредителях, сведения о руководителях, сведения о состоянии процесса ликвидации или реорганизации, а также сведения о лицензиях, выданных компании на лицензируемые виды деятельности.
-
Формирование и выдача подсказок при организации ручного ввода сведений об индивидуальных предпринимателях (ИП) в рамках приложения Лицензиата. ИС позволяет получать подсказки по ИП при вводе в единое поле наименования ИП, его адреса до города включительно, а также ИНН и ОГРН предпринимателя.
-
Получение полных сведений, доступных в открытом виде в ЕГРИП, о действующих индивидуальных предпринимателях. К таким сведениям относятся: ИНН и ОГРН предпринимателя, адрес проживания до города включительно (для ИП, у которых эти сведения присутствуют в открытом доступе в ЕГРИП), сведения о регистрации в государственных органах (ПФР, ФСС и ФНС), а также сведения о лицензиях, выданных ИП на лицензируемые виды деятельности.
Предоставляемая документация
ИС передается вместе с руководством по установке, руководством пользователя и руководством разработчика. Руководства пользователя и разработчика предоставляются путём размещения соответствующих материалов на веб-сайте ИС по адресу ahunter.ru.
-
Руководство по установке содержит описание процедур, которые необходимо осуществить для выполнения установки ИС на Сервере Лицензиата.
-
Руководство пользователя содержит описание действий пользователя, позволяющих посредством тонкого клиента выполнять пакетную обработку табличных файлов с исходными данными.
-
Руководство разработчика содержит описание протокола взаимодействия (интерфейса), принятого в ИС для передачи ей на вход исходных данных и получения от нее Результатов обработки и позволяющего Лицензиату выполнять стыковку собственного программного обеспечения с ИС.
Требования к программному обеспечению
Лицензиар может предоставлять в распоряжение Лицензиата одну из следующих версий ИС.
-
ИС, предназначенная для функционирования под управлением операционной системы семейства CentOS Linux или Red Hat Linux версии 6 и выше, ориентированная на 64-битную x86 архитектуру.
-
ИС, предназначенная для функционирования под управлением операционной системы семейства Ubuntu Linux версии 20.04 и выше, ориентированная на 64-битную x86 архитектуру.
-
ИС, предназначенная для функционирования под управлением операционной системы семейства Microsoft Windows Server 2008 R2 и выше.
Тонкий клиент для обработки реестров предназначен для функционирования под управлением веб-браузера, обеспечивающего поддержку стандартов CSS3 и HTML5, например, Google Chrome или Яндекс.Браузер.
Требования к техническому обеспечению
Передаваемая Лицензиаром в распоряжение Лицензиата версия ИС предназначена для функционирования на одном реальном или виртуальном Сервере, удовлетворяющем следующим минимальным требованиям.
-
Процессор: 1 ядро с частотой 2ГГц (эквивалент Intel Core i5 третьего поколения).
-
Память: 4Гб с частотой не ниже 667МГц (эквивалент DDR3-1333).
-
Жесткий диск: не менее 40Гб.
-
Интерфейс ЛВС: Ethernet - не менее 100 Мбит/сек.