Настройка схемы загруженного реестра

Схема реестра содержит информацию о том, какие именно колонки исходного файла должен обрабатывать сервис, а также как именно информация в этих колонках должна интерпретироваться при обработке – как почтовый адрес, телефонный номер или ФИО. Также схема содержит настройки отчетов, определяющих внешний вид результатов нормализации и обогащения обработанных данных. Настройке отчетов посвящена отдельная статья по следующей ссылке, а здесь мы сфокусируемся на настройках колонок исходного файла.

Сразу после того, как реестр загружен на сервис, для него либо создается типовая персональная схема, либо ему присваивается избранная схема, объявленная в разделе Избранные схемы реестра в качестве умолчальной. О том, как схемы попадают в раздел Избранные схемы реестров, детально рассказывается в соответствующей статье, поэтому на данный момент рассмотрим ситуацию, когда реестру просто присвоена типовая персональная схема.

Схему реестра можно посмотреть и изменить в редакторе схемы, который открывается при нажатии на кнопку «Редактировать схему», как показано на следующем рисунке.

Внешний вид редактора схемы, в случае, если исходный файл содержал только две колонки и реестру присвоена персональная типовая схема, приведен на следующем рисунке. Здесь в верхней части редактора отображается образец реестра, содержащий небольшое количество строк исходного файла. Образец приведен для удобства, чтобы было легко ориентироваться в колонках реестра.

В шапке каждой колонки в типовой схеме дано стандартное название «Колонка N», где N – порядковый номер колонки. Поэтому в первую очередь при редактировании схемы необходимо дать колонкам нормальные говорящие названия. Для этого необходимо нажать на кнопку редактирования в шапке каждой колонки и в открывшемся поле для редактирования ввести новое имя колонки. Например, в приведенном примере «Колонку 1» можно переименовать в «ID клиента», а «Колонку 2» - в «Почтовый адрес клиента».

Далее необходимо изменить название схемы. По умолчанию типовая персональная схема реестра называется «Типовая схема». Это название нужно изменить так, чтобы по нему можно было понять, какому типу реестров соответствует данная схема. Например, в нашем случае можно назвать схему «ID + адрес». Название схемы важно указать, поскольку в дальнейшем данная схема может быть добавлена в список избранных схем, где ее можно будет отличить от остальных именно по ее названию.

Следующим шагом при редактировании схемы является объединение колонок в секции. Секция нужна, чтобы выделить одну или несколько колонок реестра и сообщить сервису о том, что именно эти выделенные колонки содержат информацию, которую необходимо обработать. Чтобы сервис узнал, как именно следует обрабатывать данные из колонок конкретной секции, при ее создании указывается ее тип – Адрес, Телефон или ФИО. Если мы по ошибке объединим в секцию типа Адрес колонки, содержащие фамилию, имя и отчество клиента, то при обработке этих колонок сервис безуспешно будет пытаться обнаружить почтовые адреса среди ФИО клиентов. Чтобы такого не происходило, колонки, содержащие фамилию, имя и отчество клиента, необходимо объединить в секцию типа ФИО, а колонки, содержащие почтовый адрес клиента, необходимо объединить в секцию типа Адрес.

В приведенном выше примере таблица реестра содержит всего лишь две колонки. По умолчанию в рамках типовой схемы сервис создает одну секцию типа Адрес с названием «Секция 1». В эту секцию отнесены все колонки реестра. Таким образом, по умолчанию сервис считает, что в каждой строке реестра содержится только один почтовый адрес и этот адрес занимает все ячейки строки. В приведенном выше примере первая колонка реестра не содержит адресной информации, т.к. в ней представлен идентификатор клиента. Сам адрес размещен только во второй колонке. После того, как мы дали говорящие названия колонкам, как показано на рисунке ниже, становится понятно, что колонка «ID клиента» не должна интерпретироваться сервисом, как часть адреса, поэтому ее необходимо удалить из «Секции 1».

После удаления лишней колонки, в схеме осталась «Секция 1» типа Адрес, содержащая только одну колонку «Почтовый адрес клиента». Для наглядности можно подсветить все колонки секции на образце, чтобы убедиться, что в секции нет лишней информации, и что мы не забыли в нее добавить другие колонки. Для этого необходимо нажать на кнопку в панели инструментов схемы, как показано на следующем рисунке.

После этих изменений сервис будет знать, что при обработке записей данного реестра ему нужно из каждой строки брать вторую ячейку и применять к ней процедуры стандартизации и очистки почтовых адресов. Чтобы изменения в схеме сохранились, необходимо нажать «Ок» в редакторе схемы. В следующих статьях мы рассмотрим схемы для реестров более сложной структуры.

версия сервиса:
обработано за 2 (мс)