Искусственный интеллект (ИИ) и код LEI
В условиях цифровой и глобализованной экономики проверка идентичности играет все более важную роль для компаний и государственных органов, однако выполнять эту задачу с необходимой точностью становится все труднее. Прозрачность всех участников является обязательным условием для любых устойчивых инвестиций, квалифицированной отчетности или анализа. Для обеспечения прозрачности сначала необходимо идентифицировать юридические субъекты, задействованные в транзакции. В настоящее время используются алгоритмы искусственного интеллекта, чтобы ответить на важный вопрос: «С кем я веду бизнес?» Это приводит к чрезмерному расходу вычислительных ресурсов и лишь увеличивает количество ошибок, связанных с выполнением последующих операций, таких как анализ рисков. Более активное использование кодов LEI и vLEI в цифровых финансовых транзакциях и во взаимосвязанных системах для установления личности и проверки подлинности организаций повышает доверие к цифровым платформам и позволяет эффективно задействовать алгоритмы ИИ для выявления подозрительных комбинаций и оценки рисков.
Возможность определить и проанализировать юридическую форму того или иного юридического лица чрезвычайно важна для многих процессов, связанных с финансовой и коммерческой деятельностью. Информация о юридической форме и структуре компаний может подсказать, как эффективно проводить финансовые операции, а также может служить показателем риска. Разнообразие юридических форм юридических лиц как в пределах одной страны, так и в разных юрисдикциях, отнюдь не упрощает организациям классификацию и структуризацию этой информации с надлежащей эффективностью. При этом сходство типов и текстового представления этих юридических форм, существующее в разных юрисдикциях, только усложняет задачу. Следовательно, если юридическая форма юридических лиц будет определяться автоматически, это может снизить риски, обеспечить прозрачность и повысить эффективность операций благодаря задействованию возможностей сквозной обработки данных.
Репозиторий кодов LEI содержит высококачественные и стандартизированные данные юридических лиц в формате с открытым исходным кодом. Они являются обязательным условием для любого эффективного проекта, связанного с анализом данных, или для ИИ-модели. Для обеспечения актуальности информация в Репозитории LEI обновляется три раза в день. Задействование общепринятых международных стандартов способно не только гарантировать единообразие данных. Это повышает их качество и предлагает готовый к использованию набор помеченных данных для дальнейшего развития машинного обучения и разработки моделей искусственного интеллекта.
Инструмент Legal Entity Name Understanding (LENU)
Фонд GLEIF совместно с компанией Sociovestix Labs разработал инструмент машинного обучения, который способен проанализировать юридическую форму юридического лица и автоматизировать процесс присваивания ему соответствующего Кода юридической формы юридического лица (ELF). В основе Список кодов организационно-правовых форм (ELF) юридических лиц лежит стандарт ISO 20275 «Финансовые услуги — юридические формы юридических лиц (ELF)». Согласно этому списку каждой юридической форме юридического лица присваивается уникальный буквенно-цифровой код из четырех символов. Юридическая форма юридического лица чрезвычайно важна при проверке и контроле идентификационной информации организаций. Однако разнообразие юридических форм юридических лиц как в пределах одной страны, так и в разных юрисдикциях затрудняет крупным организациям фиксирование юридической формы в виде структурированных данных. Новый инструмент, обученный с использованием базы данных кодов идентификации юридических лиц (LEI) фонда GLEIF, содержащей более двух миллионов записей, позволяет банкам, инвестиционным фирмам, корпорациям, государственным органам и другим крупным организациям ретроспективно анализировать свои основные данные, извлекать информацию о юридической форме из неструктурированного текста юридического названия и единообразно применять код ELF к юридическому лицу любого типа в соответствии со стандартом ISO 20275.
Этот инструмент анализа данных, получивший название Legal Entity Name Understanding (LENU), обеспечивает самые разные преимущества как для конкретных организаций, так и на более широком мировом уровне. Среди них можно отметить следующие:
- Автоматизация процессов стандартизации неструктурированных данных (извлечение юридической формы юридического лица как части названия организации), обеспечение повышения качества данных.
- Решение проблем, связанных с классификацией данных о юридической форме, которые возникают из-за, например, языковых различий и несовпадения аббревиатур, и обеспечение большей информативности и прозрачности на общемировом рынке.
- Представление данных о юридической форме юридического лица в машиночитаемом формате, который может быть использован ИИ-инструментами, а также другими цифровыми процессами и приложениями, задействованными в сфере бизнеса.
- Преодоление рисков и ограничений, связанных с ручной обработкой данных, включая затраты времени, неэффективность, человеческие ошибки и значительные административные расходы.
Путем создания более полных наборов данных, содержащих более классифицированные данные юридических лиц, этот инструмент обеспечивает большую информативность и прозрачность на общемировом рынке. Он взаимодействует с кодами LEI для создания общесогласованного набора данных.
Инструмент LENU представляет собой написанную на языке Python библиотеку с открытым кодом, которая доступна на платформе GitHub. LENU использует данные LEI для построения специфичных для каждой юрисдикции моделей и дает своим пользователям возможность понять юридическую форму любого юридического лица исходя из его названия. Фонд GLEIF создал цикл проверки качества данных, в котором предложенная инструментом LENU версия юридической формы юридического лица сопоставляется с кодом ELF в текущей версии данных LEI. Если между результатами, полученными с использованием модели, и текущими данными LEI обнаружены явные несоответствия, фонд GLEIF отправляет в организации, выдающие коды LEI, запрос на точную верификацию записей в массиве данных и, при необходимости, на обновление этих записей. Затем эти обновленные данные используются для создания новой и более эффективной версии модели.
Для обработки данных, представленных на разных языках и в форме, принятой в разных юрисдикциях, в инструменте LENU используются архитектура модели трансформации и основные модели BERT. Эти модели также доступны и готовы к использованию на веб-сайте Hugging Face, на котором пользователи могут найти модели для конкретной юрисдикции, специально разработанные для определения юридической формы.
Фонд GLEIF, университет Санкт-Галлена и компания Sociovestix Labs представили обобщенные данные своих исследований в научной статье «Классификация юридических форм юридических лиц на основе трансформации». В этой статье описываются широкие возможности моделей, действующих на основе трансформации, для дальнейшего продвижения стандартизации и интеграции данных. Представление юридической формы юридических лиц в виде стандартизированных элементов данных позволяет с большей точностью связывать информацию таких лиц, обеспечивая точные пары соответствия в разных наборах данных.
Мы полагаем, что более широкое распространение стандарта, в котором используется код ELF, значительно повысит прозрачность и вместе с тем позволит эффективнее решать задачи, связанные с интеграцией данных в самых разных областях. Мы сделали свою библиотеку с открытым исходным кодом общедоступной и тем самым хотим стимулировать внедрение кодов ELF среди организаций во всем мире. Мы предлагаем всем заинтересованным сторонам использовать его для классификации форм юридических лиц.