人工智能(AI)与 LEI 结合
数字化和全球化经济使得企业和权威机构的身份验证变得更为重要,要做到准确无误也更具挑战性。相关各方的透明度是任何可持续投资、资格认证报告或分析的先决条件。透明度始于发现交易中涉及的实体。如今,人工智能算法可用于回答“我在和谁做生意?”这一基本问题。这不仅浪费计算资源,还只会增加与风险分析等下游目标相关的错误。不断发展的数字交易和生态系统使用 LEI 和 vLEI 来识别和验证组织,增强了对数字生态系统的信任,并可通过有价值的人工智能算法应用来识别可疑模式和评估风险。
识别和了解实体的法律形式对于许多财务和业务相关流程至关重要。公司的法律形式和结构可以提供如何有效地进行交易的信息并用作风险指标。不同司法管辖区内和司法管辖区之间的实体法律形式多种多样,组织难以有效地对这些信息进行分类和组织。由于这些司法管辖区法律形式的类型和文本表示相似,这项任务变得更加困难。因此,自动执行识别实体法律形式的过程可以通过启用直通式处理(STP)功能来降低风险、提供透明度并提高运营效率。
LEI 存储库提供高质量、标准化的开源法定实体数据。这些是促成任何优秀的数据分析项目或人工智能模型的先决条件。LEI 存储库的货币通过每天更新 3 次来确保安全。依赖全球标准并不只是为了确保一致性。还可提高数据质量,同时提供即用型标记数据集,用于开发机器学习(ML)和人工智能模型。
法定实体名称理解(LENU)
GLEIF 与 Sociovestix Labs 合作创造了一种机器学习工具,可以识别实体的特定法律形式并自动执行其相应的实体法律形式(ELF)代码分配。“机构法律形式(ELF)代码列表”基于 ISO 标准 20275“金融服务 - 实体法律形式(ELF)”,并为每个实体法律形式分配一个由四个字符组成的唯一字母数字代码。在验证和筛选组织身份时,实体的法律形式至关重要。然而,司法管辖区内和司法管辖区之间的实体法律形式多种多样,大型组织很难捕获结构化数据那样的法律形式。该工具借鉴 GLEIF 拥有 200 多万条记录的全球法人识别编码(LEI)数据库,允许银行、投资公司、企业、政府和其他大型组织对其主数据进行回顾性分析,从法律名称的非结构化文本中提取法律形式,并根据 ISO 20275 标准对每种实体类型统一应用 ELF 代码。
该工具称为法定实体名称理解(LENU),可为组织和更广泛的全球市场带来一系列好处。它们是:
- 自动实现非结构化数据的标准化(实体法律形式作为组织名称的一部分),以提高数据质量。
- 攻克因语言差异和缩写不一致等原因造成的法律形式数据分类问题,进一步提高全球市场的洞察力和透明度。
- 以人工智能工具以及其他数字化业务流程和应用程序可使用的机器可读格式呈现实体的法律形式。
- 规避人工处理数据的风险和限制,包括时间、低效、人为错误和高昂的管理成本。
通过创建更丰富的数据集和改进的法定实体分类,该工具可以提高全球市场的洞察力和透明度。它与 LEI 合作创建全球一致的数据集。
LENU 是一个开源 Python 库,可在 Git Hub 上访问。LENU 使用 LEI 数据来建立特定司法管辖区的模型,并允许用户为任何给定的法律名称获得法律形式的建议。GLEIF 已经建立了一个数据质量循环,在其中将工具所建议的法律形式与当前 LEI 数据中的 ELF 代码进行比较。如果模型的结果和当前的 LEI 数据之间存在明显的差异,GLEIF 会创建数据质疑,并将其发送给 LEI 发行机构,以便在必要时对数据记录进行精确的核实和更新。然后,更新后的数据将被用来构建下一版本的模型,并使用改进的数据源,从而最终提高模型的性能。
LENU 利用 Transformer 模型架构和 BERT 基础模型来处理各种语言和司法管辖区。这些模型也可以在 Hugging Face 上使用,用户可以在其中找到针对法律形式检测量身定制的特定司法管辖区的模型。
GLEIF、圣加仑大学和 Sociovestix Labs 在一篇科学研究论文“基于 Transformer 的实体法律形式分类”中总结了他们的研究结果。该研究强调了基于 Transformer 的模型在推进数据标准化和数据集成方面的巨大潜力。通过标准化数据项引入实体的法律形式可以增加实体链接任务的信心,从而实现跨多个数据集的稳健映射对,因为每个实体只能有一种法律形式。
我们相信,更广泛地采用 ELF 代码标准将显著提高透明度,同时改进各个领域的数据集成任务。我们希望通过向公众免费开放我们的开源库来促进全球实体采用 ELF 代码。我们邀请所有利益相关者使用它进行实体法律形式分类。