mitaromana2024
贫民
贫民
  • UID13966
  • 粉丝0
  • 关注0
  • 发帖数1
阅读:0回复:0

适合法律部门的第一个西班牙语模型

楼主#
更多 发布于:2024-01-16 13:34


知识工程研究所(IIC)开发了一种适用于法律领域的语言模型,显着提高了我们为法律领域提供的自然语言处理(NLP)解决方案的准确性。 里戈贝塔伊克这种适应法律部门的西班牙语模型的开发是 IIC 研究项目的一部分,该项目研究了西班牙语语言模型的开发和创建:RigoBERTa NLP 中的语言模型 在现代自然语言处理中,语言模型已成为任何高级文本处理系统的基础,使这些系统的可靠性得以显着提高。 正如我们在自然语言处理中的变形金刚中已经解释过的那样,语言模型是一个大型人工神经网络,能够分析大量书面文本以学习某种语言的单词呈现的结构。 BERT、RoBERTa、T5 或 GPT-3 等模型是英语语言模型,近年来展示了令人惊讶的能力(例如新闻生成),而且在解决复杂的 NLP 问题(例如机器翻译、摘要生成或基于自然语言提出的问题检索信息。 语言模型是如何应用的? 应用语言模型的方式一般分为两个步骤: 语言模型的应用 语言模型学习或预训练:从“空白”人工神经网络模型开始,进行学习过程,其中网络分析感兴趣语言的大型语料库,以学习文本中单词的通常分布该语言的。


 微调问题:重新调整语言模型以解决特定的 NLP 任务,例如文 塞内加尔电话号码表 档按主题分类,或者新闻的自动摘要。这需要一个针对要解决的问题的带注释的语料库,语言模型将使用该语料库作为学习解决目标任务的指南。 尽管 学习语言模型 涉及很高的资源成本,包括计算和语料库收集和清理,但生成的语言模型可以在同一语言的多个不同任务中重用。通过这种方式,西班牙语模型可以以较低的成本重新调整以适应不同的西班牙语 NLP问题,从而为所有这些问题提供有效的解决方案,并且比没有此类语言模型时具有更高的质量。 然而,NLP解决方案开发的一个关键点是对语言熟练程度的考虑。专业部门(例如医生)使用的术语和行话与金融部门使用的术语和行话有很大不同,而金融部门使用的术语和行话又无法与法律部门使用的术语和行话相比较。 通用语言模型通常是使用从网页、一般媒体新闻、文学作品或百科全书网站(例如维基百科)提取的语料库创建的,因此它们不能完全适应特定领域使用的语言。 语言模型适应法律部门 在 IIC,我们开发了一种使现有语言模型适应不同领域的方法。这样,我们就可以对通用建立的语言模型进行重新调整,使其适应特定领域的语言。





 这种适应领域的语言模型可以作为基础,对领域中的不同问题进行微调,从而获得更高质量的解决方案。具体来说,作为适用于该方法论领域的第一个结果,我们创建了第一个适用于法律领域的西班牙语语言模型。 语言模型微调 为了为法律部门创建第一个西班牙语模型,我们从BETO (智利大学开发的西班牙语通用模型)开始,并针对大量法律行政西班牙语语料库进行了适应过程,超过 5 亿个单词,大约是 BETO 使用的语料库大小的 25%。 这个法律行政语料库是基于开源编译的,然后由我们的计算语言学家团队整理并经过清洗过程,从而保证了其质量。 法律语料库 语言模型对法律部门的影响 一旦针对法律领域的两个具体问题付诸实践,适应法律领域的语言模型的优势就显而易见: 根据类型对多页文档进行分类,分为 8 个不同类别。 检测文本中的命名实体:人和组织。
游客

返回顶部