如何通过自然语言处理实现合同、裁判文书里的信息提取?

合同、裁判文书等文档里面含有丰富的信息,不同的人对其中的信息的关注点也不大相同。不同的业务需求也就对这些文本处理、信息挖掘提出了不同的要求。

 

从一整段、一整篇文档中提取某些特定信息点,可以称作为“文本数据结构化”。一般我们把文本数据称作为非结构化数据,这是相较于关系数据库中存放的结构化数据而言的。

 

【文本数据结构化】就是把文本数据里面的各种信息提取出来。比如,合同里面的甲方、乙方、合同涉及的金额、涉及的买卖物品、签约日期等等这些信息就是合同的结构化数据,把这些数据提取并保存到关系行数据库里面,就可以对一个公司、一个集团的合同进行多维度的统计分析,比如这一年公司共签约了多少钱的合同。不同业务部门围绕合同可以提出不同的数据分析需求,一个合同可以提取几十项数据。

 

同样的,法院的裁判文书也可以做类似上面的信息提取,比如原告、被告、委托人、委托事项等等。

 

那么,如何进行文本信息的提取呢?我们在一个项目中实现了类似这样的需求。

 

进而把这样的项目完善成一个产品如何呢?

(1)显然,这个产品是面向企业、单位等B端客户的,而且其体量要比较大,他们有大量的文本需要处理、挖掘。是面向一个企业,还是面向企业的一个部门?

(2)仅仅是把文本结构化还不足以作为一个产品满足企业的需求?还要有统计分析模块、用户管理模块、内容搜索模块……这些模块果真是他们需要的吗?可能需要跟具体的业务部门沟通需求。

(3)这样的软件产品最终的形态是什么?SaaS的形式,做成云服务,用户一个账号和密码就可以使用了。但是,用户可能要担心保密问题,毕竟合同是公司很敏感的内容。那就只能部署到企业内部了。

 

 

 

未经允许不得转载:996ICU » 如何通过自然语言处理实现合同、裁判文书里的信息提取?

赞 (0) 打赏