Quantalyze:小”单位”里面有大文章


enter image description here 在传统的检索工具中,如果要检索数值范围,可以采用端点值和单位作为输入进行检索。但是这种检索方法精确性很差,能检到基本上也是撞大运。一方面是端点值并不一定刚好就在专利文献中出现,另一方面,由于单位具有多样性,比如温度,就有摄氏度、华氏、开尔文温度各种单位,势必会造成大量的漏检。

笔者曾经幻想过直接输入欲检索的数值范围和单位名称,就能检索到包含该数值范围的专利,而这检索方式实际上早在2011年就被奥地利的Max recall公司推出,即Quantalyze。该项服务通过对专利文本中的各种单位进行识别、并对单位进行转换,然后实现数值范围检索,同时还能够对表格中的数值范围和单位进行智能识别,确实是在单位这个小细节上做足了文章!

单位识别

enter image description here Quantalyze号称可以识别10000种单位,在线可以对2500字以内的专利文本中的单位进行识别。通过将文本粘贴至文本框,点击“Quantlyze”,就可以将文本中的所有单位进行识别,并利用不同的颜色进行高亮显示。除此之外,当鼠标悬停在单位上时,还能显示该单位的类型,以及对单位进行标准化换算后的数值。在阅读涉及数值范围较多的专利文本时,利用这个工具不失为一个好方法。不过该工具暂时不支持中文,如果需要识别中文专利中的单位,将中文进行机器翻译成英文,算是一种变通的方法。

表格语义识别

enter image description here

Quantalyze不但可以对文本中的单位进行识别和转换,还可以对表格中的单位和数值进行识别。专利文本中很多的数值范围出现在表格中,而且表格中的情况更为复杂,比如有些表格中的数值与单位是分离的,数值在表格中,而单位在表头中,这种情况就需要对表格进行智能识别。

这种看似很细节的问题,实际上要解决是有一定难度的。笔者经过试用发现,Quantalyze虽然声称能够对表格进行数值和单位识别,但是有些表格也没有识别,还是有很大的改进空间。

数值范围检索

enter image description here 对专利文本中的单位进行识别的最终目的,实际上是为了能够实现数值范围检索。通过在输入框中输入一个数值范围,例如想要查找10mmol以下的数值范围,就可以输入”under 10 mmol”,点击检索后,就可以将所有满足条件的专利检索出来。在结果列表中还会有一列显示所命中文献所包含的全部数字范围的数量以及符合命中条件的单位记录数。

enter image description here

通过点击结果中的命中专利就能够跳转到全文浏览界面,其中将所有命中数值范围和单位进行了高亮显示,阅读起来也非常方便。但是官网上的展示的是对示例数据进行数值范围的检索,如果需要对特定检索集进行数值范围检索,可以将文献上传到网站上,不过这是对注册用户的服务。

可见,看似小小的单位背后实际上蕴含有大“文章”,要追求最简单、最便捷的数值范围检索,必须经历非常复杂的研究。当前,这种数值范围检索仅针对特定检索集进行,未来,如果将这一套单位识别和数值范围检索的算法嵌入到全量专利数据库中,则数值范围检索就将变得更加便捷和高效。

发表评论