KK教程资讯:带你了解最前沿的技术、资讯,海纳百川,学无止境!
KK教程资讯:带你了解最前沿的技术、资讯,海纳百川,学无止境!
语义检索比传统的布尔检索多做了一步,也就是对检索结果按照与给定目标的语义相关度进行重新排序。
如上图,在圈定小人后,我们对小人按照从大到小的顺序排序,那么在靠前位置就可以得到我们想要的大小人。专利检索时也是类似,在圈定出专利集之后(例如通过领域关键词或IPC分类号圈定),我们给定一个语义排序标准,可以是一个专利(号码)、一段话或是一个关键词,然后按照与这个标准的语义相关度的大小,对圈定的专利集重新排序,最相似的专利就会被排在最靠前的位置,我们就可以高效地获取想要的专利文献。
Patentics中语义检索命令为R/,其中R即是Rerank的缩写,也就是重排序的意思。R/命令后可以输入文字内容或者专利号码,输入专利号码时,系统会自动提取该篇专利的全文文本进行语义检索。
为了满足审查员日常新颖性检索需要,Patentics还提供RDI/命令,后可跟专利号码,含义是检索该专利申请日前公开的最接近专利文献。
在单独使用R/命令或RDI/命令时,系统会对全库进行语义重排序,但只会给出最相关的400篇专利文献,因为系统在给出检索结果时,已将更相关的放在了最前面,排名400以后的相关度会越来越低,因此会有默认的截断。但如果大家想查看更多,可以使用CTOP/命令限定要查看的专利数量,例如CTOP/1000,查看最相关的1000篇。
上图可以简要说明R/命令的执行过程,大概可分为三步。第一步是系统对整个专利数据库中每篇专利全文抽取关键词,将每篇专利都转变成一个有多个词构成的文档向量,然后使用这些大量的文档向量训练语义模型,其实就是前文所说的将这些本在不同空间使用不同标尺衡量的向量都转换到相同的语义向量空间中,以便在同一个坐标系中去测量它们,使得他们之间具有可比性。
第二步就是我们输入一个专利申请号或文本内容进行检索,系统同样会对其抽取关键词,转换为一个文档向量。然后使用训练好的语义模型对其进行向量合成,将我们输入的内容也放到语义向量空间模型中。
第三步就是将我们输入内容的文本向量和数据库中的专利的文本向量进行向量运算,计算它与每篇专利的相关度,最后按照相关度从高到低,对数据库中的专利文献进行重新排序,我们就可以在靠前位置获得相关的专利文献了。
经过训练语义模型的专利数据库会有什么奇妙的变化呢?如上图所示,它实际上是学习了全球申请人的自然表达,建立了词与词之间、词与文档之间、文档与文档之间的大数据关联。
例如,我们在R/命令后输入“机器学习”这个词,点击搜索框右下方的概念扩充小按钮,系统就会找出与其相关的概念词,并按词与词之间的相关性,聚类为4个主题,例如主题一下有“文本分类”、“基于语义”、“挖掘方法”等机器学习应用场景方面的词汇,主题二下有“无监督”、“朴素贝叶斯”、“SVM”、“半监督”等机器学习算法方面的词汇,主题三下有最近很火的“人工神经网络”、“深度神经网络”等机器学习新算法词汇,主题四下有“高维空间几何学”等机器学习原理方面的词汇。
大家可以发现,这些词汇并非全是“机器学习”的同义词,而是相关性较高的词。无论是加工的同义词词表还是本领域技术人员能扩展出的词汇,都无法与这样海量大数据运算和机器学习后得来的全库词汇之间相关关系相比。
同样,在R/命令后输入一个专利号码,点击搜索框右下方的概念扩充小按钮,系统同样可以找出与这篇专利最相关的词汇,通过查看这些词汇和聚类的主题,就可以大概知道这篇专利适合印刷电路相关的专利。这相当于系统替我们对这篇专利进行了自动解读。
如果想更炫一点,可以点击左侧“相关概念”框中的小书按钮,展示相关词词云。
那么语义检索的实际效果如何呢?我们通过一个案例给大家演示一下。
这件案例是握奇诉被告专利侵权,法院判赔5000万的专利,被告第一时间对握奇这件专利提起了无效请求,此专利被复审委判决部分无效,复审委认定公开其关键技术特征的关键证据是一篇中国专利CN1482550A。
传统布尔检索在检索这篇专利时需要进行关键词、分类号扩展等利用各种检索经验和技巧。而在Patentics中,仅需输入RDI/CN200510105502.1,也就是输入要无效专利的专利号码,检索其申请日前公开的相关专利文献。
在中国申请库中进行检索,输入RDI/CN200510105502.1,可以看到最右侧是相关度百分比,第一位相关度100%,是CN200510105502.1专利本身,第二位相关度94%的即是复审委认定的关键证据。语义检索无需任何检索策略就可在仅看一篇专利文献的情况下获得关键无效证据。
而传统的布尔检索中,检索员一方面为了避免漏检,会扩展关键词分类号等检索要素,而另一方面为了减少浏览量,会限定文献在一个合适范围进行浏览,越窄的检索范围虽然浏览时间少了,但漏检风险又会大大增加。这就是传统布尔检索面临的检全与检准的矛盾所在。
而语义排序正好克服了传统检索方式检全和检准的矛盾。我们在限定浏览范围的时候可以限定得更加宽泛,不用担心文献浏览问题,因为语义排序会将更相关的文献排在靠前位置供我们浏览。也就是说,即不漏检,又能在靠前的位置找到想要的文献,解决查全和查准这一对矛盾。
以上便是KK下载给大家分享介绍的Patentics专利的检索方法!
沙盒与副本吃鸡模式
返回顶部
Copyright © 2009-2022 KKX.Net. All Rights Reserved .
KK下载站是专业的免费软件下载站点,提供绿色软件、免费软件,手机软件,系统软件,单机游戏等热门资源安全下载!