智能语义检索到底是什么?智能语义检索有什么技巧?你关心的语义检索问题,都在这篇文章里了!

前言:我们常常使用的语义检索,到底是什么原理?为什么它只显示1000个结果,这是随机的吗?使用语义检索时只输入一段话就可以了吗?
语义检索的原理是什么?检索结果是随机的吗?

正如检索结果可以按照申请日、公开日先后进行排序一样,语义检索的结果就是按照语义相关度对专利文献进行排序,先后顺序则是相关度越高,位置越靠前。HimmPat会根据给定的内容(如:专利号码、技术要点语句、一段文字描述),在数据库中匹配与输入的技术方案最相关的前1000件专利,按相关度从高到低排序,让用户先看到更相关的专利文献,提高效率。

想要了解语义检索的原理,就要先了解专利文献本身。与论文的标准化表达不同,专利文献由于其具有法律属性,申请人喜欢对技术特征进行上位概括或自定义表达,专利文献的语言表达具有多样性,例如“触屏”一词,在专利中可以衍生出”屏幕触控”、“手势触摸”、“感应屏幕”等多种表达方式,这在中文中更加常见。

人工智能与大数据技术构建词关系网络图

因此,专利检索一直以来都具有较高的门槛,为了解决这个问题,传统解决方案有两个,一是给涉及相同技术点的专利赋予统一的分类号,可以用统一的分类号检索出该领域下不同表达的专利;二是对专利进行人工改写,改写成比较统一的表达。但分类号难以涵盖所有技术点,也有对某个技术点覆盖不全的情况;而人工改写改写内容无法涵盖专利全文信息,最终也需要检索者按改写后的表达进行检索,并且成本过高。

以上两种解决方案实际上都是试图将千变万化的专利信息置于统一的测量体系中进行标准化描述,而语义检索正是在这样的思路下提供了第三种解决方案,将不同的专利用统一的标准去测量,给专利检索设置了统一的运算方式。

简单来说语义检索就是将所有专利转化为高维数学向量,用统一的维度去描述不同的专利,将检索者输入的内容与数据库中的专利向量进行匹配,二者形成的向量夹角越小,则相似度越高。

《语义检索的数学原理》(作者:江钒)

来源:《专利文献研究》2018年第三期

正如下图中的结果展示,也许技术方案的关键词不是完全一样,但是它们所表达的内容是相同的,那么它的排序结果也会在前面。在数据库中匹配到1000条相似的专利数据,将其按照相关度从高到低的排序方式呈现在页面内,这就是语义检索,也叫语义排序。

语义检索从来不是玄学而是数学!
所以语义检索严格意义上不是检索,因为并没有得到完全固定的结果集。语义检索本质上是一种排序方式,系统根据用户输入的文本理解文本的含义,并与数据库中的专利向量进行计算,并让数据库的全部专利重新排序。HimmPat中会默认展示前1000件最相关的结果。

语义检索有哪些小技巧呢?直接输入一段话或者号码就可以了吗?

根据语义检索的原理我们可以了解到,语义检索是构建输入的文本与检索数据库之间的向量关系,所以可以这两个角度出发。

1 . 忽略背景技术来源:李老师 国知局审查协作中心资深审查员

以CN108858500A为例,直接使用公开号进行智能语义检索,检索结果靠前位置出现了非常多与本专利不相关的文献,例如与家具家居装饰、中式家具、雕花家具、智能家具等相关的专利,噪音非常大。
回到本专利说明书可以发现本专利一个比较大的特点,说明书文字描述部分一共3页半的内容,而其中背景技术部分占据了接近2页的篇幅,本专利的技术方案描述篇幅不到一半
并且,在背景技术中,申请人的描述都是与家具的历史、流行发展趋势和行业现状的相关内容,其中就包括了中式元素、智能家具等相关内容的描述,而此背景技术的内容与本专利的技术方案没有任何关系

语义检索会根据专利文献的内容进行检索,比对相似度较高的专利进行排序。如果此时申请文件的撰写具有极大的主观性,存在专利文献中的说明书无关内容较多。将技术背景计入到检索文献中,会形成信息噪声将检索方向指向与检索目标不相关的方向。

当检索文献的说明书中的背景技术与技术方案不相关或相悖时,避免背景技术描述中的干扰信息和冗杂信息等噪音对语义排序的相关度进行干扰,可以在检索框下方中勾选“ 忽略背景技术 ”,在前两位就找到了对比文件。

忽略背景技术示意

 
Tips : 语义检索时一定要忽略技术背景吗?

对比下面两篇专利文件,同样都使用了叶枯唑(别名:噻枯唑)A中的专利表达为主要是以枯唑的表达方式,仅在技术背景解释了它的其它学名噻枯唑。而在专利B中,全篇使用的是噻枯唑的表达方式

专利文件A

专利文件B

总结:我们可以在 HimmPat 义检索界面勾选忽略背景技术,这样直接以名称、摘要、技术要点为检索根本,忽略背景技术的影响,以更高效地获取相关专利。但是如果专利文献的背景技术对技术方案描述能起到补充作用时或涉及到重点的文字表达,则无需勾选“忽略技术背景”

一个简单判断是否忽略背景技术的方法:语义检索输入专利号码后,打开自定义调整语义方向按钮,系统会自动判断背景技术与全文的相关性,相关性过低则会自动勾选忽略背景技术勾选框。

2 .  多重语义检索(来源:Horie老师 专利审查协作中心资深审查员

忽略背景技术是去除噪音文本对结果的影响,而多重语义检索则正好相反,是增加需要的或者是相关的描述语句,调整语义检索方向,重新组织检索的侧重点,根据调整好的检索权重,再次进行语义排序

实际案例一:以案件CN111003416A为例,寻找此专利的对比文件,我们来看Horie老师是如何利用多重语义检索,筛选出10篇X文件。

第一步:直接输入专利号进行语义检索,在语义检索结果第4-6位找到3篇相似的对比文件。

第二步:将已找到的对比文件加入到语义筛选中,进行多重语义筛选,在第4-6位、14位又找到4篇对比文件。

第三步:将所有对比文件全部加入到语义筛选中,共同进行多重语义筛选,在第17位、第46位又找到2篇对比文件。

第四步:再次将已找到的对比文件加入语义筛选,去除勾选中文库,改选外文库检索,在第19位再找到一篇外文的对比文件。

至此,使用多重语义检索找到10篇对比文件。

总结:

①进行初步语义检索后,可以将获得的相似对比文件进行多重语义检索,循环重复上述过程,获得更多相似对比文件,优中选优。通过人工筛选和不断反馈,可以逐步缩小范围,不断将相似对比文件提前,多重语义使结果越来越精准和智能。

在初步检索中,建议去掉公开日期限制,获得申请日之后的相似对比文件不要丢掉,可以用于多重语义检索。

以上案例是连续使用多个专利号码进行多重语义检索,在实际的检索场景中,多重语义检索可以有多种方式,可以号码+文本进行多重语义检索,也可以文本+文本进行多重语义检索,增加相关检索词或特征的权重。

实际案例二:以案件CN109304043A为例,涉及一种电子积木,该专利属于越来越常见的跨领域发明,既是玩具又与电磁电路相关

第一步:直接输入专利号进行语义检索时,可以看到此时检索结果中靠前的大多都是和电磁相关的专利,积木比较少,也就是说系统更偏向于检索与电磁相关的专利,而积木这一特征的重要性则被系统识别得较低

第二步:此时可以在语义排序中继续添加电子积木”做多重语义检索,加重专利主题“电子积木”的权重,检索结果将更侧重电子积木

总结:当语义检索结果明显缺失某个重要特征时,添加该特征的描述进行多重语义检索,可以提高它的权重,检索结果更偏向我们关注的技术特征,高效地筛选出对比文件。因此,语义检索中,我们可以针对核心发明点进行多重语义检索,让检索结果更聚焦发明核心,也可以对从权的附加发明点进行多重语义检索,更快速地找到Y类对比文件。

以下是上述案例多重语义检索的基本原理,当仅输入号码时,文本向量的方向更偏向于电磁方向,当新加入“电子积木”的检索方向时,“电子积木”向量与原专利号码向量将根据向量合成的平行四边形法则合成为新的向量进行语义检索,新的向量方向既与原号码向量方向相关,又更偏向“电子积木”的方向,因此,能够更快地检索到更符合预期的专利。

同样,在 HimmPat 系统中可以直接在语义筛选的检索页面,输入一段话或者号码后,可以勾选“自定义调整语义方向”,选择技术要点的关键词,或者在右侧直接自定义添加关键词或语段,减少检索的过程步骤。

3 .  布尔检索+语义排序(人工干预)

上面两种方法是从调整文本语义的方向提高准确度,而人工干预是在语义检索基础上限定检索范围,也就是在限定的结果中进行语义检索并排序。

语义检索时,由于是全文对比相关性,难免出现一些部分文本相关,但是整体内容、技术要点不相关的其它文件。这时可增加布尔限定条件,把当前列表不符合布尔条件的噪音过滤掉,重新排序,就是常说的人工干预,语义排序+布尔检索的模式

CN108599988A为例,我们需要找到此文件的 X 对比文件。

直接输入号码CN108599988A发现语义检索的结果并不好,然后我们在阅读专利说明书时,可以看到多次出现“ 二级代理 ” 一词,作为一个专有名词,我们判断想要的对比文件中一定会出现“二级代理”这个名词,于是直接在布尔筛选框中输入 “ 二级代理” ,进行布尔限定。

结果,在检索结果在第2位就找到了对比文件。

总结:人工干预是基于智能语义检索与布尔检索的联合使用,在限定的结果集中进行语义检索,还可以结合多重语义使用,在一定程度上可以降低信息噪音对结果产生的影响。

Tips : 抵触申请与新颖性检索

在利用号码进行语义检索时,要注意一个问题:抵触申请。

通常情况下,对于专利申请A,审查员会以专利A的申请日(有优先权日为优先权日)为节点,检索在此申请日/优先权日之前专利A的核心技术点是否为国内外公众所知

同时,审查员会关注在专利A申请日/优先权日之前申请,但在之后公开的专利,如果这样的专利技术方案与专利A保护范围重合,就会形成抵触申请,由于先申请原则,专利A就会丧失新颖性而无法获得授权。但抵触申请的认定只针对权利要求保护范围与在先申请技术方案完全一样的专利,特别严格,只能以新颖性理由驳回,只要专利A中有任何一点不一样就可以规避掉,所以抵触申请出现的概率比较低,相较于540万有XY对比文件的中国发明申请,有抵触申请(E)对比文件的中国发明申请只有5万件左右。

当我们使用语义检索时,如果勾选新颖性检索,系统将自动添加公开日小于等于申请日的限定条件

当未检索到申请日/优先权日前公开现有技术时,应补充检索申请日或优先权日小于等于本申请申请日/优先权日的专利,可在HimmPat检索结果左侧直接选择调整相关限定字段。

在实际的专利检索中会碰到各种各样的问题,在使用工具进行检索时也可以搭配特定的技巧使用。以上技巧均来自审查员检索经验,语义检索可不是直接输入一段话就结束了哦!你学会了吗!欢迎投稿分享你的检索经验,冲击万元稿费!
 
 
 

 

#更多检索技巧分享  欢迎投稿

 
 
往期精选:

<<点击跳转至内容详情 >>
欢迎投稿,分享检索技能和行业经验,最高可领取万元稿费!
投稿方式 :
请将稿件以附件的方式发送至:service@himmpat.com
请注明作者、单位、联系电话

你 “ 在看 ” 我吗?👀