十萬專利,彈指一揮
論專利智慧分析和視覺化方法之道

十萬專利,彈指一揮 <br>論專利智慧分析和視覺化方法之道
特約撰稿人
業界專家學者
專利與研發情報

在科技高速發展的當代,無論是企業新產品開發或是科技人員研究創新,所面臨的主要問題並不是資訊太少,而是資訊太多。以我司開發半導體領域高端光刻機為例:奈米級工件台技術約1500件專利(專利數量指去除同族後的數量),沉浸式光刻約2000件,極紫外EUV曝光約2000件。至今,整個行業累計專利數量約十萬件,而且每年以4000-5000件的速度遞增。面對如此浩如煙海的專利,企業傳統的做法是讓智權和研發工程人員們人工地去閱讀和理解大量的專利,其實這是一種十分低效率和高成本的方式。

本人基於科睿唯安公司旗下的專利檢索資料庫 Derwent Innovation,並結合多年技術研發和智權工作的心得分享一些方法,以下本文將從戰略和戰術兩個層面,論述專利智慧分析和視覺化方法之道,以供各領域專家和業內同行批評指正。

 

方法一:快速定位高引用專利

在巨大數量的專利面前,傳統人力閱讀耗時耗力,因此我們需要學會借助同行的洞察力和思維痕跡為我所用。基於Derwent Innovation,可以很迅速地查詢並獲得相關領域專利資料和關鍵字段資訊:包括專利的引用次數,並結合專利申請時間或優先權日期,可繪製如圖1所示專利引用頻率的時間分佈。通過合理地對整體分佈的曲線擬合,擬合曲線如圖1紅色曲線所示,可將在紅色曲線上方的專利視為核心和高價值專利。這樣就將原本數量級上千的專利範圍縮小到僅20-30件核心專利,通常這些專利是早期有較高影響力的專利,並兼顧中期優秀的改進專利,將它們作為一個核心技術的專利群,可供智權和技術人員精讀、理解和分析。

圖1:某技術領域專利被引用頻次的時間分佈(作者原創)

圖1:某技術領域專利被引用頻次的時間分佈(作者原創)

 

對於技術發明的普遍規則就是這樣,早期的技術發明通常是系統級的核心技術概念和方案,發明等級也是最高的,但這一時期的系統及性能並不完善,專利數量也較少,如圖2所示,發明等級和專利數量的進化關係趨勢圖。但正是這些早期的技術方案奠定了該技術領域的雛形和概貌,所以它們最有研究價值,並為後人廣泛引用和借鑒。

圖2 發明等級和專利數量的進化關係趨勢圖

圖2 發明等級和專利數量的進化關係趨勢圖

 

方法二:生成高同族專利引用網路進化圖

在專利價值的評價體系中(參考文獻1)採用內部評估因素:同族專利數量和申請地域(如PCT及四國專利US、JP、EP和CN)。同時兼顧外部評價因素:引用的專利文獻及被引用的專利文獻,結合Derwent Innovation,以上資料可輕鬆獲得。

作者採用Wolfram Mathematica平台(參考文獻2)獨立開發了專利分析和視覺化軟體平台。基於某技術領域或某企業的專利資料庫,分析其高價值專利引用網路進化的全過程,如圖3所示,其中上方彩虹色顏色條代表時間的指示條,由最早專利和最晚專利的申請時間構成時間維度。

圖3 某企業高價值專利的引用網路進化動畫(作者原創)

圖3 某企業高價值專利的引用網路進化動畫(作者原創)

 

圖4 某企業高價值專利的引用網路進化圖(作者原創)

圖4 某企業高價值專利的引用網路進化圖(作者原創)

 

如圖4某企業高價值專利的引用網路進化圖所示,網路圖中,節點直徑代表其內部評價因數(同族專利數量或申請地域權重),節點顏色代表專利申請時間或優先權日期,節點間的連線伴有箭頭指向代表專利間的引用關係。當滑鼠移至某節點上方時會自動顯示提示資訊:如同族公開號、申請時間、同族數量、該專利文本的5組高頻片語等資訊,輔助分析者理解專利內容。

通過對該企業專利實施在時間和空間的分佈的視覺化,十分便於理解該企業的專利形成過程和對應研發創新戰略的佈局,同時也有助於本企業決策當前所應採取的智慧財產權戰略部署和實施規劃。

就企業級的專利分析工作需求而言,本領域人士應當都十分清楚行業領先者是誰。專利分析工作也一樣,其實並不需要去分析許多的企業和機構,能夠把本領域、本行業的領先的一、兩家企業研究清楚,研究透徹,其實就足夠好了。

 

方法三:活用德溫特專利地圖

科睿唯安旗下的Derwent Innovation,其分析版 (Derwent Innovation Analyst) 使用者可使用 Derwent Innovation 的全部功能,包括專利地圖和文本聚類以及60,000條記錄的專利檢索結果。專利地圖就是一種非常有趣的工具。專利地圖的實質是將專利的高頻詞彙通過詞向量 (Word Vector) 方法投影到二維平面上生成一種視覺化效果圖。

舉例而言,半導體設備領域荷蘭ASML公司及德國Carl Ziess 公司同日本Nikon公司近20年來智慧財產權的訴訟官司不斷,打了又和,和了再打。通過如圖5專利地圖的分析可十分清晰地看清雙方專利的佈局,以及「你中有我,我中有你」的交錯地帶。對於訴訟和爭議點,外行可能看不懂、看不透,但業內專業人士結合專利地圖一觀便知,雙方的「用武之地」和「用兵之道」。

圖5:ASML vs Nikon的專利地圖和佈局(資料來源:Derwent Innovation)

 

以上雙方都是國際型的大公司,在行業內都具有舉足輕重的地位,可謂棋逢對手、廝殺難解。而對大部分國內企業而言,恐怕還沒有經歷過國際智慧財產權糾紛的磨難。通過對國際大公司處理和處置同類案件過程的全方位觀察,及具體細節的分析,其實能夠為國內企業儲備大量實戰經驗、方法和資源。

在我們看來,以上業內著名的智慧財產權的案件,正如同是在看一部正在直播的、驚心動魄的武俠熱劇。當我們在津津有味地點評他國企業專利戰火之餘,也不免擔憂自家企業智慧財產權的未來和命運。或者說,我們雖是在隔岸觀火,但也絕不敢幸災樂禍。

 

方法四:四重分組詞雲大法

以上屬於戰略層面的專利分析方法,然而數以百計的專利仍然不能脫離人的閱讀和理解,但效率仍可大幅提高。如下作者從戰術層面論述對單件專利的分析和處理。就專利本身而言,它仍是一個文本,借助於先進的自然語言處理方法和日趨成熟的人工智慧演算法,仍可以將一篇專利進一步地濃縮和提煉,進而提高人閱讀專利的效率和精度。

文字雲 (Word Cloud) 是當下十分熱門視覺化技術之一,但具體應用仍有些區別和講究。如圖6左上角小圖所示,生成了基於一個單詞的文字雲 (one-gram),該單詞在專利文本中出現的頻率,體現為該單詞字體的大小。但其實一個個單詞的信息量或者說資訊熵是很低的,舉例如單詞plane(平面),什麼平面?這個平面進一步是什麼含義?它同閱讀者腦海中的原有認知並沒有什麼直接關聯。

通常在英語或漢語中,2-4個單詞或漢字組成的片語具有更多的信息量和閱讀價值。如圖6右上角小圖所示同一篇專利文本生成的多詞 (n-gram) 文字雲比較而言,它則攜帶了更多能被人理解和接受的有效技術資訊。舉例在多詞文字雲中,首先展示的是focal plane(焦面,光學術語)。那麼焦面這個片語相比之前的平面的單詞,它對技術和專利專家就更具備直接地可讀性了,詞義表達也精准多了。

圖6 某美國專利的四重專利詞雲圖(作者原創)

 

再進一步分析,對某技術領域通常都會有些慣用熟知的專業詞彙,這類語言可稱為專業詞彙或專業領域的慣用語言(Common Language), 如圖6左下角小圖所示,類似於focal plane,imaging lens的片語都是本領域技術人員非常熟悉的詞彙,是描述該領域技術的基本語言,可能並不能完全或立刻反映該專利的技術特徵和創新點。

因此還可以將這類的慣用語再進一步分離,就是有了如圖6右下角小圖所示的特殊唯一詞的詞雲。當技術人員看到類似exposure time 或 stage moved relative image-recording 的時候,那麼他就非常容易地能夠猜想到這篇專利極可能涉及的發明點或創新點了。

當然在構建層次豐富的文字雲是需要基於特殊的專利和技術詞彙資料庫,作者在本企業經過長期積累和完善,生成包括:基於專利撰寫的中英文詞庫、本領域技術的資料庫、本領域權利要求及法律的資料庫、本領域技術名稱的中英文對照及縮略語詞庫,並通過區別配置和優化部署詞庫,為本領域每篇核心專利都配套定制的一張文字雲頁,智權或技術人員通常只要花10秒鐘,掃一眼文字雲頁,即可判斷是否有必要精讀某篇專利。又或是,在精讀前就已預先把握了重點詞彙明白這篇專利具體需要精讀那些細節。這樣極大程度地提高人對每篇專利閱讀地效率和精度。

 

方法五:即時洞察技術概念詞彙

知道一個技術名稱和掌握一項技術畢竟是兩碼事,但是這並不妨礙專利和技術報新和法律預警的功能。本人在企業的實踐過程中,認為可以這樣操作。定期將本領域高頻和新鮮的技術詞彙加以提煉,並採用機器學習演算法對不同技術領域進行分類,中英文之前採用機器翻譯演算法將英文專業詞彙翻譯成中文詞彙,隨後將這些分類整理後的專利技術詞彙推送給不同的相關領域專家和技術人員,以準確傳達行業的技術趨勢和動態變化。

此外,更重要的是企業內長期的人才培養和訓練,我司已在企業內部構建並部署上線了本領域中英文專業詞彙及縮略語資料庫,技術人員可通過終端即時查詢最新的專業詞彙,並可理解該詞彙語義和技術概念以及這些詞的來源(最新專利和文獻),該資料庫由專人定期維護並同步更新。

如圖7所示,為一幅2018年狗年小狗外形輪廓的文字雲圖,左上角彩色片語代表不同的專業領域的詞彙,不同的顏色對應文字雲圖中不同領域的技術詞彙。

圖7 某行業專利資料庫高頻片語詞雲圖(作者原創)

 

總結

「十萬專利、彈指一揮」,在今天看來或許有些誇大,但也絕非是兒戲妄言。伴隨電腦硬體性能提升和人工智慧技術的迅猛發展,或許也就是在幾年後,採用電腦和人工智慧演算法自動地解讀十萬件專利、分析十萬件專利、應對十萬件專利,也僅需彈指一揮滑鼠或鍵盤。

又或許,到那時VR(虛擬實境)、AR(擴增實境)和MR(混合實境)技術也足夠好了,就連滑鼠和鍵盤都早已淘汰,淩空彈指一揮……足矣。

 

致謝

致謝科睿唯安 顧問 Bob Stembridge來華對作者的指點並提供幫助、感謝科睿唯安的諸位同仁、業界先進王琦博士、王麗娟經理、馬麗娜經理所提供的幫助和支持。

上海微電子裝備(集團)股份有限公司使用德溫特資料庫超過十年,並同科睿唯安保持長期的合作夥伴關係。

 

 

本文為科睿唯安 特約作者 吳飛先生 撰寫,觀點僅代表作者本人,不代表科睿唯安立場。

 

關於本文作者

吳飛,任職於上海微電子裝備(集團)股份有限公司,創新業務主管,發表專著1部,獲授權發明專利24篇。

上海微電子裝備(集團)股份有限公司(簡稱SMEE)主要致力於半導體裝備、泛半導體裝備、高端智慧裝備的開發、設計、製造、銷售及技術服務。公司設備廣泛應用於積體電路前道、先進封裝、FPD面板、MEMS、LED、Power Devices等製造領域。企業已通過GB/T29490企業智慧財產權管理規範認證,先後被評為大陸「國家級智慧財產權示範企業」、「國家企業技術中心」、「上海市專利工作和智慧財產權示範企業」。

 

 

【參考文獻】

[1] H. Ernst, N. Omland, The Patent Asset Index – A New Approach to Benchmark Patent Portfolios, World Patent Information (33) , 2011, pp.34–41.

[2] 吳 飛, Mathematica演示專案筆記,清華大學出版社,2010.

 

需要專人進一步解說?

聯絡我們

Clarivate

Accelerating innovation