数据清洗


专利分析中的开源运动(2)——专利数据的清洗 4

在前一篇中,我们对专利数据开放以及专利数据的获取方式进行了阐述,但是在获得专利数据后通常不能直接用于专利分析,而必须对专利数据进行清洗。本篇将进一步对专利数据的清洗进行介绍。 专利数据清洗的目的 为什么需要对专利数据进行清洗呢,主要是有以下原因:其一是获取得到的数据格式不能用于分析。例如,数据存储的格式包括了txt,xml,csv,json,甚至于bib格式,而当我们进行专利分析时通常是希望获得c […]