2計算資料集之間的相似度(Top-down)

Contents

2計算資料集之間的相似度(Top-down)#

以「類別資料」視角，運用Wikidata關鍵字的Property實現餘弦相似度推薦Depositar資料集#

有鑑於前案Bottom-up的運算時間過長（2小時多），本專案Top-down的目標便是「降低運算時長，仍能維持一定推薦品質」。

具體減少運算時長的實踐步驟，原本針對全部的Wikidata關鍵字進行運算「Propert、Value、en-label」。後來改成將Depositar前50常用詞彙的Property發展成類別資料的名目尺度編碼「有就是“1”，沒有就是“0”」。

如此便將原本運算的三個特徵，減少成一個；又將「全部462個item」改成「前50個(range(50))常用的item」，便大幅降低運算時間，6分鐘以內即可運算完成，可以開始進行資料集相互推薦服務。

除了上述前50個常用的item，我也實驗僅用前15個常用的item去發展推薦模式。在維持一定推薦品質的情況下，運算時長從6分鐘，更減少到1分鐘，便可以開始進行資料集相互推薦。

由此，帶來一些後續發展的靈感：1.要使用Propert、Value、en-label之一的那一個特徵，或者如何組合特徵，來發展推薦模式？2.需使用前幾常見的item發展類別資料編碼表？3.「Propert、Value、en-label」搭配前幾常用關鍵字發展的推薦模式組合，分別適合哪些需求的使用者？這些嘗試有待後續研究者實測了。