2計算資料集之間的相似度(Bottom-up)

2計算資料集之間的相似度(Bottom-up)#

雙層社群網絡應用於Wikidata關鍵字發展Depositar資料集推薦系統#

在發展關鍵字的推薦之後，接著藉由「關鍵字的推薦模式」發展「資料集的推薦模式」。也就是說，這是一個Bottom-up建立起的推薦模式。

本專案開始之初（2023年8月7日），我先概要觀察Depositar資料集結構中帶有關鍵字的現況，只有505/1839=27%的資料有使用至少1個wikidata keywords描述資料集。而且505筆datasets中，更有294筆資料只是1～2個wikidata keywords用來描述該資料集。

由此看來，如何透過上述的含有少量wikidata的資料集來推薦其他資料集，這將是一個有趣的問題。

基於考量Depositar資料集關鍵字沒有很多（充分描述），所以我嘗試使用前例「運用Cosine Similarity計算Wikidata item的Property、Value、en-label發展關鍵字推薦模式——以Depositar為場域」將資料集舊有的Wikidata item（Generation 0）輸入進去，產生更多推薦關鍵字（Generation 1），再將兩文件（F1、F2）的兩代關鍵字（G0、G1）進行相似度運算，加總、加權以得到兩文件之間的相似度分數。

此專案Bottom-up建立起「關鍵字推薦模式」到「資料集推薦模式」，運用Wikidata特徵：從原本「Property、Value、en-label」提升至「Item」。並且僅透過Depositar內部Wikidata發展適合該資料平台資料集推薦模式。這樣的實現方法或許能落實在類似「企業內部（無法外網）封閉的電子化系統」。

然而，這種Bottom-up的模式需要大量時間運算每一個細節，才能完整建立期間模式。當前運算全部關鍵字、資料集相似度用時2～3小時，於是下一個專案發展的目標：降低運算時長，仍能維持一定推薦品質。

2計算資料集之間的相似度(Bottom-up)

Contents

2計算資料集之間的相似度(Bottom-up)#

雙層社群網絡應用於Wikidata關鍵字發展Depositar資料集推薦系統#