1計算關鍵字之間的相似度#

運用Cosine Similarity計算Wikidata item的Property、Value、en-label發展關鍵字推薦模式——以Depositar為場域#

試想:兩個專有名詞,有什麼方式了解之間的關係,甚至是相關親近與否?

比如:「台北帝國大學」與「國立台灣大學」先後淵源?「國立清華大學」與「北京清華大學」同時並存?「南港區」與「南港里」從屬關係?「彰化縣政府」與「苗栗縣政府」縣市鄉鎮位階?「文件探勘」與「資料探勘」類似技術?「SDGs12」與「循環經濟」類似議題……等

這些「關係、相關」如何被理解,當前多仰賴生活在此些脈絡的行動者們詮釋。然而,機器如何理解「這些脈絡呢?」我們要input什麼給機器,才能方便其理解「情境脈絡中的關係」?

此專案以Depositar的資料集關鍵字為場域,藉由Wikidata的Item結構化資料,依序展開特徵迭代、擷取Property、Value、en-label作為特徵,計算相似度,並推薦類似的關鍵字。