書目隱性語義索引:使用者無錯
時間: 10/01(三)上午9:30-12:00
地點: 台灣師範大學教育大樓3樓第一會議室
講題:Bibliographic Latent Semantic Indexing: No Blames On Users(書目隱性語義索引:使用者無錯)
Prof. Xiangming Mu是來自Wisconsin-Milwaukee SOIS系的助理教授, 他大學時代在南京大學大氣科學系就讀,之後在Carolina Chapel HILL大學得到圖書資訊學博士學位,而Wisconsin-Milwaukee是台灣師範大學的姊妹校,而且設有圖資系及圖資碩博士班, 因此是一個可以考慮赴美進修的管道,尤其他是一所公立大學(學費比較便宜)
書目隱性語義索引(BLSI):使用者無錯,這個演講說明圖書館OPAC等檢索系統長久是忽視語義(semantic),或是相關metadata/tag的呈現並沒有加入統計加權,自動分類,讓圖書館讀者難以使用,講者指出並不是使用者笨,天真,或是懶惰,而是可以利用LSI的方法,利用語義(主要利用metadata之間的關係)改善準確率(precision ratio),使讀者得到高品質的資訊,進而減低企業或是組織知識庫與客服的成本
LSI(隱性語義分析)是Natural Language Processing(自然語言處理)的一個支派,是可以利用在自動分類與小範圍高準確的資訊回饋要求上,網路上成千上萬的資訊包括字(Character)、詞(Word)、語法(Syntax)、語義(Semantics)、語用(Pragmatics)等層次的知識(陳光華,1999) ,而為什麼大家還是喜歡使用Google,Brin&Page 1998:PR(A)=(1-d)+d(PR(T1)/C(T1)+.....+, Pagerank, 這是在大規模資料中語義是更難被界定,近年來,向量空間模型(VSM)長期以來被用於文本檢索,然而潛伏在其中的正交假設卻遲遲未能得到解決.大陸有些學者認為潛在語義索引模型(LSI)解決了這個問題(李孟臣,2005),但LSI的缺點在冷僻詞也不專長, 但適合一般的concept,或許在經過metadata定義過的資料會有很高的成效(如期刊論文,書籍資料,歌曲,技術支援資料)
.
感想:穆教授提出BLSI區別於LSI,BLSI使用書目型資料在做分類與統計是更為方便,穆教授提出人們查詢高清電視的例子,有不同的目的, 有人要買(60%),有人要了解技術(20%),有人要了解法律(1%),但大部份是為了要購買高清電視,長尾的需求是搜尋排序(尤其是自然語言搜尋)目前使不上力的,圖資所卜小蝶老師提出當前台灣資料搜尋網站現狀,yahoo為了維持主流的使用者流量,搜尋結果必須人工介入(tune 查詢結果), 也使得yahoo在一般名詞不輸google,在少查(冷僻)的名詞是輸給google的現象,台灣yahoo, 韓國naver, 中國baidu等local檢索服務大於全球性檢索所佔的市場(這我覺得baidu可能不只有這方面可以跟google抗衡的優勢),但這樣的迎合一般使用者的情況,越長尾後端的資訊需求卻不能得到滿足,所以yahoo可以當成廣告的優勢,設計出廣告產品,延伸傳統關鍵字行銷的作法(雖然我覺得這是很愚民), 圖資的學生在搜尋引擎操縱query,就如同傳統圖書館員控制讀者看什麼的權力,這個權力在手上,圖書館員不能不自知!
0 意見:
張貼留言