2008年APEX实验室10篇高质量论文问鼎全球五大顶尖国际会议
大规模类别体系下的深度分类研究(SIGIR 2008)
薛贵荣、邢迪侃等
大规模类别体系下的分类一直被认为是机器学习与Web挖掘中的一大难题。传统的分类算法往往只对于几十类或者几百类的类别体系具有一定的效果,随着类别数目的增加,分类的性能就会直线下降。一旦类别体系到到达上万规模,分类器就基本上没有办法工作。本论文突破传统挖掘算法的框架,提出一种新型的“深度Web挖掘”研究算法来解决十万规模级别的分类问题并取得了非常高的分类性能。
Deep Classification in Large-scale Text Hierarchies
G.R. Xue, D. Xing, Q. Yang and Y. Yu
跨领域分类中的基于主题桥接潜在语义分析算法(SIGIR 2008)
薛贵荣、戴文渊等
对于Web研究者来讲,在瞬息万变的Web中进行挖掘的最大困难就是Web发展非常迅速,使用人工方法去标定数据非常耗时同样费用也很高。结果就导致研究数据的不足。传统的Web挖掘研究都需要足够的训练数据。本论文研究了一种新型的基于主题桥接的挖掘算法来解决上述Web挖掘研究中的困境。该课题的研究通过分析Web数据中的潜在的不变特征来。利用不同领域的数据来来帮助进行跨领域的学习。实验表明我们的算法能够取得非常显著的效果。
Topic-bridged PLSA for Cross-Domain Text Classification
G.R. Xue, W. Dai, Q. Yang and Y. Yu
基于社会化标注的个性化搜索(SIGIR 2008)
徐生良,包胜华等
个性化搜索是下一代网络搜索的重点研究方向,其中,个性化数据的收集与个性化结果的评估一直是个性化搜索所面临的两大难题。传统的个性化搜索算法利用了个人的桌面资料,搜索结果点击记录等信息。随着Web 2.0的迅猛发展,越来越多的网站开始提供一个开放平台,供用户通过社会化标注来在线地保存和组织他们的网络书签。我们观察到,社会化标注不仅仅是描述网页语义内容的高质量数据,同时也是用户个人兴趣的良好表征。为此,我们提出了一个统一的主题空间来建立起用户和网页之间的语义关联。基于这个主题空间,我们进一步提出了一个个性化搜索框架和一个自动评估框架。大量的实验结果验证的我们所提出算法的高效性。
Exploring Folksonomy for Personalized Search
S. Xu, B. Shenghua, B. Fei, Z. Su and Y. Yu
考虑序对中Tie关系的新型排序算法(SIGIR 2008)
周科、薛贵荣等
设计有效的排序函数是目前Web搜索研究与应用中的核心问题。排序函数是指对于给定的查询,研究一个文档是否比另一个更加相关。本论文研究了一种新的偏好信息——ties。Ties表示两个文档对于同一查询具有相同的相关程度。Ties是对传统的偏好数据的一个重要补充:传统偏好数据强调文档之间的差异信息,而Ties表示文档之间的共同特征。本文分析了ties的性质并基于统计模型提出一个可以统一处理偏好数据和ties的学习框架。本文通过在三个数据据上的实验,验证了这一学习框架的有效性。
Learning to Rank with Ties (SIGIR 2008)
K. Zhou, G.R. Xue, H. Zha and Y. Yu
基于自学的聚类研究(ICML 2008)
戴文渊 等
聚类算法一直是机器学习研究的重点和难点。传统的聚类研究只关注在目标聚类数据上,由于目标数据所包含的知识有限,因此聚类效果往往达不到我们的要求。本文提出了基于自学的聚类研究,把从大量背景知识中自学得到的知识运用到目标聚类上来,提出了一种新型的聚类算法"自学习聚类",大大提高了聚类的效果。
Self-taught Clustering
W. Dai, Q. Yang, G.. R. Xue and Y. Yu
跨领域的谱学习研究(SIGKDD 2008)
凌霄,戴文渊等
谱分类一直是机器学习研究的研究热点问题。传统的谱分类学习要求测试与训练数据都来自于同一领域。但是由于数据随时间变化而变化,过去训练好的模型往往不能适应新的分类的任务。同样,新的领域也在不断的推成出新。这就需要我们不断的对数据进行标注。而这个工作非常的耗时同时实际开销也很大。本文扩展了传统谱学习的研究,将谱学习中引入到跨领域的学习中来使其能够解决谱学习中由于领域不同而导致的低效分类性能。
Cross-Domain Spectral Learning
Xiao Ling, Wenyuan Dai, Gui-Rong Xue, Qiang Yang, and Yong Yu
用于细粒度专家搜索的概率模型(ACL 2008)
包胜华等
随着数据的爆炸性增长,人们在遇到问题时往往会求助于相关领域的专家。专家搜索即为这一需求而提出。顾名思义,专家搜索在给定一个查询的时候,不再简单地返回一系列文档,而是返回一个排序后的专家列表。由于它在信息获取和知识发现中的巨大作用,人们提出了各种专家搜索算法。然而,传统的专家搜索算法都建立在一个粗粒度的基础上,从而阻碍了搜索精度的进一步提高。对应的,我们观察到文档内部的细粒度证据能明显改善专家搜索,并为此提出了一个相应的概率模型。大量的实验结果验证了我们所提出模型的高效性。
A Probabilistic Model for Fine-Grained Expert Search(ACL 2008)
Shenghua Bao, Huizhong Duan, Qi Zhou, Miao Xiong, Yunbo Cao and Yong Yu
基于主题与焦点的问题搜索算法(ACL 2008)
段惠中等
在过去的几年里,网上服务逐渐积累了大量的问题答案档案,包括传统的常见问题服务和最近大量涌现的问题回答服务等。为了利用这些大规模的问题档案,通常需要建立一个能够帮助用户搜索以前的问题和答案的功能。由于问题具有特有的结构和性质,传统的文本检索算法针对性不强,在问题搜索上无法获得很好的效果。因此,我们提出通过区分问题的主题部分和关注部分的方法对问题的结构建模,从而达到问题搜索的目标。实验证明,针对问题的搜索,我们的算法显著好于传统的文本检索算法。
Searching Questions by Identifying Question Topic and Question Focus(ACL 2008)
Huizhong Duan, Yunbo Cao, Chin-Yew Lin and Yong Yu
能否利用英文数据来分类中文Web? (WWW 2008)
凌霄等
中文网页分类的最大问题就是其训练数据非常匮乏。我们发现同样的类别体系下,中文网页仅仅只有2万多个网页,而英文网页达到了2百多万。基于这样的数据特征,我们提出一种新型的学习框架即利用另外一种相对丰富的语言语料来对中文网页进行分类。该论文的研究对于其他语种的分类研究也有很好的参考价值。
Can Chinese Web Pages be Classified with English Data Source? (WWW 2008)
Xiao Ling, Gui-Rong Xue, Wenyuan Dai, Qiang Yang and Yong Yu.
利用基于最小描述长度的树划分算法进行问题推荐(WWW 2008)
曹云波等
社区化的问答服务是一种允许用户在线提问和回答的网络服务。通过过去几年的快速发展,这些服务积累了大量的问题和答案文档。为了避免用户提交问题后长时间的等待,这些服务通常提供一个问题搜索的功能。本课题提出问题推荐这一新的应用,对问题搜索进行补充。给定一个问题作为查询,问题推荐希望检索到描述和查询相同主题,但具有不同关注点的问题。通过采用基于最小描述长度的数划分算法,我们可以自动的获得问题的主题部分和关注部分。大量的实验验证了我们的算法的有效性。
Recommending Questions Using the MDL-based Tree Cut Model (WWW 2008)
Yunbo Cao, Huizhong Duan, Chin-Yew Lin, Yong Yu, Hsiao-Wuen Hon
此页的访问计数:从2008年5月20日起,共计962 次。
