›› 2019, Vol. 31 ›› Issue (6): 135-143.

• 电子商务与信息管理 • 上一篇    下一篇

基于LapESVR的比例标签学习模型

石勇1,2,3, 孟凡1,4, 齐志泉1,2,3   

  1. 1. 中国科学院大学经济与管理学院, 北京 100190;
    2. 中国科学院虚拟经济与数据科学研究中心, 北京 100190;
    3. 中国科学院大数据挖掘与知识管理重点实验室, 北京 100190;
    4. 中央财经大学管理科学与工程学院, 北京 100081
  • 收稿日期:2017-03-27 出版日期:2019-06-28 发布日期:2019-07-08
  • 通讯作者: 齐志泉(通讯作者),中国科学院大学经济与管理学院,中国科学院虚拟经济与数据科学研究中心副研究员,硕士生导师,博士。
  • 作者简介:石勇,中国科学院大数据挖掘与知识管理重点实验室主任,中国科学院虚拟经济与数据科学研究中心主任,教授,博士生导师,博士;孟凡,中央财经大学管理科学与工程学院讲师,博士。
  • 基金资助:

    国家自然科学基金重大研究计划(91546201);国家自然科学基金青年项目(61402429;61702099;71801232)。

Learning with Proportions Based on LapESVR

Shi Yong1,2,3, Meng Fan1,4, Qi Zhiquan1,2,3   

  1. 1. School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100190;
    2. Research Center on Fictitious Economy & Data Science, Chinese Academy of Sciences, Beijing 100190;
    3. Key Laboratory of Big Data Mining and Knowledge Management, Chinese Academy of Sciences, Beijing 100049;
    4. School of Management Science and Engineering, Central University of Finance and Economics, Beijing 100081
  • Received:2017-03-27 Online:2019-06-28 Published:2019-07-08

摘要:

大数据时代,在实际应用中所面临的数据体量大幅增长,由于对数据进行详细标记的难度很大而且成本极高,弱标签数据已经成为了大数据时代所面临的主要数据。比例标签数据作为弱标签数据中的一个重要类型,有着广阔的应用场景,但目前仍未受到广泛关注。已有的比例标签学习模型在处理大规模问题时,计算速度往往较慢。为了提高学习速度,本文提出Lap-InvCal模型,利用LapESVR进行比例标签学习。大量实验表明,该模型在保证较高精度的同时,大幅提升了训练速度,能够广泛应用于大规模比例标签学习问题中。

关键词: 比例标签学习, LLP, 流形学习, Lap-InvCal, LapESVR

Abstract:

In big data era, data volume has experienced a significant increase and it is nearly impossible to label all the collected data samples. As a result, weakly labeled data has become dominant in real world applications. Data labeled with class proportions is one of the most important categories in weakly labeled data, which has wide application scenarios but attracts little attention. Existing methods for Learning with Label Proportion Problem (LLP) usually have high complexity and are not efficient to solve large scale problems. In this paper, motivated by LapESVR and InvCal, we propose a novel LLP model named Lap-InvCal, which incorporates the idea of manifold learning into LLP. Extensive experiments demonstrate the high accuracy and speed of Lap-InvCal, indicating the promising potential of Lap-InvCal in handling big data.

Key words: Leaning with Label Proportions, Manifold Learning, Lap-InvCal, LapE