科技创新发展战略研究

科技创新发展战略研究 ›› 2020, Vol. 4 ›› Issue (6): 9-19.

• 科技管理创新 • 上一篇    下一篇

面向高新企业审计数据的特征选择算法研究

赖文辉, 朱定局, 贺超, 黄立, 郑泳智, 李英   

  1. 华南师范大学,广东广州 510631
  • 收稿日期:2020-10-12 出版日期:2020-12-25 发布日期:2021-01-11
  • 通讯作者: 朱定局(1978–),男,安徽桐城人,博士,教授,研究方向:人工智能。
  • 作者简介:赖文辉(1995–),男,江西吉安人,硕士,研究方向:大数据和人工智能;贺超(1989–),男,内蒙古呼和浩特人,博士,研究方向:大数据和人工智能;黄立(1996–),男,广西北海人,硕士,研究方向:大数据和人工智能;郑泳智(1996–),男,广东普宁人,硕士,研究方向:大数据和人工智能;李英(1976–),女,广东韶关人,硕士,研究方向:数据挖掘、社交网络分析。
  • 基金资助:
    广东省软科学重大课题“广东实施创新驱动战略提升‘四链'融合发展路径研究”(2017B070704004)

Research on Feature Selection Algorithm for Audit Data of High-new Enterprises

LAI Wen-hui, ZHU Ding-ju, HE Chao, HUANG Li, ZHENG Yong-zhi, LI Ying   

  1. South China Normal University, Guangzhou 510631, China
  • Received:2020-10-12 Online:2020-12-25 Published:2021-01-11

摘要: 在信息技术快速发展的背景下,庞大的数据经常会给数据的存储和计算带来巨大负担。为提高审计工作的效率和质量,结合特征选择算法和大数据处理技术进行审计数据平台的开发。通过使用二阶段特征选择算法模型,在快速相关滤波特征选择算法(FCBF)的基础上进行改进,使用最大互信息系数衡量特征,引入计算弱相关及冗余性的评价准则。系统面向公司审计数据集,通过特征选择后对样本的创新水平进行分析,实现智能分析的效果。

关键词: 大数据, 审计, 二阶段特征选择, 相关性, 冗余性

Abstract: In the context of the rapid development of information technology, huge data often brings great burden to data storage and calculation. In order to improve the efficiency and quality of audit work, this paper combines the feature selection algorithm and the big data processing technology to develop the audit data platform. By using the two-stage feature selection algorithm model which is improved on the basis of the fast correlation filter feature selection algorithm (FCBF), the characteristics are measured by the maximum mutual information coefficient, and the evaluation criteria for calculating weak correlation and redundancy is introduced. The system is oriented towards the company's audit data set, and after the characteristic selection, the innovation level of the sample is analyzed to achieve the effect of intelligent analysis.

Key words: big data, audit, two-stage feature selection, correlation, redundancy

中图分类号: