帮助 关于我们

返回检索结果

非参数局部多项式回归估计的最优子抽样算法
Optimal Subsampling Algorithm for Nonparametric Local Polynomial Regression Estimation

查看参考文献20篇

牛晓阳 1   邹家辉 2  
文摘 随着科学技术的发展,虽然人们提高了收集和处理数据的能力,但仍存在一些大数据集超出了现有计算机的计算能力.目前,抽取一部分样本来替代全样本进行建模计算是减轻计算负担的一种方法.大数据背景下线性模型的子抽样方法已经得到了相对成熟的研究,在减轻计算量方面获得了很大的优势.文章将线性模型下的子抽样方法推广到非参数回归模型,并推导出了基于子样本的加权最小二乘参数估计对全样本加权最小二乘参数估计的收敛速度,以及子样本参数估计的条件渐近正态性.通过最小化渐近方差的准则,提出了非参数局部多项式回归模型下的OPT和PL两种抽样方案,最后在均方误差、计算成本和拟合效果等方面进行数值模拟,比较了OPT子抽样和PL子抽样相对于均匀子抽样和杠杆子抽样的差别,其结果表明于OPT准则和PL准则的子抽样方法在提高估计精确性和减少计算负担方面具有很大优势.
其他语种文摘 In this paper, we extend the subsampling method under the linear model to the nonparametric regression model and propose two subsampling methods for the nonparametric local polynomial regression model. First, we derive the convergence rate of subsampling based weighted least squares parameter estimation to full sample weighted least squares parameter estimation, and the asymptotic normality of the subsample parameter estimation are derived. Then, we use the criterion of minimizing the asymptotic variance, and two subsampling methods of OPT and PL under nonparametric local polynomial regression model are proposed. Finally, numerical simulation of OPT subsampling and PL subsampling, uniform subsampling and Basic Leveraging subsampling are carried out respectively, in terms of mean square error, fitting effect and computational cost. The results show that the subsampling method based on OPT criterion and PL criterion has great advantages in improving estimation accuracy and reducing calculation burden.
来源 系统科学与数学 ,2022,42(1):72-84 【核心库】
关键词 局部多项式回归估计 ; 子抽样 ; 加权最小二乘
地址

1. 仲恺农业工程学院, 广州, 510225  

2. 首都经济贸易大学, 北京, 100070

语种 中文
文献类型 研究性论文
ISSN 1000-0577
学科 数学
基金 首都经济贸易大学北京市属高校基本科研业务费专项资金
文献收藏号 CSCD:7130540

参考文献 共 20 共1页

1.  Wang C. A survey of statistical methods and computing for big data. Technical report,2015 CSCD被引 1    
2.  邱东. 大数据时代对统计学的挑战. 统计研究,2014,31(1):16-22 CSCD被引 8    
3.  李金昌. 大数据与统计新思维. 统计研究,2014,31(1):10-17 CSCD被引 6    
4.  耿直. 大数据时代统计学面临的机遇与挑战. 统计研究,2014,31(1):5-9 CSCD被引 6    
5.  Drineas P. Relative-error CUR matrix decompositions. Siam Journal on Matrix Analysis and Applications,2008,30:844-881 CSCD被引 7    
6.  Mahoney M W. CUR matrix decompositions for improved data analysis. Proceedings of the National Academy of Sciences,2009,106(3):697-702 CSCD被引 12    
7.  Drineas P. Sampling algorithms for regression and applications. Society for Industrial and Applied Mathematics,2006,17:1127-1136 CSCD被引 2    
8.  Drineas P. Faster least squares approximation. Numerische Mathematik,2011,117(2):219-249 CSCD被引 10    
9.  Drineas P. Fast approximation of matrix coherence and statistical leverage. Journal of Machine Learning Research,2012,13(1):3475-3506 CSCD被引 6    
10.  Clarkson K. Low rank approximation and regression in input sparsity time. ACM Symposium on Theory of Computing,2013,45:81-90 CSCD被引 1    
11.  Zhu R. Optimal subsampling approaches for large sample linear regression. Statistics,2015 CSCD被引 1    
12.  Wang H. Optimal subsampling for large sample logistic regression. Journal of the American Statistical Association,2018,113(522):829-844 CSCD被引 14    
13.  Wang H. Optimal subsampling algorithms for big data generalized linear models. Statistica Sinica,2019 CSCD被引 1    
14.  Wang H. Information-based optimal subdata selection for big data linear regression. Journal of the American Statistical Association,2019,114:393-405 CSCD被引 8    
15.  Ai M. Optimal subsampling algorithms for big data regressions. Statistica Sinica,2021,31:749-772 CSCD被引 5    
16.  Yu J. Optimal distributed subsampling for maximum quasi-likelihood estimators with massive data. Journal of the American Statistical Association,2020 CSCD被引 1    
17.  Wang H. Optimal subsampling for quantile regression in big data. Biometrika,2021,108:99-112 CSCD被引 6    
18.  Ai M. Optimal subsampling for large-scale quantile regression. Journal of Complexity CSCD被引 1    
19.  陈光慧. 基于局部多项式回归方法的抽样估计. 统计与决策,2011(4):4-6 CSCD被引 1    
20.  马志华. 基于局部多项式回归的模型校准抽样估计研究. 数理统计与管理,2016,35(1):47-56 CSCD被引 1    
引证文献 2

1 孙龙勇 一种新型抗干扰高压隔离开关的设计 高压电器,2024,60(5):61-69
CSCD被引 0 次

2 熊正榆 异方差大数据下联合均值与方差模型的α-最优子抽样 系统科学与数学,2024,44(7):2146-2172
CSCD被引 0 次

显示所有2篇文献

论文科学数据集
PlumX Metrics
相关文献

 作者相关
 关键词相关
 参考文献相关

版权所有 ©2008 中国科学院文献情报中心 制作维护:中国科学院文献情报中心
地址:北京中关村北四环西路33号 邮政编码:100190 联系电话:(010)82627496 E-mail:cscd@mail.las.ac.cn 京ICP备05002861号-4 | 京公网安备11010802043238号