-
浙江大学国际校区大数据科学国际研究中心
2023-06-08浙江大学国际校区大数据科学国际研究中心为适应对大数据创新理论方法以及高层次人才培养的目标,发挥国际校区和数据科学研究中心的学科融合整体优势,浙江大学国际校区大数据科学国际研究中心于2023年6月2日成立,国际研究中心将依据国家重大需求,面向国际前沿,充分利用学科综合优势,成立商业大数据、医疗大数据和工业大数据三个交叉研究创新平台,并且设立大数据教育与教学平台。研究中心的核心目标:成长为国际大数据交叉研究的创新者和引领者,培养具有高度竞争力和创新能力的交叉复合型人才,为浙江省和国家发展数字经济提供有力支撑。揭牌仪式现场(左起:贲圣林、孙文光、蔡天文、林正炎、何莲珍、屈利娟、黄春华)
-
【ZJU-CDS Short Courses (2023 Summer)】Selected Topics in Causal Inference
2023-06-06在大数据时代,观察性研究(observational studies)已经成为科学研究中推断因果关系的重要数据来源。观察性数据中往往存在未观测混杂因素(unmeasured confounder)和缺失数据,这会导致因果推断的偏差和决策的错误。工具变量方法是调整未观测混杂因素的最为有效的方法之一,被广泛用于经济、金融、医学和生物研究。然而,工具变量的有效性无法从观测数据验证,基于工具变量的因果推断经常受到质疑。本次短期课程将回顾观察性研究的几个基础方法,并介绍新的有效工具变量方法、代理推断、非随机缺失数据分析方法,及其在生物医学、流行病学和社会经济中的应用案例。主讲人:郭子剑,副教授,Rutgers University苗旺,助理教授,北京大学时间:6月24日至6月27日,9:00-12:00,共四次课,地点:浙江大学数据科学研究中心,行政楼1417本次短期课程计划从以下方面讨论有关观察性研究的因果推断:第一部分:因果推断基础,工具变量,弱和无效工具变量1.因果推断的基础:从potential outcome 和 structural equation model 介绍 unmeasured confounder bias 以及其影响。2.工具变量的基础:工具变量的假设以及two stage least square estimator,control function。 (Chapter 5 of 【1】 and 【2】)3.弱工具变量(weak instrumental variable)的统计推断【3】:concentration parameters,Anderson-Rubin test, Conditional Likelihood Ratio test。4.在存在无效工具变量(invalid instrumental variable)时进行有效推断【4】5.工具变量选择导致的post-selection inference 及其解决办法【5】6.高维内生变量相关的统计推断【6】7.机器学习方法在观察性研究下的有效使用【7】8.工具变量方法在经济学和医学中(包括但不限于孟德尔随机化)的具体应用以及软件使用【8,9】第二部分:代理推断,合成对照和缺失数据分析1.完全观测的混杂因素的调整2. 重差法与合成对照 [10]3. 代理推断 [11-13]4. 基于代理推断的合成对照、阴性测试设计[14-15]5. 非随机缺失数据的识别性和双稳健推断[16-18]References[1] Wooldridge, J. M. (2010). Econometric analysis of cross section and panel data. MIT press.[2] Guo, Z., and Small, D. S. (2016). Control function instrumental variable estimation of nonlinear causal effect models. Journal of Machine Learning Research, 17(100), 1-35.[3] Stock, J. H., Wright, J. H., & Yogo, M. (2002). A Survey of Weak Instruments and Weak Identification in Generalized Method of Moments. Journal of Business & Economic Statistics, 20(4), 518-529.[4] Guo, Z., Kang, H., Cai, T. T., and Small, D. S. (2018). Confidence Interval for Causal Effects with Invalid Instruments using Two-Stage Hard Thresholding. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 80(4), 793-815.[5] Guo, Z. (2021). Causal Inference with Invalid Instruments: Post-selection Problems and A Solution Using Searching and Sampling. Journal of the Royal Statistical Society: Series B (Statistical Methodology), to appear.[6] Guo, Z., Cevid, D., and Buhlmann, P. (2022). Doubly Debiased Lasso: High-Dimensional Inference under Hidden Confounding. Annals of Statistics, 50 (3), 1320 - 1347.[7] Guo, Z. and Buhlmann, P. (2022). Causal Inference with Invalid Instruments: Exploring Nonlinear Treatment Models with Machine Learning. arXiv preprint arXiv:2203.12808.[8] Yao, M., Guo, Z., and Liu, Z. (2023). Selecting Valid Genetic Instruments and Constructing Robust Confidence Intervals for Two-sample Mendelian Randomization Using Genome-wide Summary Statistics. medRxiv, 2023.02. 20.23286200.[9] Koo, T., Lee, Y., Small, D. S., and Guo, Z. (2023). RobustIV and controlfunctionIV: Causal Inference for Linear and Nonlinear Models with Invalid Instrumental Variables. arXiv preprint arXiv:2301.04412.[10] Abadie, A., Diamond, A., and Hainmueller, J. (2010). Synthetic Control Meth- ods for Comparative Case Studies: Estimating the Effect of California’s To- bacco Control Program. Journal of the American Statistical Association, 105(490):493–505.[11] Miao, W., Z. Geng, and E. Tchetgen Tchetgen (2018). Identifying causal effects with proxy variables of an unmeasured confounder. Biometrika 105, 987–993[12] Shi, X., W. Miao, J. C. Nelson, and E. Tchetgen Tchetgen (2020). Multiply robust causal inference with double negative control adjustment for categorical unmeasured confounding. Journal of the Royal Statistical Society: Series B 82, 521–540[13] Cui, Y., H. Pu, X. Shi, W. Miao, and E. Tchetgen Tchetgen (2023). Semiparametric proximal causal inference. Journal of the American Statistical Association,[14] Li, K. Q., X. Shi, W. Miao, and E. Tchetgen Tchetgen (2023). Double negative control inference in test-negative design studies of vaccine effectiveness. Journal of the American Statistical Association[15] Shi, X., W. Miao, M. Hu, and E. Tchetgen Tchetgen (2022). Theory for identification and Inference with Synthetic Controls: A Proximal Causal Inference Framework.[16] Miao, W., P. Ding, and Z. Geng (2016). Identifiability of normal and normal mixture models with nonignorable missing data. Journal of the American Statistical Association 111, 1673–1683[17] Miao, W. and E. Tchetgen Tchetgen (2016). On varieties of doubly robust estimators under missingness not at random with a shadow variable. Biometrika 103, 475–482[18] Miao, W., X. Li, and B. Sun (2022). A stableness of resistance model for nonresponse adjustment with callback.
-
【内网】【ZJU-CDS Short Courses (2023 Summer)】Selected Topics in Causal Inference
2023-06-06在大数据时代,观察性研究(observational studies)已经成为科学研究中推断因果关系的重要数据来源。观察性数据中往往存在未观测混杂因素(unmeasured confounder)和缺失数据,这会导致因果推断的偏差和决策的错误。工具变量方法是调整未观测混杂因素的最为有效的方法之一,被广泛用于经济、金融、医学和生物研究。然而,工具变量的有效性无法从观测数据验证,基于工具变量的因果推断经常受到质疑。本次短期课程将回顾观察性研究的几个基础方法,并介绍新的有效工具变量方法、代理推断、非随机缺失数据分析方法,及其在生物医学、流行病学和社会经济中的应用案例。主讲人:郭子剑,副教授,Rutgers University苗旺,助理教授,北京大学时间:6月24日至6月27日,9:00-12:00,共四次课,地点:浙江大学数据科学研究中心,行政楼1417本次短期课程计划从以下方面讨论有关观察性研究的因果推断:第一部分:因果推断基础,工具变量,弱和无效工具变量1.因果推断的基础:从potential outcome 和 structural equation model 介绍 unmeasured confounder bias 以及其影响。2.工具变量的基础:工具变量的假设以及two stage least square estimator,control function。 (Chapter 5 of 【1】 and 【2】)3.弱工具变量(weak instrumental variable)的统计推断【3】:concentration parameters,Anderson-Rubin test, Conditional Likelihood Ratio test。4.在存在无效工具变量(invalid instrumental variable)时进行有效推断【4】5.工具变量选择导致的post-selection inference 及其解决办法【5】6.高维内生变量相关的统计推断【6】7.机器学习方法在观察性研究下的有效使用【7】8.工具变量方法在经济学和医学中(包括但不限于孟德尔随机化)的具体应用以及软件使用【8,9】第二部分:代理推断,合成对照和缺失数据分析1.完全观测的混杂因素的调整2. 重差法与合成对照 [10]3. 代理推断 [11-13]4. 基于代理推断的合成对照、阴性测试设计[14-15]5. 非随机缺失数据的识别性和双稳健推断[16-18]References[1] Wooldridge, J. M. (2010). Econometric analysis of cross section and panel data. MIT press.[2] Guo, Z., and Small, D. S. (2016). Control function instrumental variable estimation of nonlinear causal effect models. Journal of Machine Learning Research, 17(100), 1-35.[3] Stock, J. H., Wright, J. H., & Yogo, M. (2002). A Survey of Weak Instruments and Weak Identification in Generalized Method of Moments. Journal of Business & Economic Statistics, 20(4), 518-529.[4] Guo, Z., Kang, H., Cai, T. T., and Small, D. S. (2018). Confidence Interval for Causal Effects with Invalid Instruments using Two-Stage Hard Thresholding. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 80(4), 793-815.[5] Guo, Z. (2021). Causal Inference with Invalid Instruments: Post-selection Problems and A Solution Using Searching and Sampling. Journal of the Royal Statistical Society: Series B (Statistical Methodology), to appear.[6] Guo, Z., Cevid, D., and Buhlmann, P. (2022). Doubly Debiased Lasso: High-Dimensional Inference under Hidden Confounding. Annals of Statistics, 50 (3), 1320 - 1347.[7] Guo, Z. and Buhlmann, P. (2022). Causal Inference with Invalid Instruments: Exploring Nonlinear Treatment Models with Machine Learning. arXiv preprint arXiv:2203.12808.[8] Yao, M., Guo, Z., and Liu, Z. (2023). Selecting Valid Genetic Instruments and Constructing Robust Confidence Intervals for Two-sample Mendelian Randomization Using Genome-wide Summary Statistics. medRxiv, 2023.02. 20.23286200.[9] Koo, T., Lee, Y., Small, D. S., and Guo, Z. (2023). RobustIV and controlfunctionIV: Causal Inference for Linear and Nonlinear Models with Invalid Instrumental Variables. arXiv preprint arXiv:2301.04412.[10] Abadie, A., Diamond, A., and Hainmueller, J. (2010). Synthetic Control Meth- ods for Comparative Case Studies: Estimating the Effect of California’s To- bacco Control Program. Journal of the American Statistical Association, 105(490):493–505.[11] Miao, W., Z. Geng, and E. Tchetgen Tchetgen (2018). Identifying causal effects with proxy variables of an unmeasured confounder. Biometrika 105, 987–993[12] Shi, X., W. Miao, J. C. Nelson, and E. Tchetgen Tchetgen (2020). Multiply robust causal inference with double negative control adjustment for categorical unmeasured confounding. Journal of the Royal Statistical Society: Series B 82, 521–540[13] Cui, Y., H. Pu, X. Shi, W. Miao, and E. Tchetgen Tchetgen (2023). Semiparametric proximal causal inference. Journal of the American Statistical Association,[14] Li, K. Q., X. Shi, W. Miao, and E. Tchetgen Tchetgen (2023). Double negative control inference in test-negative design studies of vaccine effectiveness. Journal of the American Statistical Association[15] Shi, X., W. Miao, M. Hu, and E. Tchetgen Tchetgen (2022). Theory for identification and Inference with Synthetic Controls: A Proximal Causal Inference Framework.[16] Miao, W., P. Ding, and Z. Geng (2016). Identifiability of normal and normal mixture models with nonignorable missing data. Journal of the American Statistical Association 111, 1673–1683[17] Miao, W. and E. Tchetgen Tchetgen (2016). On varieties of doubly robust estimators under missingness not at random with a shadow variable. Biometrika 103, 475–482[18] Miao, W., X. Li, and B. Sun (2022). A stableness of resistance model for nonresponse adjustment with callback.
-
“浙江大学国际校区大数据科学国际研究中心”正式揭牌
2023-06-056月2日下午,浙江大学数据科学青年学者论坛暨浙江大学国际校区大数据科学国际研究中心揭牌仪式在浙江大学海宁校区举行。为适应对大数据创新理论方法以及高层次人才培养的目标,发挥国际校区和数据科学研究中心的学科融合整体优势,浙江大学数据科学研究中心和浙江大学国际联合学院双方共同筹建了“大数据科学国际研究中心”。浙江大学副校长、国际联合学院(海宁国际校区)党委书记、院长何莲珍、美国宾夕法尼亚大学沃顿商学院Daniel H. Silberberg讲席教授、世界统计学考普斯奖(COPSS Presidents' Award)获得者蔡天文为研究中心揭牌。揭牌仪式现场(左起:贲圣林、孙文光、蔡天文、林正炎、何莲珍、屈利娟、黄春华)浙江大学数据科学研究中心主任、浙江大学求是讲席教授孙文光代表数据科学研究中心在揭牌仪式上致辞,他提到,大数据与人工智能的时代已经到来。数据科学有广泛而巨大的前景,将成为新世纪国际竞争和科技发展的全新动力。国际研究中心将依据国家重大需求,面向国际前沿,充分利用学科综合优势,成立商业大数据、医疗大数据和工业大数据三个交叉研究创新平台,并且设立大数据教育与教学平台。在未来的建设中使中心成长为国际大数据交叉研究的创新者和引领者,培养具有高度竞争力和创新能力的交叉复合型人才,为浙江省和国家发展数字经济提供有力支撑。数据科学研究中心期待与国际校区,特别是与国际商学院展开紧密和深入的合作,取得丰硕成果,为推动我校大数据相关领域的学科发展和人才培养做出重要贡献。孙文光 教授致辞浙江大学国际联合学院(海宁国际校区)党委常务副书记、副院长屈利娟代表浙江大学国际联合学院对“大数据科学国际研究中心”成立表示热烈祝贺。屈利娟 副书记致辞揭牌仪式后,浙江大学数据科学青年学者论坛正式开始。五位学者分享各自领域内的前沿研究成果,获得在场师生的阵阵掌声。李超,浙江大学大数据科学国际研究中心海纳百人计划研究员王一苇,浙江大学国际联合商学院助理教授Andre Python,浙江大学数据科学研究中心研究员、博士生导师周闻宇,浙江大学国际联合商学院助理教授苗晓晔,浙江大学数据科学研究中心百人计划研究员、博士生导师
-
浙江大学数据科学青年学者论坛暨 浙江大学国际校区大数据科学国际研究中心揭牌仪式
2023-06-01 -
2023年浙江大学数据科学研究中心“数据科学与工程”项目优秀大学生夏令营报名通知
2023-05-31浙江大学数据科学研究中心将于2023年7月13日-15日与浙江大学国际联合商学院(ZIBS)联合举办线下“数据科学与工程”项目(海宁国际校区)优秀大学生夏令营。为优秀学子搭建交流平台,增进对浙江大学数据科学研究中心、浙江大学国际联合商学院和数据科学与工程硕士(international Master of Data Science,简称iMDS)项目的了解,共话大数据等前沿热点话题。一、申请资格1.全国优秀院校本科三年级在校学生(2024年6月应届毕业生),预期获得本科所在学校推免资格。本科专业为电子信息、统计学、计算机、数学、经济学等相关专业,或专业为管理学、生命科学、医学等相关专业,并辅修以上专业之一;2.专业排名:综合素质突出,本专业成绩优秀,本科前三年(或前5学期)综合成绩排名原则上在本专业前10%;对有出色学术成果者,学习成绩标准可以适当放宽;3.英语水平要求:英语水平良好,达到英语六级500分及以上,或托福90分,或雅思6.5分及以上(雅思、托福等成绩需在有效期内);4. 身心健康,在校期间无违纪行为、未受过处分。二、申请方式夏令营申请起止时间:6月1日起至6月25日23:59,申请步骤如下: Step 1 填写线上信息汇总表https://docs.qq.com/form/page/DWFFqR3dKSU1aZmpq Step 2 邮件发送申请资料包 将以下文件按顺序扫描汇总成一份PDF文件,文件及邮件命名格式:申请人姓名_IMDS_ZIBS 2023夏令营。同步发送到以下两个邮箱: cds@zju.edu.cn 和 zibs-imds@intl.zju.edu.cn需要打包发送的材料包括:1、附件1.2023年浙江大学国际联合商学院优秀大学生夏令营申请表2、个人简历;3、本科阶段成绩单1份,修读第二学位的学生需同时附第二学位成绩单1份(注明前五个学期总评成绩的专业排名和专业总人数,须由所在院系教务部门盖章);4、在有效期内的英语水平证明材料(雅思、托福、六级等);5、学术成果证明材料(能够体现自身学术水平的代表性学术论文或原创性工作成果;6、专家推荐信1封(学术或行业专家推荐,可选);7、其他证明材料(如各类获奖或资格证书、已发表论文或已录用论文提纲复印件等)。 Step 3 网上系统报名登陆2023年浙江大学夏令营网报入口(https://yjsy.zju.edu.cn/grsinfo/zs/user/login),选择“国际联合学院(海宁校区)-国际联合商学院-数据科学与工程”进行填写相关信息,请注意:系统填报截止到6月25日23:59。特别注意:申请人需同时完成上述三项工作:一是填写信息汇总,二是递交申请材料电子版至指定邮箱,三是完成网上报名。未全部完成上述三项要求者,不予受理。系统填报信息必须与申请材料内容一致,否则视为无效报名。三、审核录取 本次夏令营拟录取营员约拟录取营员30名左右。夏令营组委会将对申请材料进行审核,择优录取,拟录取名单将于6月底在学院官网(https://zibs.zju.edu.cn/)公布,并通过邮件通知。拟录取营员需确认是否参加,逾期未确认视为放弃资格;未入选者将不另行通知。四、夏令营日程具体日程及方案另行公布 五、联系方式联系人:赵老师、苏老师ZIBS电话:0571-8757 2639;数据科学研究中心电话:0571-8820 8268邮箱:zibs-imds@intl.zju.edu.cn和cds@zju.edu.cn导师介绍:http://cds.zju.edu.cn/a/zsxx/2424.html项目介绍:http://cds.zju.edu.cn/a/zsxx/2417.html浙江大学数据科学研究中心2023年5月31日
-
“数据可视化的艺术表现形式” 交叉学科教育课堂
2023-05-23 -
Robust Mallows-type model averaging approach
2023-05-08 -
Statistical properties of deep generative models
2023-04-28 -
各类报销空表下载
2023-04-25 -
Post-selection inference of high-dimensional logistic regression under case-control design
2023-04-24 -
数据科学研究中心讲座钉钉群
2023-04-23 -
Distributed Statistical Inferenceunder Heterogeneity
2023-04-20 -
The Critical 2d Stochastic Heat Flow
2023-04-20