您当前的位置: fun88乐天堂主页 > 教育新闻 > >

新书推荐 数据挖掘实用案例分析

发布日期:2019-12-07 09:51   点击量:
 来源:fun88乐天堂

  数据挖掘已经广泛应用于各行各业,并催生了数据分析师的兴起。本书结合项目实践,首先对数据挖掘的核心问题进行了总结,并以保险推荐为例说明数据挖掘过程每个步骤需要关注之处。然后,结合香水销售分析,讨论可视化图形的基本应用,这是数据分析的基本功。为增强本书的实用性,提高动手能力,后续章节详细地分析了数据挖掘在银行信用卡、餐饮、商务酒店、制造业、等领域的应用。此外,还介绍了卷积神经网络在音频数据处理的实际应用。全书内容深入浅出,案例生动形象,可以作为高校相关专业数据挖掘、机器学习、商务数据分析等课程的实验教材,也可以供学习数据分析的社会人士参考。

  目前,高校的数据分析类课程(数据挖掘、机器学习、大数据分析等)教学方式大多以“知识点”为核心组织教学,学生主要以学习知识为主,工程应用实践机会较少。教师将所要教授的知识点在课堂上讲述,课后再以作业、课程实验、课程设计等形式帮助学生深入理解课堂上所学的知识。尽管为提高教学效果,目前许多高校尝试了MOOC课程、翻转课堂、移动课堂、同伴学习和SPOC等教学方法的,但总体上来说,对于应用性较强的课程教学还存在改进的空间,尤其是对学生的动手实践能力要求较高的数据分析类课程。现有的教学方法在传授理论知识时,缺少实际应用环节的支持,学生缺少在实际应用的背景下充分理解所学知识的机会,难以培养学生应用专业知识分析解决问题的技能和创新思维能力。

  数据分析的方法是科学,但这些方法的选择和应用过程因问题而异,带有很强的艺术性。在现有专业课程教学模式下,学生仅仅了解需要学习基本的理论知识,缺少实践动手经历,难以获得这些知识的应用技巧,很少接触与企业实际项目相关的内容,因此学生的应用能力较弱,与企业实际的需求之间有很大的脱节。例如在数据分析课程中,一般的教学方式是教师将具体数据分析方法教授给学生,学生能够理解算法或方法的内容,但难以解决实际项目中应用具体算法碰到的问题。目前亟待克服数据分析类课程教学脱离企业所需能力的培养疼点,在课程中学习的知识基础上,解决实际问题,引导学生解决数据分析实际问题的必要技能和思维方法。

  实际上,数据分析绝大部分的教材和书籍还基本停留在基本理论和方法的介绍,实验部分的内容比较简单或者缺失,实际应用的内容不足。还有些实战性的书籍没有按照教材的方式编写,案例也比较粗略,数据分析过程中的一些技能解释肤浅。有关实际项目中数据分析过程思的分析以及难点解析对教学,尤其实验或案例教学非常重要。最近几年,作者与多家企业合作,在数据分析领域辛苦耕耘,亲自参与了多个实际数据分析项目,熟悉数据分析过程的酸甜苦辣,希望通过本教材弥补国内数据分析实用教材的不足,也希望本教材的出版将会改善国内数据分析类课程教学资料短缺的不足。

  学习数据分析的最好方法就是做中学,使用实际数据解决实际问题,而不是单纯学习技术。实际上,有效的数据分析需要对业务进行深入的理解,在此基础上形成有效的分析思,并通过实验反复比较,才能真正解决客户的问题。在数据时代,现实应用中往往不乏数据。从生活中的小数据、简单问题开始,做各种假设,探索其中的规律。不断尝试常用的分析语言、工具和技术,在应用中不断学习新的知识,弥补课堂教学的不足。尤其是体会数据分析过程中书本上难得看到的分析技巧,并在应用中举一反三。如此反复,随着分析问题的深入,不断提高分析能力,体会数据分析的艰辛和解决客户问题的快乐。

  本教材不局限于数据分析基本理论和基本方法的介绍,而是立足实际应用,突出实际数据分析项目中的思,以及数据分析中的难点。但希望读者具有一定的统计学、机器学习(数据挖掘)、数据科学以及必要的相关专业知识。也不追求过多的案例堆积,希望读者能理解数据分析的思,举一反三。这些内容是作者多年项目实践和教学的总结,其中的分析思只有参与实际的项目才能体验到数据分析的难点和艺术性,这是目前教学过程中培养学生工程性思维的重要问题,也是真正提高学生创新能力和动手能力的手段。这些内容是数据分析的基础,也是从事大数据分析必要掌握的知识和技能。有关数据挖掘常用算法的介绍,读者可以作者已经出版的教材《商务智能(第四版)》(大学出版社,2016年)或其他专业书籍。

  第一章从数据分析的流程出发,讨论了在数据分析各个阶段需要做的工作以及经常遇到的主要问题,尤其是数据挖掘算法使用时容易遇到的难题。数据挖掘过程有一定的标准,但是针对具体的业务需求,如何设计合理、有效的数据分析流程,需要有一定的经验和技巧,数据的预处理、算法的选择等主要步骤都充分体现了数据挖掘的艺术性。

  第二章以保险产品推荐项目为例,突出了数据挖掘选择合适的算法并非很简单的事情,需要在理解分析问题以及对多种算法熟悉的基础上,通过实验对初选的几种算法进行比较、调优,才能选择对解决问题效果比较好的算法。

  第三章介绍了分析常用的可视化图形,这是数据分析的基本功。这些图形可以帮助数据分析师探索数据,找出数据中存在的问题以及基本规律。

  第四章介绍了IBM SPSS Modeler 18数据挖掘工具的常用组件。在学习数据分析的不同阶段,根据学习者的基础、问题的分析难度等,可以选择不同的工具或平台。尽管分析工具并不是数据挖掘最重要的事情,但学习成本低、功能强大的分析工具对于问题的解决也是不可少。对于编程基础有限的数据分析师,可以选择类似IBM SPSS Modeler 18的挖掘工具或TensorFlow等开源工具。尽管如此,对于有一定的数据分析基础的读者,我还推荐学习Python、R等针对数据分析的语言,这些语言比较灵活,功能也十分强大。

  第五章对香水的销售数据进行分析,讨论受欢迎的香水以及特点,并找出影响香水销售的主要因素,为香水的营销提供依据。

  第六章对银行的客户信用记录、申请客户信息、拖欠历史记录、消费历史记录等人口属性、交易数据等进行综合分析,讨论用户银行信用卡拖欠和欺诈行为特征,为银行推广信用卡以及风险管理提供依据。

  第七章从大众点评网抓取火锅店海底捞的菜品介绍以及客户评论数据,以客户为中心,分析客户对火锅的偏好,为火锅店的选址、菜品的选择和设计以及火锅店的竞争力都提供了参考。

  第八章以携程网上某商务酒店的客户评分、评论数据为基础,通过情感分析,分析了客户对商务旅馆的偏好,并了解客户的消费行为,比较多家商务旅馆的竞争优劣势,为商务旅馆改进经营提供了参考。

  第九章在某耐热导线年的质量管理数据的基础上,分析了这些数据存在的问题,探索耐热导线的加工流程中几个工序之间半成品或成品质量指标应的关系,提高最终产品的合格率。

  第十章利用人口数据和违法员行为特点的数据,建立风险评分模型,实现对高危人群的特征分析,识别具有违法犯罪可疑或可能的高危人员。

  第十一章讨论深度学习在音频处理领域的应用,介绍了常用的深度神经网络模型,重点分析卷积神经网络在音频质量进行评价的应用。

  数据挖掘是一个多学科交叉的领域,本书通过少数实际的具体案例,阐述数据分析项目分析的过程以及一些要点,可作为普通高等学校数据挖掘、商务数据分析、商务智能等课程的案例和实验指导材料。也可供有志于数据分析师的读者参考。由于作者水平有限,书中难免之处,希望读者不吝指出。

(责编:fun88乐天堂网)