1.急求有关数据挖掘方面的毕业论文题目
寿险行业数据挖掘应用分析 寿险是保险行业的一个重要分支,具有巨大的市场发展空间,因此,随着寿险市场的开放、外资公司的介入,竞争逐步升级,群雄逐鹿已成定局。
如何保持自身的核心竞争力,使自己始终立于不败之地,是每个企业必须面对的问题。信息技术的应用无疑是提高企业竞争力的有效手段之一。
寿险信息系统经过了多年的发展,已逐步成熟完善,并积累了相当数量的数据资源,为数据挖掘提供了坚实的基础,而通过数据挖掘发现知识,并用于科学决策越来越普遍受到寿险公司的重视。 数据挖掘 数据挖掘(Data Mining,DM)是指从大量不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有用的信息和知识的过程。
其表现形式为概念(Concepts)、规则(Rules)、模式(Patterns)等形式。 目前业内已有很多成熟的数据挖掘方法论,为实际应用提供了理想的指导模型。
CRISP-DM(Cross-Industry Standard Process for Data Mining)就是公认的、较有影响的方法论之一。CRISP-DM强调,DM不单是数据的组织或者呈现,也不仅是数据分析和统计建模,而是一个从理解业务需求、寻求解决方案到接受实践检验的完整过程。
CRISP-DM将整个挖掘过程分为以下六个阶段:商业理解(Business Understanding),数据理解(Data Understanding),数据准备(Data Preparation),建模(Modeling),评估(Evaluation)和发布(Deployment)。 商业理解就是对企业运作、业务流程和行业背景的了解;数据理解是对现有企业应用系统的了解;数据准备就是从企业大量数据中取出一个与要探索问题相关的样板数据子集。
建模是根据对业务问题的理解,在数据准备的基础上,选择一种更为实用的挖掘模型,形成挖掘的结论。评估就是在实际中检验挖掘的结论,如果达到了预期的效果,就可将结论发布。
在实际项目中,CRISP-DM模型中的数据理解、数据准备、建模、评估并不是单向运作的,而是一个多次反复、多次调整、不断修订完善的过程。 行业数据挖掘 经过多年的系统运营,寿险公司已积累了相当可观的保单信息、客户信息、交易信息、财务信息等,也出现了超大规模的数据库系统。
同时,数据集中为原有业务水平的提升以及新业务的拓展提供了条件,也为数据挖掘提供了丰厚的土壤。 根据CRISP-DM模型,数据挖掘首先应该做的是对业务的理解、寻找数据挖掘的目标和问题。
这些问题包括:代理人的甄选、欺诈识别以及市场细分等,其中市场细分对企业制定经营战略具有极高的指导意义,它是关系到企业能否生存与发展、企业市场营销战略制定与实现的首要问题。 针对寿险经营的特点,我们可以从不同的角度对客户群体进行分类归纳,从而形成各种客户分布统计,作为管理人员决策的依据。
从寿险产品入手,分析客户对不同险种的偏好程度,指导代理人进行重点推广,是比较容易实现的挖掘思路。由于国内经济发展状况不同,各省差异较大,因此必须限定在一个经济水平相当的区域进行分析数据的采样。
同时,市场波动也是必须要考虑的问题,一个模型从建立到废弃有一个生命周期,周期根据模型的适应性和命中率确定,因此模型需要不断修订。 挖掘系统架构 挖掘系统包括规则生成子系统和应用评估子系统两个部分。
规则生成子系统主要完成根据数据仓库提供的保单历史数据,统计并产生相关规律,并输出相关结果。具体包括数据抽取转换、挖掘数据库建立、建模(其中包括了参数设置)、模型评估、结果发布。
发布的对象是高层决策者,同时将模型提交给应用评估子系统.根据效果每月动态生成新的模型。 应用评估子系统可以理解为生产系统中的挖掘代理程序,根据生成子系统产生的规则按照一定的策略对保单数据进行非类预测。
通过系统的任务计划对生产数据产生评估指标。具体包括核心业务系统数据自动转入数据平台、规则实时评估、评估结果动态显示、实际效果评估。
规则评估子系统根据规则进行检测。经过一段时间的检测,可利用规则生成子系统重新学习,获得新的规则,不断地更新规则库,直到规则库稳定。
目前比较常用的分析指标有: 险种、交费年期、被保人职业、被保人年收入、被保人年龄段、被保人性别、被保人婚姻状况等。 实践中,可结合实际数据状况,对各要素进行适当的取舍,并做不同程度的概括,以形成较为满意的判定树,产生可解释的结论成果。
2.我准备读硕士,方向是数据挖掘
你自己把课题已经弄得很细了。
你是想要一个毕设题目还是想找方向,你说的这些都是计科里的小方向了。再和导师探讨一下。
数据挖掘里边的东西就不少。相当的SEO。
算法,搜索、模式识别等等。物联网里的RFID、EPC、UID、接口,天线、GPS、GPRS、WSN、AVR、ARM、单片机类、天线什么的。
云计算里的海量数据、分布计算、并行计算、普适什么的。
算法改进物联网里的标签识别,读写器与标答的防碰撞里边有算法、云计算里的节点和数据传输有算法。相关协议你也可以设计算法。
数据挖掘里的AP算法、page Rank算法什么的也可改进。具体和讨师讨论。
做小一点。望采纳。
3.求数据挖掘的论文
数据挖掘、OLAP在财务决策中的应用杨春华(杭州商学院财务与会计学院,杭州,310012)[摘要]数据挖掘、OLAP是当前基于大型数据库或数据仓库的新型信息分析技术,在许多领域得到广泛应用,取得了很好的成效。
如何将其应用于财务决策以提高决策的正确性、及时性,降低决策的风险,已成为财务管理领域的重要研究课题。本文在介绍数据挖掘、OLAP技术及其相互关系的基础上,分析了财务决策领域应用这两种技术的现实必要性,并进一步论述了财务决策中数据挖掘和OLAP的应用流程。
[Abstract]In this paper, the author introduced Data Mining and OLAP at first. And then, the author analyzed the practical necessity for the firms to apply these two techniques in the area of financial decision-making. In the end, the author brought forward the flow of the appliance.[关键词]数据挖掘,联机分析处理,财务决策[Key words]Data Mining,OnLine Analysis Process(OLAP),Financial Decision-making正文随着计算机技术和Internet技术的发展,以及企业在以往事务型处理中数据的不断积累,一方面企业数据资源日益丰富,信息超载,另一方面数据资源中蕴涵的知识企业却至今未能得到充分的挖掘和利用,“数据丰富而知识贫乏”是常见现象。如何才能不被信息的汪洋大海所淹没,并能从中及时发现有用的知识,提高信息的利用效率,已成为企业急需面对的一个问题。
正是在这种背景下,数据挖掘、OLAP技术应运而生。这是两种基于大量数据库或数据仓库的新型数据分析技术。
将其应用到财务决策领域则有利于提高决策的正确性、及时性,降低决策的风险。一、数据挖掘与OLAP1.数据挖掘关于数据挖掘,一种较为公认的定义是由G.Piatetsky-Shapiro等人提出的。
他们认为:数据挖掘是从大型数据库中提取人们感兴趣的知识,这些知识是隐含的、事先不知的,潜在有用的信息。数据挖掘涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等各个领域。
它不仅面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。这样一来,就把人们对数据的应用从低层次的末端查询操作,提高到为各级经营决策者提供决策支持。
2.OLAP联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的,它是基于大型数据库或数据仓库的信息分析过程,是大型数据库或数据仓库的用户接口部分,其目的是满足决策支持或多维环境特定的查询和报表要求。简单地讲,OLAP就是共享多维信息的快速分析。
它是跨部门、面向主题的,其基本特点是快速性、可分析性、多维性、信息性和共享性。也就是说,OLAP能快速响应用户的要求,能处理与应用有关的任何逻辑分析和统计分析,能提供多维数据分析的多维视图,能及时获得信息和管理大容量的信息,以及能在大量用户群中共享潜在的数据。
其中“多维性”是其核心灵魂。3.数据挖掘与OLAP数据挖掘和OLAP都是基于大型数据库或数据仓库的数据分析技术,有着一定的联系和区别。
数据挖掘和OLAP最本质的区别在于,数据挖掘是一种挖掘性的分析工具,它主要是利用各种分析方法主动地去挖掘大量数据中蕴涵的规律,产生一些假设,帮助人们在这些假设的基础上更有效地进行决策;而OLAP则是一种求证性的分析工具,一般由用户预先设定一些假设,然后使用OLAP去验证这些假设,提供可以使用户很方便地进行数据分析的手段。但就工具而言,数据挖掘和OLAP这两种分析工具本身又是相辅相成的,且界限正在逐渐模糊。
OLAP的分析结果可以补充到系统知识库中,给数据挖掘提供分析信息并作为数据挖掘的依据;数据挖掘发现的知识可以指导OLAP的分析处理,拓展OLAP分析的深度,以便发现OLAP所不能发现的更为复杂、细致的信息。二、财务决策中应用数据挖掘、OLAP的必要性财务决策是企业决策中最重要的组成部分之一。
任何好的财务决策都需要事实和数字支持。一个财务决策的正确程度取决于所使用的事实和数字的正确程度。
随着竞争的增加,财务决策的时效性也变得越来越重要了。因此,在财务决策领域应用数据挖掘、OLAP是企业现实的需要。
1.有利于提高财务信息的利用能力。解决企业财务决策问题需要询问为中心的数据图解,其以序列导向和多维为特征。
而传统的财务数据查询是一种事务处理(OLTP),它是面向应用,支持日常操作的,对查询得到的数据信息缺乏分析能力,决策者不能够在大量历史数据的支持下对某一主题的相关数据进行多角度的比较、分析,得出科学的分析结果。因此,财务决策问题自身的多维特性驱动了数据挖掘、OLAP在其领域的应用,以提高财务信息的利用能力。
2.有利于解决财务信息的噪音问题。科学财务决策必须以尽可能真实、及时、充分的信息为依据。
这些信息既包括诸如企业目标、企业现状、事物状况等企业的内部资料,又包括诸如客户、供应商等企业的关联。
4.毕业设计题目是(选用决策树算法的数据挖掘实例分析与设计)
应用遗传算法和决策树算法在数据挖掘中的比较 贾修一 MG0533024 (南京大学 计算机科学与技术系, 江苏省南京市 210093) A Comparision between the Genetic Algorithms and Decision Tree For Data Mining Abstract: This chapter introduces the application with the genetic algorithms and ID3 for the data mining, choose the better algorithm to classifier the given data sets through.the comparision between the two algorithms. And analyzing the results of the experiment as well as reasons. Key words: genetic algrithms; data ming; decision Tree 摘 要: 对训练数据分别采用遗传算法和决策树算法进行数据挖掘,通过比较两者实验得出的结果,来选择更适合本数据集的算法进行分类,并分析实验结果及原因. 关键词: 遗传算法;数据挖掘;决策树算法 1. 数据的描述 数据属性有139351维,每个属性的取值为0或1,分类标识只有两类:A和I.数据的维数太高,在数据预处理阶段最好做属性的约简,进行降维的处理. (1)数据维数太高,易造成一定的维数灾难,使得分类挖掘时间过长. (2)数据庞大,肯定有些噪音数据. 2.算法的设计 为了提高最后分类的精确度,特设计了两种方法进行比较,从中选出一种精确度高的方法.第一种是根据数据的特点,每个属性只取值0和1,所以进行属性约简的时候采用遗传算法.遗传算法的优点是可以对大规模的数据进行一定的属性约简. 2.1 遗传算法描述: (1) 遗传算法的步骤是编码,选择,交叉,变异.通过模仿自然界中的遗传进化原理,来对数据进行处理.而遗传算法的好坏取决于适应度函数的选择,进化的次数,和交叉变异的合理性和概率性等,所以要想设计一个合适的遗传算法必须经过大量的实验. (2) 就训练数据而言,对每一维属性的取值,在类标识一定的条件下,取1和取0的概率之间有个绝对值差α1,α2,该差越大,说明该属性的重要程度越高.同时还要考虑对同一维属性,不论最终类标识是什么,取值都相同的话,则该属性可以被认为是无效的属性,对最后的分类没有影响,所以适应度函数取对每一维属性的α1,α2的熵,熵越大,则属性的重要程度就越低. (3) 编码阶段,就把每一位属性做为一个长度为139351的染色体的一个基因,1表示选择该属性,0表示不选择该属性.随机初始化8个种群,按照适应度函数的定义,从中选取4个适应度函数最小的染色体做为父代. (4) 将选出的父代进行交叉操作,因为是降维操作,所以交叉就是取两个染色体之间隔位进行AND(与)操作,变异就是按照一定的概率,在139351维上随机的100位进行非操作,即:0变为1,1变为0.依次又产生4个后代,结合原来的4个父代组成新的8个初始种群.进化50次. 然后利用贝叶斯方法进行分类.得到的是一个弱的学习器h,然后利用AdaBoost方法进行强化学习分类器. 2.2 AdaBoost算法描述: (1) 给定训练集(x1,y1),(x2,y2),…,(xm,ym)m个. (2) yi∈{-1,+1},实例xi∈X的正确标识. (3) for t=1,…,T 2 { 构造{1,…,m}上的分布Dt,找出弱分类器 ht:X->{-1,+1}, 同时在Dt产生很小的错误εt: εt=PrDt[ht(xi)≠yi] } (4)构造 Dt,D1(i)=1/m Dt+1(i)= Dt/Zt*exp(-αt*yi*ht(xi))//(注:yi和ht(xi)只能取值于{-1,+1}) 其中Zt是归一化因子(使Dt+1为分布) αt=1/2*㏑((1-εt)/ εt)>0 (5)输出最终分类器:Hfinal(x)=sign(∑αt*ht(x)). 第二种方法就是直接使用决策树方法(ID3算法)进行分类.求出每一维属性的的信息增益,建立一棵决策树,利用决策树来进行分类. 2.3 决策树算法(ID3) (1)创建节点N; (2)if samples都在同一个类C then { 返回N作为叶结点,以类C标识; } (3)if attribut_list为空 then { 返回N作为叶结点,标记为samples中最普通的类; } (4) 选择attribute_list中具有最高信息增益的属性test_attribute;标记节点N为test_attribute; (5) for each test_attribute中的已知值a 由节点N长出一个条件为test_attribute=a的分枝; (6) 设s是samples中test_attribute=a的样本的集合; (7) if s为空 then 加上一个树叶,标记weisamples中最普通的类; else 加上一个由ID3(s,attribute_list-test_attribute)返回的节点; 3. 实验分析 就第一种方法:通过实验,在进化次数上选取50次,使得维数约简到1500维左右时得到的分类效果最好,但由于种群是随机产生的,所以在未进行boosting强化时正确率在60~85%之间,不是很稳定,但是符合弱分类器的要求,即只要正确率超过50%就行,在进行boosting后,正确率能超过80%,但可能是数据进行约简的不好或进行迭代的次数选取不太合适,正确率却没有ID3的高.就本数据集而言,由于最终标识只有2个,所以比较适合使用遗传算法和Adaboost进行训练.正确率不高主要问题应该在: (1)遗传算法的适应度函数没有选好,不同的编码方式对应不同的适应度函数取法,就本例而言,二进制编码方式应该是可以的,就是在对适应度函数取的时候没有一个合适的数据表示,只好利用了熵的概念,但在实际意义上感觉效果并不是很好.属性约简后正确率不高,这应该是最主要的原因. (2)交叉变异的方式或许有问题,但是不是主要问题,只要适应度函数选好,也就是选择操作正确。
转载请注明出处众文网 » 做数据挖掘研究生毕业论文选题(急求有关数据挖掘方面的毕业论文题目)