1.毕业设计题目是(选用决策树算法的数据挖掘实例分析与设计)
应用遗传算法和决策树算法在数据挖掘中的比较 贾修一 MG0533024 (南京大学 计算机科学与技术系, 江苏省南京市 210093) A Comparision between the Genetic Algorithms and Decision Tree For Data Mining Abstract: This chapter introduces the application with the genetic algorithms and ID3 for the data mining, choose the better algorithm to classifier the given data sets through.the comparision between the two algorithms. And analyzing the results of the experiment as well as reasons. Key words: genetic algrithms; data ming; decision Tree 摘 要: 对训练数据分别采用遗传算法和决策树算法进行数据挖掘,通过比较两者实验得出的结果,来选择更适合本数据集的算法进行分类,并分析实验结果及原因. 关键词: 遗传算法;数据挖掘;决策树算法 1. 数据的描述 数据属性有139351维,每个属性的取值为0或1,分类标识只有两类:A和I.数据的维数太高,在数据预处理阶段最好做属性的约简,进行降维的处理. (1)数据维数太高,易造成一定的维数灾难,使得分类挖掘时间过长. (2)数据庞大,肯定有些噪音数据. 2.算法的设计 为了提高最后分类的精确度,特设计了两种方法进行比较,从中选出一种精确度高的方法.第一种是根据数据的特点,每个属性只取值0和1,所以进行属性约简的时候采用遗传算法.遗传算法的优点是可以对大规模的数据进行一定的属性约简. 2.1 遗传算法描述: (1) 遗传算法的步骤是编码,选择,交叉,变异.通过模仿自然界中的遗传进化原理,来对数据进行处理.而遗传算法的好坏取决于适应度函数的选择,进化的次数,和交叉变异的合理性和概率性等,所以要想设计一个合适的遗传算法必须经过大量的实验. (2) 就训练数据而言,对每一维属性的取值,在类标识一定的条件下,取1和取0的概率之间有个绝对值差α1,α2,该差越大,说明该属性的重要程度越高.同时还要考虑对同一维属性,不论最终类标识是什么,取值都相同的话,则该属性可以被认为是无效的属性,对最后的分类没有影响,所以适应度函数取对每一维属性的α1,α2的熵,熵越大,则属性的重要程度就越低. (3) 编码阶段,就把每一位属性做为一个长度为139351的染色体的一个基因,1表示选择该属性,0表示不选择该属性.随机初始化8个种群,按照适应度函数的定义,从中选取4个适应度函数最小的染色体做为父代. (4) 将选出的父代进行交叉操作,因为是降维操作,所以交叉就是取两个染色体之间隔位进行AND(与)操作,变异就是按照一定的概率,在139351维上随机的100位进行非操作,即:0变为1,1变为0.依次又产生4个后代,结合原来的4个父代组成新的8个初始种群.进化50次. 然后利用贝叶斯方法进行分类.得到的是一个弱的学习器h,然后利用AdaBoost方法进行强化学习分类器. 2.2 AdaBoost算法描述: (1) 给定训练集(x1,y1),(x2,y2),…,(xm,ym)m个. (2) yi∈{-1,+1},实例xi∈X的正确标识. (3) for t=1,…,T 2 { 构造{1,…,m}上的分布Dt,找出弱分类器 ht:X->{-1,+1}, 同时在Dt产生很小的错误εt: εt=PrDt[ht(xi)≠yi] } (4)构造 Dt,D1(i)=1/m Dt+1(i)= Dt/Zt*exp(-αt*yi*ht(xi))//(注:yi和ht(xi)只能取值于{-1,+1}) 其中Zt是归一化因子(使Dt+1为分布) αt=1/2*㏑((1-εt)/ εt)>0 (5)输出最终分类器:Hfinal(x)=sign(∑αt*ht(x)). 第二种方法就是直接使用决策树方法(ID3算法)进行分类.求出每一维属性的的信息增益,建立一棵决策树,利用决策树来进行分类. 2.3 决策树算法(ID3) (1)创建节点N; (2)if samples都在同一个类C then { 返回N作为叶结点,以类C标识; } (3)if attribut_list为空 then { 返回N作为叶结点,标记为samples中最普通的类; } (4) 选择attribute_list中具有最高信息增益的属性test_attribute;标记节点N为test_attribute; (5) for each test_attribute中的已知值a 由节点N长出一个条件为test_attribute=a的分枝; (6) 设s是samples中test_attribute=a的样本的集合; (7) if s为空 then 加上一个树叶,标记weisamples中最普通的类; else 加上一个由ID3(s,attribute_list-test_attribute)返回的节点; 3. 实验分析 就第一种方法:通过实验,在进化次数上选取50次,使得维数约简到1500维左右时得到的分类效果最好,但由于种群是随机产生的,所以在未进行boosting强化时正确率在60~85%之间,不是很稳定,但是符合弱分类器的要求,即只要正确率超过50%就行,在进行boosting后,正确率能超过80%,但可能是数据进行约简的不好或进行迭代的次数选取不太合适,正确率却没有ID3的高.就本数据集而言,由于最终标识只有2个,所以比较适合使用遗传算法和Adaboost进行训练.正确率不高主要问题应该在: (1)遗传算法的适应度函数没有选好,不同的编码方式对应不同的适应度函数取法,就本例而言,二进制编码方式应该是可以的,就是在对适应度函数取的时候没有一个合适的数据表示,只好利用了熵的概念,但在实际意义上感觉效果并不是很好.属性约简后正确率不高,这应该是最主要的原因. (2)交叉变异的方式或许有问题,但是不是主要问题,只要适应度函数选好,也就是选择操作正确。
2.如何运用决策树进行决策分析
决策树分析法是通过决策树图形展示临床重要结局,明确思路,比较各种备选方案预期结果进行决策的方法。
决策树分析法通常有6个步骤。 第一步:明确决策问题,确定备选方案。
对要解决的问题应该有清楚的界定,应该列出所有可能的备选方案。 第二步:绘出决策树图形。
决策树用3种不同的符号分别表示决策结、机会结、结局结。决策结用图形符号如方框表示,放在决策树的左端,每个备选方案用从该结引出的]个臂(线条)表示;实施每一个备选方案时都司能发生一系列受机遇控制的机会事件,用图形符号圆圈表示,称为机会结,每一个机会结司以有多个直接结局,例如某种治疗方案有3个结局(治愈、改善、药物毒性致死),则机会结有3个臂。
最终结局用图形符号如小三角形表示,称为结局结,总是放在决策树最右端。从左至右机会结的顺序应该依照事件的时间先后关系而定。
但不管机会结有多少个结局,从每个机会结引出的结局必须是互相排斥的状态,不能互相包容或交叉。 第三步:明确各种结局可能出现的概率。
可以从文献中类似的病人去查找相关的概率,也可以从临床经验进行推测。所有这些概率都要在决策树上标示出来。
在为每一个机会结发出的直接结局臂标记发生概率时,必须注意各概率相加之和必须为1。0。
第四步:对最终结局用适宜的效用值赋值。 效用值是病人对健康状态偏好程度的测量,通常应用0-1的数字表示,一般最好的健康状态为1,死亡为0。
有时可以用寿命年、质量调整寿命年表示。 第五步:计算每一种备远方案的期望值。
计算期望值的方法是从"树尖"开始向"树根"的方向进行计算,将每一个机会结所有的结局效用值与其发生概率分别相乘,其总和为该机会结的期望效用值。 在每一个决策臂中,各机会结的期望效用值分别与其发生概率相乘,其总和为该决策方案的期望效用值,选择期望值最高的备选方案为决策方案。
第六步:应用敏感性试验对决策分析的结论进行测试。敏感分析的目的是测试决策分析结论的真实性。
敏感分析要回答的问题是当概率及结局效用值等在一个合理的范围内变动时,决策分析的结论会不会改变。
3.IDRISI多目标方法本人在写毕业论文关于评价地市用地防灾适宜度 爱问
IDRISI是一个将地理信息系统和图像处理功能完美结合的软件,它所提供的250多个模块能有效地显示、处理和分析各种数字化的空间信息。
纵观目前的空间信息产业领域,恐怕还没有第二种软件能像IDRISI那样,在同一个系统中提供如此齐备、完善的GIS和图像处理工具。 1、使用IDRISI最新开发的土地变化模型(land change modeler)工具,可以模拟和预测土地覆盖的变化,并对造成这些变化的因素和机制进行分析 针对生态可持续性研究而开发的土地变化模型工具,有效集成了以下几方面的功能: (1) 土地覆盖变化评估; (2) 土地覆盖变化预测; (3) 土地覆盖变化对动植物生境和生物多样性影响的生态评估; (4) 生态调节规划 2、使用一套完整的图像处理技术对遥感图像进行处理,包括独具特色的软分类(soft classifier)分类器、神经网络(neural network)分类器以及决策树分析(decision tree analyses)分类器 IDRISI拥有不同凡响的图像分类工具,其中具有自我学习能力的三种神经网络分类器最具特色,它们分别是:多图层识别感知器(multi-layer perceptron),自组织地图(self organizing map),以及基于可适应共鸣理论(Adaptive Resonance Theory, ART)与模糊数学理论的模糊ART地图(fuzzy ART map)。
3、利用边缘切割决策支持(cutting-edge decision support)和不确定性管理(uncertainty management)工具对资源进行分配,并建立适宜性分布图 右图是利用IDRISI所作的研究实例之一:未来海平面上升对越南某沿海水稻产区可能造成的影响。 这一研究的重要内容就是充分考虑了高程数据与海平面上升的不确定性,并将二者紧密结合,从而预测海侵及受淹地区。
左上角那幅图就是基于某一可接受的风险水平所作的洪水分布概率图。在此基础上,利用多准则分析(multi-criteria analysis)模型对洪水发生后人们的重新安置做出预测,并生成一幅土地覆盖的预测图。
IDRISI的最新版本Taiga已于2009年1月在美国发布。该新版本包含了更多和更复杂的时间序列可视化和分析,以及地球趋势模型(Earth Trends Modeler),为当今炙手可热的气候变化课题提供了有效的分析工具。
4.计算机应用专科毕业论文
计算机应用专科毕业论文的建议:
1.计算机毕业设计可不能马虎,最好还是自己动动脑筋,好好的写一写。
2.网上那种免费的毕业设计千万不能采用,要么是论文不完整,要么是程序运行不了,最重要的是到处都是,老师随时都可以知道你是在网上随便下载的一套
3.如果没有时间写,可以在网上找找付费的,我们毕业的时候也是为这个头疼了很长时间,最后在网上找了很久,终于购买了一套毕业设计,还算不错,开题报告+论文+程序+答辩演示都有,主要的都是他们技术做好的成品,保证论文的完整和程序的独立运行,可以先看了作品满意以后再付款,而且同一学校不重复,不存在欺骗的性质,那个网站的名字我记的不是太清楚了,你可以在百度或者GOOGLE上搜索------七七计算机论文网,希望您可以找到
5.毕业论文
一、标题 标题是文章的眉目。
各类文章的标题,样式繁多,但无论是何种形式,总要以全部或不同的侧面体现作者的写作意图、文章的主旨。毕业论文的标题一般分为总标题、副标题、分标题几种。
(一)总标题 总标题是文章总体内容的体现。常见的写法有: ①揭示课题的实质。
这种形式的标题,高度概括全文内容,往往就是文章的中心论点。它具有高度的明确性,便于读者把握全文内容的核心。
诸如此类的标题很多,也很普遍。如《关于经济体制的模式问题》、《经济中心论》、《县级行政机构改革之我见》等。
②提问式。这类标题用设问句的方式,隐去要回答的内容,实际上作者的观点是十分明确的,只不过语意婉转,需要读者加以思考罢了。
这种形式的标题因其观点含蓄,容易激起读者的注意。如《家庭联产承包制就是单干吗?》、《商品经济等同于资本主义经济吗?》等。
②交代内容范围。这种形式的标题,从其本身的角度看,看不出作者所指的观点,只是对文章内容的范围做出限定。
拟定这种标题,一方面是文章的主要论点难以用一句简短的话加以归纳;另一方面,交代文章内容的范围,可引起同仁读者的注意,以求引起共鸣。这种形式的标题也较普遍。
如《试论我国农村的双层经营体制》、《正确处理中央和地方、条条与块块的关系》、《战后西方贸易自由化剖析》等。 ④用判断句式。
这种形式的标题给予全文内容的限定,可伸可缩,具有很大的灵活性。文章研究对象是具体的,面较小,但引申的思想又须有很强的概括性,面较宽。
这种从小处着眼,大处着手的标题,有利于科学思维和科学研究的拓展。如《从乡镇企业的兴起看中国农村的希望之光》、《科技进步与农业经济》、《从“劳动创造了美”看美的本质》等。
⑤用形象化的语句。如《激励人心的管理体制》、《科技史上的曙光》、《普照之光的理论》等。
标题的样式还有多种,作者可以在实践中大胆创新。 (二)副标题和分标题 为了点明论文的研究对象、研究内容、研究目的,对总标题加以补充、解说,有的论文还可以加副标题。
特别是一些商榷性的论文,一般都有一个副标题,如在总标题下方,添上“与**商榷”之类的副标题。 另外,为了强调论文所研究的某个侧重面,也可以加副标题。
如《如何看待现阶段劳动报酬的差别——也谈按劳分配中的资产阶级权利》、《开发蛋白质资源,提高蛋白质利用效率——探讨解决吃饭问题的一种发展战略》等。 设置分标题的主要目的是为了清晰地显示文章的层次。
有的用文字,一般都把本层次的中心内容昭然其上;也有的用数码,仅标明“一、二、三”等的顺序,起承上启下的作用。需要注意的是:无论采用哪种形式,都要紧扣所属层次的内容,以及上文与下文的联系紧密性。
对于标题的要求,概括起来有三点:一要明确。要能够揭示论题范围或论点,使人看了标题便知晓文章的大体轮廓、所论述的主要内容以及作者的写作意图,而不能似是而非,藏头露尾,与读者捉迷藏。
二要简炼。.论文的标题不宜过长,过长了容易使人产生烦琐和累赘的感觉,得不到鲜明的印象,从而影响对文章的总体评价。
标题也不能过于抽象、空洞,标题中不能采用非常用的或生造的词汇,以免使读者一见标题就如堕烟海,百思不得其解,待看完全文后才知标题的哗众取宠之意。三要新颖。
标题和文章的内容、形式一样,应有自己的独特之处。做到既不标新立异,又不落案臼,使之引人入胜,赏心悦目,从而激起读者的阅读兴趣。
二、目录 一般说来,篇幅较长的毕业论文,都没有分标题。设置分标题的论文,因其内容的层次较多,整个理论体系较庞大、复杂,故通常设目录。
设置目录的目的主要是: 1.使读者能够在阅读该论文之前对全文的内容、结构有一个大致的了解,以便读者决定是读还是不读,是精读还是略读等。 2.为读者选读论文中的某个分论点时提供方便。
长篇论文,除中心论点外,还有许多分论点。当读者需要进一步了解某个分论点时,就可以依靠目录而节省时间。
目录一般放置在论文正文的前面,因而是论文的导读图。要使目录真正起到导读图的作用,必须注意: 1.准确。
目录必须与全文的纲目相一致。也就是说,本文的标题、分标题与目录存在着一一对应的关系。
2.清楚无误。目录应逐一标注该行目录在正文中的页码。
标注页码必须清楚无误。 3.完整。
目录既然是论文的导读图,因而必然要求具有完整性。也就是要求文章的各项内容,都应在目录中反映出来,不得遗漏。
目录有两种基本类型: 1.用文字表示的目录。 2.用数码表示的目录。
这种目录较少见。但长篇大论,便于读者阅读,也有采用这种方式的。
三、内容提要 内容提要是全文内容的缩影。在这里,作者以极经济的笔墨,勾画出全文的整体面目;提出主要论点、揭示论文的研究成果、简要叙述全文的框架结构。
内容提要是正文的附属部分,一般放置在论文的篇首。 写作内容提要的目的在于: 1.为了使指导老师在未审阅论文全文时,先对文章的主要内容有个大体上的了解,知道研究所取得的主要成果,研究的主要逻辑顺序。
2.为了使其他读者通过阅读内容提要,就能大略了。
6.电子商务毕业论文有下面两个选题,我该选哪个呢
给的资料和方向还是比较明确的,相对来说是第二个好写一些,所谓的好写是指相对第一个而言,毕竟关于网站平台开发的资料铺天盖地,你可以按照平台开发的步骤进行一步步论述。其实,从交差来看,选第二个。如果要写出一些有见地的东西,从而能学到一些深入的知识,建议选第一个,它的角度、立意和用到的知识能更深入一些,也能开拓一下自己的思维方式和综合归纳能力,特别是保险行业的实际作用具有现实的指导意义。
供参考。
至于选哪个,看你的定位和兴趣了,以及你关注的行业,论文对你今后的择业帮助等。要是我,我选第一个。
7.求轮机毕业论文 5000字
1、论文题目:要求准确、简练、醒目、新颖。
2、目录:目录是论文中主要段落的简表。(短篇论文不必列目录)
3、提要:是文章主要内容的摘录,要求短、精、完整。字数少可几十字,多不超过三百字为宜。
4、关键词或主题词:关键词是从论文的题名、提要和正文中选取出来的,是对表述论文的中心内容有实质意义的词汇。关键词是用作机系统标引论文内容特征的词语,便于信息系统汇集,以供读者检索。 每篇论文一般选取3-8个词汇作为关键词,另起一行,排在“提要”的左下方。
主题词是经过规范化的词,在确定主题词时,要对论文进行主题,依照标引和组配规则转换成主题词表中的规范词语。
5、论文正文:
(1)引言:引言又称前言、序言和导言,用在论文的开头。 引言一般要概括地写出作者意图,说明选题的目的和意义, 并指出论文写作的范围。引言要短小精悍、紧扣主题。
〈2)论文正文:正文是论文的主体,正文应包括论点、论据、论证过程和结论。主体部分包括以下内容:
a.提出-论点;
b.分析问题-论据和论证;
c.解决问题-论证与步骤;
d.结论。
6、一篇论文的参考文献是将论文在和写作中可参考或引证的主要文献资料,列于论文的末尾。参考文献应另起一页,标注方式按《GB7714-87文后参考文献著录规则》进行。
中文:标题--作者--出版物信息(版地、版者、版期):作者--标题--出版物信息所列参考文献的要求是:
(1)所列参考文献应是正式出版物,以便读者考证。
(2)所列举的参考文献要标明序号、著作或文章的标题、作者、出版物信息。
8.计算机专科毕业论文
计算机专科毕业论文(人力资源管理系统)的建议:
1.计算机毕业设计可不能马虎,最好还是自己动动脑筋,好好的写一写。
2.网上那种免费的毕业设计千万不能采用,要么是论文不完整,要么是程序运行不了,最重要的是到处都是,老师随时都可以知道你是在网上随便下载的一套
3.如果没有时间写,可以在网上找找付费的,我们毕业的时候也是为这个头疼了很长时间,最后在网上找了很久,终于购买了一套毕业设计,还算不错,开题报告+论文+程序+答辩演示都有,主要的都是他们技术做好的成品,保证论文的完整和程序的独立运行,可以先看了作品满意以后再付款,而且同一学校不重复,不存在欺骗的性质,那个网站的名字我记的不是太清楚了,你可以在百度或者GOOGLE上搜索------七七计算机论文,希望您可以找到