毕业论文数据挖掘方向(数据挖掘方面还有什么研究方向吗)

1.数据挖掘方面还有什么研究方向吗

数据挖掘领域主要包括以下方面:基础理论研究(规则和模式挖掘、分类、聚类、话题学习、时间空间数据挖掘、机器学习方法,监督、非监督、半监督等)、社交网络分析和大规模图挖掘(图模式挖掘、社区发现、网络聚类系数估计、网络关系挖掘、网络用户行为分析、网络信息传播、社交网络应用,社交推荐(信息、好友等))、大数据挖掘(算法的并行、分布式扩展、多源异构数据融合挖掘等)。数据挖掘应用(医疗、教育、金融等)。研究热点是大数据挖掘、社交网络和大规模图挖掘。

下面,在说一下什么是大数据挖掘,它跟传统的方法其本质区别是什么?大数据挖掘可以分为三点:算法的扩展、分布式框架开发、多源数据融合分析。通过阅读KDD'13,KDD'14,几篇KDD'15的big data session中的文章,几乎百分之百的文章都提到了算法的scalability。由此可见,现今大数据挖掘与传统算法的本质区别在于算法的可扩展性。换句话说,现在研究的算法在不仅仅能处理小规模数据集,当数据增加时也具有较大范围内的适合。算法的扩展,我理解为两个方面:scale out-纵向扩展以及scale up-横向扩展。纵向扩展最要在算法底层、良好的数据结构设计或者并行设计方面。横向扩展主要指算法的分布式技术实现(自己编写分布式算法或者基于现有分布式框架实现)。这里所说的“大数据”,在不同的挖掘领域(文本、图结构、机器学习、图像)所对应的数据量是不同的。对文本来说,几百万个样本可能就是“大数据”;对机器学习来说,千万个样本,几十维、几百维(MB/GB)就是“大数据”;对大规模图挖掘来说,千万级节点、亿级边(GB),也是“大数据”;对图像数据,百万级图像(TB)完全可以称得上“大数据”。那么,要做算法的可扩展性是不是必须用到并行技术、分布式编程技术?答案是一般需要,但并不绝对。算法如果做到了极致,单台计算机也能处理“大数据”问题,比如:TurboGraph: A Fast Parallel Graph Engine Handing Billion-Scale Graphs in a Single PC. 文章仅仅在一台计算机上利用线程并行(多核)实现了计算机集群完成的工作。有些文章是用MATLAB来完成的实验(Comparing apples to oranges: a scalable solution with heterogeneous hashing、Fast Flux Discrimination for Large-Scale Sparse Nonlinear Classification、Online Chinese Restaurant Process)、有些文章是利用hadoop集群来完成实验、有些是利用C/JAVA语言编写分布式程序实现、有些是利用多核CPU的多线程并行实现。可见,算法的实现方式不重要,重要的是算法具有scalability。多源数据融合以及挖掘分析也可以称得上大数据挖掘,可能不见得数据集有非常大,但是通过多种数据的融合发现了之前完成不了的事情、或者之前完成效果不好的事情。比如:heterogeneous hashing文章用了两个异构数据集(text、image)进行relation-aware分析。特别是微软亚洲研究院在KDD'13 上的U-Air: When Urban Air Quality Inference Meets Big Data,这篇文章就是融合了5个数据集(气象数据、空气质量数据、POI数据、路网数据、轨迹数据),利用传统的数据挖掘方法进行了融合分析,得到了较好的效果并进行了商业应用。附注:个人认为算法也应该考虑扩展性,在面临数据集增加时,看看是否还会能达到高效地预测结果。

总结:在大数据研究中,更多的是偏理论算法的研究。可以这样说,数据挖掘本身就是跟数据打交道,在特定情况下(数据集较大时或不断增加时),数据挖掘的任何一个研究点都可能会遇到“大数据”问题。所以,真正需要做的是找准一个问题,利用传统方法进行挖掘,并测试在大规模数据集下传统算法是否可行,如果不可行,提出算法的改进版或者自己动手实现一个新的、具有可扩展性的算法,这就是大数据研究的过程(也包括异构数据融合分析)。

基于数据挖掘的毕业论文,数据挖掘毕业论文选题,数据挖掘方面毕业论文简单

2.数据挖掘哪个方向更有前景

在国外很好

在国内,还处于起步阶段,真正的数据挖掘运用还比较少,找工作也不是很容易,学这个方向的,基本上出来是做数据处理、数据分析,或是有些干脆做软件开发师。

不过有兴趣的话,这也是不错的方向,毕竟,再过上十来年,应该都能发展得起来的。应该说现状艰辛,但前途还是光明的。

如果找数据挖掘的工作,地点也很重要,国内发展比较好的城市是北京和上海,广东也有少数。一般来说,比较大型的企才有投有数据挖掘工程师这个职位,其它企业如果需要,都是外包给专门的数据挖掘公司来做的。

比较能用得上数据挖掘的行业是大型网站、银行、医院,针对网站,一般要学习WEB挖掘,挺有前途,大型网站公司也会招这个职位。银行的数据挖掘也用得广,但它一般包给专业公司来做,有个方向叫商业智能,简称BI,觉得挺有前途的。应该是数据挖掘中以后会很热的行业

毕业论文数据挖掘方向

转载请注明出处众文网 » 毕业论文数据挖掘方向(数据挖掘方面还有什么研究方向吗)

资讯

已经毕业的论文查重(毕业论文的查重规律是什么)

阅读(85)

本文主要为您介绍已经毕业的论文查重,内容包括我是一名本科毕业生,已经毕业离校了,那么我的论文还会查重吗?,毕业论文写完了,一般要怎么进行检测查重的?,本科毕业论文在知网怎么查重?。毕业论文的查重规律:论文的段落与格式论文检测基本都是

资讯

定中结构的毕业论文评语(毕业论文的评语怎么写?)

阅读(74)

本文主要为您介绍定中结构的毕业论文评语,内容包括毕业论文的评语怎么写?,毕业论文的评语怎么写?,论文定稿意见怎么写。论文选题符合专业培养目标,能够达到综合训练目标,题目有较高难度,工作量大。选题具有较高的学术研究(参考)价值(较大的实践指

资讯

毕业论文网页设计的摘要(网页设计论文摘要)

阅读(93)

本文主要为您介绍毕业论文网页设计的摘要,内容包括网页设计论文摘要,网页设计摘要怎么写?,毕业设计的摘要怎么写啊???。原发布者:pwstrick流式布局百分号计算目标元素宽度÷上下文元素宽度=百分比宽度二、em计算浏览器的默认字体大小是16px2

资讯

虚拟机网站的毕业论文(毕业论文:linux系统的web服务器架设)

阅读(89)

本文主要为您介绍虚拟机网站的毕业论文,内容包括毕业论文虚拟化技术在企业网中的运用,在虚拟机上安装windows建立个人博客的论文的引言怎么写?,毕业论文:linux系统的web服务器架设。LINUX系统中常见的有:CERN、NCSA、Apache三种方式,一般最常

资讯

计科系毕业论文名称(计算机科学与技术专业毕业论文题目?)

阅读(104)

本文主要为您介绍计科系毕业论文名称,内容包括计算机科学与技术专业毕业论文题目?,计算机论文怎么写,计算机程序设计毕业论文。计算机科学与技术专业毕业论文题目题目:防火墙技术的研究题目:考试题目录入系统题目:培训班学员管理系统题目:网上

资讯

本科毕业论文导师查重吗(成人本科论文查重率不能超过多少?)

阅读(113)

本文主要为您介绍本科毕业论文导师查重吗,内容包括成人本科论文查重率不能超过多少?,论文初稿是先自己查重修改还是交给导师看过之后再查重修改,纸质版论文如何查重。成人本科作为国家承认学历是需要通过论文重复率检测的,只有达标后才能取

资讯

ps的毕业论文的大纲(PS论文提纲怎么写?)

阅读(118)

本文主要为您介绍ps的毕业论文的大纲,内容包括PS论文提纲怎么写?,有关Photoshop的毕业论文应该怎么写?,关于PS的毕业论文怎么写啊、、谢谢啊。毕业论文是教学科研过程的一个环节,也是学业成绩考核和评定的一种重要方式。毕业论文的目的在于

资讯

幼儿毕业论文参考文献(幼儿园论文参考文献有哪些)

阅读(116)

本文主要为您介绍幼儿毕业论文参考文献,内容包括幼儿园论文参考文献,有关于幼儿论文有什么参考文献,有关于幼儿论文有什么参考文献。[1].幼儿园教学活动设计反思的三维框架及其应用.《教育探索》.被北京大学《中文核心期刊要目总览》收录PK

资讯

毕业论文知网查重免费(有没有免费的论文查重软件?)

阅读(101)

本文主要为您介绍毕业论文知网查重免费,内容包括学术家和知网论文查重都可以免费查重吗?,中国知网论文检测查重系统有免费的入口吗,有没有免费的论文查重软件?。在做毕业论文技术专业的重复率检验以前,许多高等院校的大学毕业生都等候着一个

资讯

已经毕业的论文查重(毕业论文的查重规律是什么)

阅读(85)

本文主要为您介绍已经毕业的论文查重,内容包括我是一名本科毕业生,已经毕业离校了,那么我的论文还会查重吗?,毕业论文写完了,一般要怎么进行检测查重的?,本科毕业论文在知网怎么查重?。毕业论文的查重规律:论文的段落与格式论文检测基本都是

资讯

定中结构的毕业论文评语(毕业论文的评语怎么写?)

阅读(74)

本文主要为您介绍定中结构的毕业论文评语,内容包括毕业论文的评语怎么写?,毕业论文的评语怎么写?,论文定稿意见怎么写。论文选题符合专业培养目标,能够达到综合训练目标,题目有较高难度,工作量大。选题具有较高的学术研究(参考)价值(较大的实践指