基于数据挖掘的用户缴费信用风险评估研究

上传人:不分离 文档编号:679473 上传时间:2020-08-24 格式:PDF 页数:62 大小:2.24MB
下载 相关 举报
基于数据挖掘的用户缴费信用风险评估研究_第1页
第1页 / 共62页
基于数据挖掘的用户缴费信用风险评估研究_第2页
第2页 / 共62页
基于数据挖掘的用户缴费信用风险评估研究_第3页
第3页 / 共62页
点击查看更多>>
资源描述

1、工学硕士学位论文 基于数据挖掘的用户缴费信用风险 、 评估研究 硕士研究生 指导教师 学位级别 学科、专业 所在单位 论文提交日期 论文答辩日期 学位授予单位 :李丽 :张国印教授 :工学硕士 :计算机软件与理论 :计算机科学与技术学院 :2 0 10 年1 月 :2 0 10 年3 月 :哈尔滨工程大学 C l a s s i f i e dI n d e x : U D C : AD i s s e r t a t i o nf o rt h eD e g r e eo f M E n g U s e r P a y m e n t C r e d i tR i s kA s s e s

2、s m e n t S t u d yB a s e d o nD a t aM i n i n g C a n d i d a t e :L lL l S u p e r v i s o r :P r o f Z h a n gG u o y i n A c a d e m i cD e g r e eA p p l i e df o r :M a s t e ro fE n g i n e e r i n g S p e c i a l i t y :C o m p u t e rS o f t w a r ea n dT h e o r y D a t eo fS u b m i s s

3、 i o n :D e c e m b e r ,2 0 0 9 D a t eo fO r a lE x a m i n a t i o n :M a r c h ,2 0lO U n i v e r s i t y :H a r b i nE n g i n e e r i n gU n i v e r s i t y 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下, 由作者本人独立完成的。有关观点、方法、数据和文献的引 用己在文中指出,并与参考文献相对应。除文中已注明引用 的内容外,本论文不包含任何其他个人或集体己经公开发表 的作品成果。对本文的研究

4、做出重要贡献的个人和集体,均 己在文中以明确方式标明。本人完全意识到本声明的法律结 果由本人承担。 一一卜 作者( 签字) :冷丽 日期:工口户年苫月罗日 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数 据库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编 本学位论文,可以公布论文的全部内容。同时本人保证毕业后结 合学位论文研究课题再撰写的论文一律注明作者第一署名单位 为哈尔滨

5、工程大学。涉密学位论文待解密后适用本声明。 本论文( 囱在授予学位后即可口在授予学位1 2 个月后口 解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者( 签字) :桶 日期:驯。年;月夕日 哈尔滨T 程大学硕士学伊论文 摘要 随着征信范围的扩大,用户缴费信用问题越来越受到政府和企业的重视。 信用风险评估作为数据挖掘技术的一个新的应用领域尚未成熟,还需要不断 深入地探索和研究。 本文针对银行和证券方面信用风险研究比较成熟而用户缴费信用风险研 究相对落后的情况,展开公共服务领域用户缴费信用风险评估研究。着力解 决系统效率低、复用性差等问题。系统模型主要包括数据挖掘横向通用知识 结构、

6、数据挖掘算法建模推理支撑环境、数据挖掘调度平台、数据挖掘算法 构件库四个部分。系统模型分离数据挖掘算法构件库,并基于挖掘算法的推 理支撑环境研究,获得动态数据挖掘算法建模方案,通过设计挖掘算法路由 配置机制,实现算法动态调度。 数据挖掘算法动态配置的推理支撑环境设计,重点是知识库和推理机设 计。一方面,根据算法方案配置需求设计了数据挖掘算法建模知识表达模型, 基于建模知识基础完成算法路径的推理与解释;另一方面,推理机设计遵循 数据描述约束及任务描述约束,结合相容和相斥运算得出数据挖掘算法的可 行方案集合。 公共服务领域用户缴费信用风险评价系统从运行和应用角度评价其质 量。以电费缴纳业务的数据为

7、例,挖掘用户非信用行为的主要特点,为企业 建立预警机制提供参考。 关键词:数据挖掘;信用模式;B P 神经网络;决策树;公共服务领域 _ 哈尔滨工稗大学硕十学伊论文 A bs t r a c t W i t ht h ei n c r e a s i n ga c c e p t a n c eo fc r e d i t ,t h eq u e s t i o no fc u s t o m e rp a y m e n t c r e d i th a sa l r e a d yb e e np a i da t t e n t i o nt om o r ea n dm o r eb

8、yg o v e r n m e n ta n d c o r p o r a t i o n A san e wa p p l i c a t i o na r e a ,t h es t u d yo fc r e d i tr a t i n g sh a sn o tb e c o m e m a t u r ey e t M a n yo fp r o b l e m sn e e dc o n t i n u e ds t u d y T h es t u d yo fc r e d i tr i s ke v a l u a t i o nm e t h o d si nB a

9、n k i n ga n dS e c u r i t i e s i n d u s t r yh a sb e e nm a t u r e ,b u tt h es t u d yo fc u s t o m e rp a y m e n tc r e d i ti sr e l a t i v e b a c k w a r di n d u s t r y I ns u c hc a s e ,w ec o n d u c t e das t u d yt oc u s t o m e rp a y m e n tc r e d i t r i s ke v a l u a t i

10、o nm e t h o d s T h i sp a p e rd e s i g nd a t am i n i n gm o d e lo fc u s t o m e r p a y m e n tc r e d i tr i s ke v a l u a t i o n , a n da d d r e s st h ep r o b l e m so fl o we f f i c i e n c ya n d p o o rr e u s a b i l i t y A saw h o l e ,t h em o d e lo fd a t am i n i n gs y s t

11、 e m i n c l u d e sf o u rp a r t s : t h el a t e r a lg e n e r a lk n o w l e d g es t r u c t u r eo fd a t am i n i n g ;t h ei n f e r e n t i a lc o n t r o l s u p p o r te n v i r o n m e n to fd a t am i n i n ga l g o r i t h md e p l o y m e n tc o n s t r u c t i o n ;t h e p l a t f o

12、 r mo fd a t am i n i n gm a n a g e m e n t ;t h ec o m p o n e n tl i b r a r i e so fd a t am i n i n g a l g o r i t h m T h ec o m p o n e n tl i b r a r i e s o fd a t a m i n i n ga l g o r i t h m a r e d e s i g n e d i n d e p e n d e n t l y D e p e n d i n go ns t u d yo ft h ei n f e r

13、e n t i a lc o n t r o ls u p p o r te n v i r o n m e n t o fd a t am i n i n ga l g o r i t h md e p l o y m e n tc o n s t r u c t i o n ,w ec a no b t a i nt h ed a t am i n i n g a l g o r i t h md e p l o y m e n tm o d e l T h ep a p e rp r o p o s e s t h em e c h a n i s ma c h i e v ed a t

14、 a m i n i n ga l g o r i t h m r o u t e rc o n f i g u r a t i o nf o rd a t am i n i n ga l g o r i t h md y n a m i c s c h e d u l i n g T h ei n f e r e n t i a lc o n t r o ls u p p o r te n v i r o n m e n to fd a t am i n i n ga l g o r i t h m d e p l o y m e n tc o n s t r u c t i o ni sd

15、 e s i g n e d T h ed e s i g no fk n o w l e d g e b a s ea n di n f e r e n c e e n g i n ei sak e yp r o b l e m O nt h eo n eh a n d ,b a s e do nt h er e q u i r e m e n to fs t u d y i n g d a t am i n i n ga l g o r i t h md e p l o y m e n t ,t h i sp a p e rd e s i g n sd a t am i n i n ga

16、l g o r i t h m c o n f i g u r a t i o nc o n s t r u c t i o nk n o w l e d g ep r e s e n t a t i o nm o d e l ,a n dc o m p l e t e st h e r e a s o n i n ga n di n t e r p r e t a t i o no fd a t am i n i n ga l g o r i t h mp a t h s O nt h eo t h e rh a n d , t h ed e s i g no fi n f e r e n

17、c ee n g i n ef o l l o w st h er e s t r i c t i o no fd a t ad e s c r i p t i o na n dt a s k d e s c r i p t i o n I ta c h i e v e sp r a c t i c a b l ed a t am i n i n gp l a ns e tb ym e a n so fc o m p a t i b l e 一 lL-1 哈尔滨工稗大学硕士学伊论文 a r i t h m e t i ca n dr e p e l l e n ta r i t h m e t

18、 i c C u s t o m e rp a y m e n tc r e d i tr i s ke v a l u a t i o ns y s t e mi np u b l i cs e r v i c ef i e l d a p p r a i s et h eq u a l i t yf r o mp o i n to fv i e wo fo p e r m i o na n da p p l i c a t i o n I t f i n d c u s t o m e rb a dc r e d i tb e h a v i o rp a t t e mb a s eo

19、nt h ec u s t o m e ri n f o r m a t i o no f e l e c t r i c i t yc h a r g e sb u s i n e s s ,i no r d e rt op r o v i d ec o n s u l ta n dr e f e r e n c ef o rb u i l d i n g ac r e d i tw a r n i n gm e c h a n i s mi nc o r p o r a t i o n K e y w o r d s :D a t am i m n g ,c r e d i tp a a

20、e m ,A l g o r i t h mo fB Pn e u r a l n e t w o r k ; S e c i s i o nt r e e ;P u b l i cs e r v i c ef i e l d ; 哈尔滨T 程大学硕十学位论文 目录 第1 章绪论1 1 1 课题研究的目的、意义1 1 2 国内外研究现状2 1 2 1 数据挖掘在信用评估业务应用的国外研究现状2 1 2 2 数据挖掘在信用评估业务应用的国内研究现状3 1 2 3 存在问题和发展趋势5 1 3 论文的主要研究内容5 1 3 1 研究的目标5 1 3 2 研究的方案6 1 3 3 研究的任务6 1

21、4 论文的组织结构8 第2 章基于用户缴费业务的动态数据挖掘9 2 1 用户缴费业务研究9 2 2 领域工程指导下的数据挖掘系统开发9 2 2 1 缴费信用模式挖掘应用分析“1 l 2 2 2 缴费信用模式挖掘领域逻辑模型”1 2 2 2 3 缴费信用模式挖掘领域实现一1 5 2 3 公共服务领域D D M S 模型15 2 3 1 数据挖掘横向通用知识”1 6 2 3 2 挖掘算法建模推理支撑环境1 6 2 3 3 动态挖掘建模控制1 6 2 3 4 数据挖掘算法库17 2 3 5 动态数据挖掘调度控制1 7 2 4 动态数据挖掘机制”1 7 2 4 1D M 算法方案推理建模“l7 2 4

22、 2D M 模型统一管理”19 2 4 3D M 算法库接口设计一2 0 哈尔滨工程大学硕士学位论文 宣i i i i i i i i i i i i 萱i i i i i i i i 宣i i i i i i i i i i 一i i i i i i i i i 宣i i 宣i 宣i i 宣i i i i i i i i i i i 2 5 本章小结“2 l 第3 章数据挖掘算法建模推理支撑环境2 2 3 1 数据挖掘算法建模概述2 2 3 2 数据挖掘建模知识表达一2 2 3 3 知识库设计”2 4 3 3 1K D M A C D 概念层2 5 3 3 2K D M A C D 知识层2

23、 6 3 3 3K D M A C D 规则层2 7 3 3 4 动作层2 9 3 4 推理机设计”2 9 3 5 本章小结”3l 第4 章电费缴纳业务用户信用评价系统3 2 4 1 系统分析一3 2 4 2 集成数据挖掘算法”3 3 4 2 1 基于N e tR e m o t i n g 的算法构件库访问3 3 4 2 2 集成算法3 6 4 3 算法库调度及接口设计3 7 4 3 1 挖掘算法路由配置模块3 8 4 3 2 挖掘算法公共行为设计3 9 4 4 数据挖掘算法路径推理4 0 4 5 系统运行”4 l 4 5 1 神经网络参数设置一4 3 4 5 2 神经网络算法性能测试4 4

24、 4 5 3 数据挖掘模型系统评估4 5 4 5 4 用户信用行为模式解析4 5 4 6 本章小结4 7 结论4 8 参考文献4 9 攻读硕士学位期间发表的论文和取得的科研成果5 3 致谢”5 4 哈尔滨丁稗大学硕士学位论文 第1 章绪论 1 1 课题研究的目的、意义 在现代社会生活中,缴费业务几乎遍布了所有的商业和服务领域,伴随 而来的是日益凸显的费用拖欠问题。为了尽量减少经济损失,企业有必要建 立费用拖欠预警系统。可以利用企业积累的尚处于数据原始状态的海量用户 信息,从不同层次的信息中发现潜在的、有价值的规则,以便管理者和经营 者迅速地做出正确的决策,这要求有效技术和工具的出现来实现海量数

25、据向 有用信息和知识的转换。数据挖掘技术就是从存放在数据库、数据仓库或其 他信息库中的大量数据中挖掘有趣知识的过程 1 】。以数据挖掘技术为基础, 研究用户的缴费信用行为模式,并对用户的信用风险进行评估和预测,从而 有效解决费用拖欠问题,是非常有必要的。 应用数据挖掘技术需重点解决两方面问题。首先,通常人们对各自领域 所从事专业的业务特征非常熟悉,而对其他领域专业知识的了解相对匮乏, 造成不同领域的人在系统开发过程中难以沟通和协作,降低了开发效率和软 件复用率。其次,数据挖掘算法是一个定义完备的过程,它以数据作为输入 并产生模型或模式形式的输出【2 】。通常不同的挖掘任务需要对应不同算法, 无

26、论是决策树、神经网络、关联规则还是聚类都不可能适应所有的领域。因 而往往需要调度及选择各方面的技术,使它们能够协同工作,并统一管理各 个挖掘步骤以及结果,才能共同完成某项挖掘任务。 传统数据挖掘系统强调人工主动参与,循环测试可能有效的挖掘算法, 最终得出相对可行的系统结构,导致了数据挖掘的手工化。传统数据挖掘过 程中数据处理繁琐、算法测试反复等都使得系统开发的周期较长,且在智能 性方面表现不足。因此,克服传统数据挖掘技术应用静态、机械的局限性, 采用注重多种策略和技术的集成,以及多种学科之间的相互渗透的动态挖掘 技术具有广阔的研究和应用前景,势必推动社会生产的高效发展,对经济、 科技等方面的决

27、策具有极大的指导作用。例如,一些数据挖掘技术的成功案 例几度传为业界佳话。加拿大S i m o nF r a s e r 大学K D D 研究组,根据加拿大B C 哈尔滨T 程大学硕士学伊论文 省电话公司要求和其拥有的十多年的客户数据,总结、分析并提出新的电话 收费和管理办法,成功制定既有利于公司又有利于客户的优惠政策;美国著 名国家篮球队N B A 的教练,利用I B M 公司提供的数据挖掘技术,临场决定替 换队员,在竞赛中争取了主动权,都显示了数据挖掘对生产生活的重大意义。 1 2 国内外研究现状 1 2 1 数据挖掘在信用评估业务应用的国外研究现状 国外数据挖掘技术应用领域广泛且发展迅速

28、,尤其是在商业和银行领域 的信用风险和预测方面。目前,研究成果主要集中在股票价格分析与预测, 金融风险分析【3 】【4 1 ,信用卡欺诈分析,气象预报等方面。O d o m 和S h a r d a 5 】使 用基于神经网络技术的数据挖掘方法研究财务危机预警模式,使用A l t m a n 选 取的5 个财务比率分析,选取6 5 家正常公司和6 5 家失败公司做样本,建立了神 经网络预警模型,并与基于统计分析方法的结果进行比较,得出在公司财务 危机的预测率方面神经网络分析方法优于统计分析方法;P a w e n 等研究了网 络用户的聚类与识别问题【6 】;J a e S N Y a n g 应

29、用支持向量机的方法研究银行破产 预警问趔7 1 ,并与其它的几种统计方法模型以及神经网络模型的预测结果进 行了比较,证实了这种方法的有效性等。 国外信用评估研究相对成熟,信用评估的主要方法包括专家系统、判别 分析、回归分析、神经网络、最邻近方法等。信用评估这种在全部客户中区 分好坏客户的想法源自于D a v i dD u r a n d ,他受至l J F i s h e 在1 9 3 6 年的一项实验的 启示,第一个产生了可以用这种方法来区分好与坏贷款申请客户的想法,开 创了信用评估的历史先河。二战以后,人们发现了从统计方法导出的模型在 贷款决策上的有利之处。O r g l e r 幂0 用

30、回归分析设计了一个评价拖欠贷款的分 值卡,由于拖欠贷款用户信息包含消费者行为信息,他发现消费者的行为特 征比申请表特征更能表明贷款的未来质量 引。在2 0 世纪8 0 年代,信用评估在 信用卡领域的成功导致银行开始把信用评估应用于银行的其他产品,如个人 消费贷款。在8 0 年代的最后几年中,信用评估在消费信贷和小额商业贷款中 已经得到了广泛的应用。至i 9 0 年代后期,信用评估技术已相当成熟,已经有 8 0 以上的银行通过信用评估来决定信用卡的发放。2 0 0 0 年以来,信贷机构 最常采用的是用统计方法建立个人信用评分模型,至于具体采用何种方法则 2 哈尔滨T 程大学硕十学位论文 取决于不

31、同方法对不同问题的预测准确度以及建模人员的知识及偏好。 近年来,随着信息技术的发展,具有机器学习能力的人工智能方法被引 入信用风险评估之中,该阶段的核心思想是建立量化信用风险评估的评估模 型。L u n d y 应用聚类分析数据挖掘技术对消费信贷申请者典型信用数据进行 处理得到了较为满意的结果【9 】;W i l s o n 和S h a r d a 通过运用基于神经网络技术的 系统,以高达9 7 的准确率对公司的破产进行有效的预测【1 0 l ;G r e e n eS m i t h 应用遗传分类挖掘算法研究了信用风险评估的问题【l l 】;B e c k e r 运用M i n e S

32、e t , 把监督学习方法和无监督学习方法用于贷款申请、信用卡犯罪侦察中,通过 建立可视化决策树来得到商务规则【l2 】;N a n C h e nH s i e h 运用了聚类和神经网 络的混合数据挖掘技术,设计出有效的信用评分模型【l3 】等等。 目前,发达国家已经建立了详细的个人和企业信用评分系统,形成了一 套较为完善信用评价方法和模型。无论在商务领域还是公共服务领域的信用 评估,数据挖掘研究方法都很普遍,同时,基于数据挖掘将不同的模型和方 法结合起来已经非常普遍。 1 2 2 数据挖掘在信用评估业务应用的国内研究现状 我国的信用体系建设起步比较晚,相对于国外发达国家成熟的信用体系 而言

33、,我国的信用管理经验还十分缺乏,而且主要集中在银行、证券和电信 方面。公共服务领域的用户缴费信用风险研究作为信用体系研究的一个重要 方面,还有待扩展、完善和深入研究。 在国内,起初是由中国人民银行信用局负责开始着手建立个人信用档案 体系,目前己建成世界规模最大的个人征信数据库。2 0 0 6 年全国个人信用信 息基础数据库已经和主要的银行机构联网,信息涵盖个人基本信息、结算帐 户开立信息、银行信贷信息和住房公积金缴存信息等。通过对信用评估研究 情况来看,大多数学者对指标体系的选择遵循四个基本原则:整体性原则、 可比性原则、科学性原则和实用性原则【14 1 。 近年来,人工智能方法被引入信用风险

34、评估之中,建立量化信用风险评 估模型成为趋势。数据挖掘技术在信用风险控制与管理方面的应用不断涌现, 被广泛的应用于金融业务、电信等行业的用户行为研究中。 3 哈尔滨T 稃大学硕士学何论文 在金融业务领域,陈良维将决策树算法应用于农村信用合作社农户贷款 信用评价问题中,提供了分析贷款组合的客观工具,对预防风险起到一定的 作用【1 5 】;李旭升等人将最小总风险准则M O R 与贝叶斯网络分类器相结合,设 计了最小总风险准则的贝叶斯网络个人信用评估模型,实现对信用评估中风 险的控制,银行可以在个人信用评估中进行风险管理【1 6 】;数据挖掘聚类算法 己成为实现客户细分目标的最重要的手段,基于银行客

35、户数据集,通过 D B S C A N ,K - m e a n s 矛l :I X m e a n s 三种聚类算法的对比分析,改进的x m e a n s 算 法被应用于银行业客户细分,利用X m e a n s 算法建立了银行客户细分模型, 研究客户信贷信用行为模式,为银行决策者提供决策支持【1 7 1 。 在电信营销业务领域中,数据挖掘技术的客户聚类研究和应用取得阶段 性成果。O L A P 分析和贝叶斯网络被应用到电信话费的欺诈行为发现中,在 数掘挖掘技术的基础上,郑莉华研究了贝叶斯网络在电信话费欺诈建模方法 的应用【1 8 】;在电信客户行为模式研究中,通过综合客户消费行为,帐单行

36、为 以及人口统计信息等因素,按照价值和行为两个维度进行战略分群,对客户 进行细分【1 9 】;代价敏感S V M 应用于V e r o p o u l o s 提出的采用不同惩罚系数的支 持向量机,研究由客户的欺诈行为、拖欠或滥用服务等因素所致的被动流失, 建立客户流失预测模型,能够完成对电信客户流失数据进行验证,并且取得 了一定的效果【2 0 】。 在其它业务领域研究中,数据挖掘技术应用越来越广泛。王扶东和马玉 芳等设计了适合数据挖掘技术应用的客户关系分析系统,并提出一种流程驱 动的处理过程,实现各种客户行为的理解及分析【2 I 】;张效严等设计了证券客 户分析系统,应用数据挖掘工具S P

37、S S 的C L E M E N T I N E 8 0 的K m e a n s ,c 5 0 算 法建立挖掘模型,并运用模型预测最有潜力的客户【2 2 】;数据挖掘技术判定树 技术用于保险客户风险分析 2 3 】;预处理小波神经网络模型应用于协同创新客 户评价与应用研究【2 4 】;结合数据立方体技术以及概念分层的分析方法,将面 4 哈尔滨工程大学硕十学位论文 向属性的归纳方法( A O I ) 与K m e a n s 聚类算法相结合,应用于用户时序数据聚 类分析中,使每一类用户都具有相似的时序特征,并且方法( A O I G e n ) 能够满 足大数据量的用户行为分析要求:5 】;数

38、据仓库技术在用户信用评价应用领域 研究取得了一定的成效【2 6 】。 总体看来,数据挖掘应用研究还有待深入,尤其是公共服务领域用户信 用研究和预测才刚刚起步,还处于积极探索和积累经验阶段。 1 2 3 存在问题和发展趋势 从数据挖掘应用研究来看,主要集中在银行和证券方面,对公共服务企 业的用户缴费信用评估的研究还比较少。在信用评估中,已有判定好坏客户 的方法并不全面。实际上,判定某客户是绝对好客户他一定能按时偿付 债务,或是绝对坏客户他一定会拖欠债务是不够的,好坏客户只是违约 概率上的大小不同,最佳信用客户也完全可能拖欠债务。 目前,比较有影响数据挖掘开发系统E n t e r p r i s

39、 eM i n e r ,I n t e l l i g e mM i n e r , S e t M i n e r ,C l e m e n t i n e ,W a r e h o u s eS t d i o , S e e 5 ,D B M i n e r 、Q u e s t 等有普 遍的应用价值。但通用数据挖掘系统在处理特定应用问题时有其局限性,这 些系统在适用性、系统效率方面还不尽人意。 早期的数据挖掘应用主要集中在帮助企业提升竞争能力。随着数据挖掘 的日益普及,数据挖掘的应用范围也日益扩大,如生物医学、金融分析网络 服务、电信、零售业等领域。数据挖掘语言的设计,高效而有用的数

40、据挖掘 方法和系统的开发,交互和集成的数据挖掘环境的建立,以及应用数据挖掘 技术解决大型应用问题,都是目前数据挖掘研究人员、系统和应用开发人员 所面临的主要问题。因此,一个重要的研究领域和发展趋势就是开发针对特 定应用的数据挖掘系统。 1 3 论文的主要研究内容 1 3 1 研究的目标 针对信用评价问题,建立基于数据挖掘的用户缴费信用评价系统,并根 据用户实际情况判断用户的信用度,建立预警机制,发现公共服务行业非信 5 哈尔滨_ 程大学硕士学位论文 用行为的主要行为特点,深化数据挖掘领域的研究与应用。 1 3 2 研究的方案 基于自上而下的原则进行系统设计,系统的设计与建立是一个部分循环 修正

41、的过程,在此,以研究方案流程图来表示系统的开发实施路线。整体研 究方案如图1 1 。 1 3 3 研究的任务 图1 1 整体研究方案 研究数据挖掘算法的动态配置在数据挖掘建模中的应用并结合数据挖掘 工作探索公共服务领域用户消费信用的行为模式。具体包括以下几个方面: ( 1 ) 数据挖掘技术的应用现阶段主要关注两个方向的研究,数据挖掘算 法的推出及改进、数据挖掘模型的设计。在此,基于数据挖掘模型自动化设 计的目标,研究数据挖掘算法的动态配置在数据挖掘建模中的应用。主要解 6 哈尔滨丁程大学硕十学位论文 决数据挖掘算法配置方案的获得与数据挖掘算法的灵活调度问题,设计适应 公共服务领域的动态数据挖掘

42、模型,并且利用模型对电费缴费用户信用行为 进行评价。 ( 2 ) 引入领域工程技术,抽象公共服务领域数据挖掘模型的横向通用特征 和纵向通用特征,可以实现系统开发资源复用目标。研究数据挖掘算法建模 知识,设计适应于公共服务领域的数据挖掘算法建模推理支撑环境,不仅可 以完成动态数据挖掘算法配置的目标,还可以实现应用的扩展。算法建模支 撑环境需要支持服务领域内的数据挖掘算法建模,当具体应用发生变化,需 要关注纵向领域特征模块的修改,而可以直接复用横向领域特征模块。 ( 3 ) 数据挖掘算法进出模型的方式关系到是否可以实现数据挖掘算法 根据系统运行环境灵活调度的问题。设计可扩展的数据挖掘算法集成模式,

43、 并且基于数据挖掘算法的综合管理及调度控制完成数据挖掘算法的动态配 置。 、 ( 4 ) 基于数据挖掘算法动态配置模型,设计电费缴纳业务信用行为评价 系统。该系统需要作为模型的实际应用内容,从开发角度实例化公共服务领 域动态配置数据挖掘模型。 7 哈尔滨- 稃大学硕士学位论文 1 4 论文的组织结构 本文围绕主要研究任务分为四章论述,组织内容如下: 第1 章绪论:首先介绍了研究的背景和意义,并且分析数据挖掘技术 与信用评估的国内外研究现状、数据挖掘应用的研究热点和技术难点、论文 工作任务和组织结构。 第2 章基于用户缴费业务的动态数据挖掘:设计了适应于公共服务领 域的用户费用缴纳行为模式动态挖

44、掘模型。抽象了模型在公共服务领域内的 公共特征( 横向通用特征) 和个性特征( 纵向通用特征) ,基于领域工程设计 思想,分离了数据挖掘算法建模推理支持环境及数据挖掘算法构件库。本章 详细设计了模型的结构和内容,明确了模型的组成及工作机制。并且依据数 据挖掘工作特点,详细描述了模型的各个元素。 第3 章数据挖掘算法建模推理支撑环境:描述数据挖掘算法方案动态配 置的具体实现,设计数据挖掘算法建模知识库,规范建模推理层次。数据挖 掘算法建模推理支撑环境主要包括知识库结构分析及推理机设计。在论述数 据挖掘算法建模知识结构的基础上,描述了各层的组织与形式。推理机制基 于最大可能原则概括为划分全局部分约

45、束,主要内容包括数据预处理阶 段及数据挖掘阶段;遵循数据描述约束及任务描述约束;采纳相容及相斥运 算。 第4 章电费缴纳业务信用行为评价系统:论述了基于用户缴费业务行为 动态挖掘模型的电费缴纳业务信用行为评价系统开发,从系统分析、数据挖 掘算法集成、算法方案动态配置设计及系统运行效果等方面描述行为评价系 统的组成和构造。并且给出了挖掘系统针对电费缴纳业务获得的用户行为模 式,最后分析模式的产生原因。 8 哈尔滨丁程大学硕七学位论文 i im Zii 1 i im i i i i i i i i 置i i i i i i i i i 第2 章基于用户缴费业务的动态数据挖掘 在数据挖掘应用系统的开

46、发中,存在两个重要的问题:一是在挖掘系统 建设中忽略领域相似性,降低了开发效率和软件复用率;二是不同的挖掘任 务需要建立对应的数据挖掘模型,没有任何一种挖掘算法或者模型能够适应 所有领域。因此,需要选择或者配置相应的算法,使它们能够协同工作,并 协调挖掘过程,统一管理挖掘结果。结合领域建设目标的需求及数据挖掘技 术的研究,为了解决专业障碍问题,建立高效的数据挖掘算法柔性选择模式, 引入领域工程技术以功能区域规范数据挖掘应用范畴,并且根据公共服务缴 费业务工作的领域特征设计适应信用评价行为的动态挖掘模型,在集成数据 挖掘算法的基础上,研究能够动态协调各项挖掘技术的挖掘方案配置方法。 主要解决数据

47、挖掘系统的复用性差,及人工建模效率低等问题,建立易于扩 展、灵活调度的动态数据挖掘系统( D y n a m i cD a t aM i n i n gS y s t e m ,简称 、D D M S ) 。并且基于数据挖掘的方法,寻找缴费业务的用户信用行为模式。 2 1 用户缴费业务研究 缴费业务用户信用评估的应用领域包括很多行业,如供水部门、供电部 门、电信部门。通过研究缴费领域的业务特征及行为特点,从数据的角度探 讨该领域内设计行为评价系统的各项指标与内容。 首先,缴费业务具有数据多样性的特点,公共服务领域内的费用收缴工 作涉及各项信息,在多样性中,研究目标具有可探讨及实体化特征,研究对

48、 象从传统意义的用户信息研究转化为用户行为预测研究。 其次,缴费行为研究策略大多可归类于有指导的数据挖掘模式,历史数 据可以清晰地显示用户的行为信息及基本特征,并且在信息基础上给出历史 行为的结论,即是否为信用优质用户,因此,挖掘建模主要针对归类方法, 兼顾聚类模式。 2 2 领域工程指导下的数据挖掘系统开发 数据是数据挖掘系统的处理对象,系统应当根据业务数据的领域特征, 9 哈尔滨工稗大学硕十学位论文 结合行业的特点、对象的属性和行为、行业指标等来选择合适的挖掘算法, 配置有效的挖掘模型及方案。现有的数据挖掘( D a t aM i n i n g ,简称D M ) 系 统设计方法并没有对横

49、向关联进行建模,因此,所设计系统具有较差的复用 性及灵活性。领域工程识别应用系统的共同特征和可变特征,对这些特征进 行抽象,形成领域分析模型,依据领域分析模型抽象领域中一类应用系统共 同具有的构架,即特定领域的软件构架( D o m a i nS p e c i f i cS o f t w a r e A r c h i t e c t u r e , 简称D S S A ) ,并以此为基础,识别、开发和组织可复用构件【27 1 。不同应用系 统需要面对具有不同特征的业务,利用领域工程技术可以分析领域范围内的 应用系统,识别数据挖掘应用领域的公共特征,刻画这些特征的对象和操作 进行选择和抽象,定义领域模型的相互关系和统一访问接口。由于通过领域 工程产生的可复用构件来源于领域中现有的系统,体现了领域中系统的本质 需求,因此,这些构件具有较高的可复用性【2 8 1 。 在数据挖掘系统研究的基础上,结合领域工程研究,探讨动态数据挖掘 的公共元素与应用接口,设计领域工程指导下的数据挖掘应用系统开发模式 ( 如图2 1 所示) ,通过研究数据挖掘在公共服务领域的具体应用,构建特征 模型以捕捉共同特征和可变特征。在特征模型中,横向关联被建模为领域方 面特征。根据数据挖掘的特点,领域工程指导下的动态数据挖掘系统的开发 则更加关

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 文献资料 >

备案号: 苏ICP备18070066号 

 电信经营许可证:苏B2-20220079 

出版物经营许可证:新出发2018字第HZ-026号 

 苏公网安备 32070502010811号

本站为信息分享及获取平台,本站所有文档下载所得收益归上传人(含作者)所有。

不确保部分用户上传资料的来源及知识产权归属。