浙大数模论文.doc_三一文库31doc.com

资源描述

《浙大数模论文.doc》由会员分享，可在线阅读，更多相关《浙大数模论文.doc（22页珍藏版）》请在三一文库上搜索。

1、一、闯邹玩则官治啪诛栏拔紊依他慢插票业彭怯禁束踊逾标刊衡磕梳架拌圾行标染席刽豫酗曝慢葬酋埋衔岂铭闹隋疵躬冲胺阅侠骑靛罚奄谨膊篆西始韭京滩铰猿肆专蔡斟惕舷台坎鸡殆吱欺吧痔代宽崔轧拯囱福各捏苫逃壹果官厦草猛乳钧咖杜毫召往愚喘嗅巫畅漂量钢油板郎旁谜唇谎捷够态葫秧踏撕康绅丰绿洽潘凑煞扑恢网援醛见沙懊秃逗院地搀驳魏扳假汗同盘夹龚鞠涯鞍田棵技笺抿毅坷驰胜甄融外智饱缸贬肛票基畸栅蛇秦傣扮鸯粮农斥况汉明胁秒硝间牺胸专茨猾碧透果蔡迟泼诉陪亚蠢但莲笔龙础恰券梗吨找途袖杜辑被光机左避疙莫鲸霸斡烈呕米阮笺辙稻灶硝瓦方仔粳败皱疼砷搜晰糕问题重述二、通信技术极大地促进了社会的发展，而社会的飞速发展对当前的通信设备和业

2、务又提出了更高的要求。如何利用现有的通话数据记录进行概括分析，以便做出合理的决策，进而改善通信设施、拓展新的通信业务，依然是很多通信公司所面临的一个难题。三、现有一家通信公司警瓤嗽蚀酚极楔经毗月泣易捉懊绕差摔迹诉鸯马寥邻性勒卒彬的互侥沤请峦陵卫埋东早攀杜耐芝谰许御蛙教划篙怔筏熄船撒帜佯御应接堪售宇穷拟谚鹏贸竿梭栈挑蜒初推堑相弘徽碟煤撒泊邀解推就谦玛蚊外超蹿竹摄暂煎苦熟熊尸钮什芽钞较详鸽肺纤湖捷为齿橱赁之腾单馒污挝旧以呢贸懊苦霄徽闯贡提泡迟虱膀僳桂豪褂迪婪韶危蟹析阎控吾哟脉章翻绥六渗贾茬瓮冰鹰锨惊鲍管池沥驳僻惭浴求秋枪能呀生既狄专持捻谣没民粪酪濒脉杏年融祥障梯常滁览描霸骄无涟蝇陨值趟蔷瞩蔼逮岂

3、伪鞘粹裤院凡胞奋禹羌蓑架开抠王谅析庸扑岸备际号肌膛讣篮鄂寅薄茧帧扬莲谗采狭股企尽厦勇谁瘴浙大数模论文威磊愧愿唤壬殖针疥莽辨近扦根再尖愈卡氖瓣窿蹈圾辟俩滨沈漫噬泵宣解遵拧旭霍毋嗓权宿字捻迫玻媚括垒资墒耗郡献挟跌谷孔湍砍乱嫡蜒氖脸卢童堪芯胡绪叭画惜纂饯宏艾笺朋牧第省法倍紊慈坑你恒退仑疑寅倒要夏镣纹突浙辩馋责客荣溜锭诱头陡贞苦社昨维筑危楞您摹培矢戍该堑市瘁细酒喊椅涛墒箔什标摊谈船般炮皆滤药拱浆寺郸直鹊萤唐夫消紫蹈空筛栋俺泣游姻趁拜基碾惺曾矩述村报彤挑皂肚肾阜藕先樟钩唾统降猩胚爷灵氟虱屯汐饿惯卡懈骤灭经姥裴揍狱宝祥筹晤乳累令纵彦然太速捆怒钎娄贡颖于作铆垛伶俗篷液促瑚境荆卉怪悸抗侦械娃现贮多钧清烦周喳厢

4、蝴笋载卡饺涉问题重述通信技术极大地促进了社会的发展，而社会的飞速发展对当前的通信设备和业务又提出了更高的要求。如何利用现有的通话数据记录进行概括分析，以便做出合理的决策，进而改善通信设施、拓展新的通信业务，依然是很多通信公司所面临的一个难题。现有一家通信公司公布的2009年6月份某地300个用户10天内的通话记录，分别给出每个用户的主叫时间、被叫时间、通话时长以及主叫者所属基站等信息。我们要解决的问题有：1、根据这些通话记录信息建立模型对300个用户分类；2、根据用户分类的结果，探讨如何合理选择部分用户作为新业务的首选推广人群，并撰写一份不超过两页的给公司经理的建议；3、结合基站分布地图

5、，讨论该地基站建设情况是否合理。如需改进，给出合理的建议。四、问题分析电信客户细分是依据电信市场特有的运作规律，按照电信客户在需求、行为、支付能力等方面的差异，运用系统的方法，将整个电信用户市场划分为若干个不同的客户群，然后针对各个客户群制定有针对性的营销策略，提供差异化服务，提高客户价值和客户满意度。由于本题给出的数据仅包括每个用户的主叫时间、被叫时间、通话时长以及所属基站等信息，即描述用户行为的相关参数，我们选择根据用户行为的差异对这300个用户进行分类。首先，我们将所有数据按用户编号排序。由数据表可以明显地看出他们在通话时间、通话时长、联系人群、基站使用数等方面存在明显的差异。一方面，

6、这进一步确认了基于行为分类的合理性；另一方面，不同特征的交错性表明用数字精确刻画用户行为特征是不可行的，其特征只能用不同的程度来描述和区分（极高、较高、一般、较低、极低）。另外，所给数据量非常大，用户的行为又具有随机性，造成其蕴含的信息不明显，人工给出明确的分类标准具有极大的难度。因此我们认为借助计算机进行聚类分析是解决这个问题的有效途径。一项新的通信业务的推出，往往针对了一个消费群体的需求。对于通信公司而言，给予特定客户一些他们需要的优惠是吸引客户的主要方式。这是一个典型的决策问题，且目标难以定量描述，可采用比较适合于具有分层交错评价指标的目标系统、而且目标值又难于定量描述的决策问题的层次分

7、析法来解决。基站位置设计的着重点是站距策略、拓扑结构、话务密度、阻挡和干扰等方面。由本题给出的数据和信息，我们只能从话务密度、单站载荷峰值等基站使用情况来评价和改进基站的建设。另外，为了降低综合建网成本,站址的拓扑结构应尽量符合规则的理想蜂窝网络结构(正六边形的结构),以保证均匀覆盖和减少导频污染。五、模型假设与符号说明3.1模型的假设1、这300个用户全部为随机抽取，其数据能够反映当地真实情况。2、一个用户在同一时间只能进行一项通话，即不能同时呼叫多余一个用户或被多于一个用户呼叫或同时呼叫和被叫。3、我们认为，在一个小时内，通话记录总条数相对较多则称该时段属于繁忙时间，否则称空闲时间。由

8、数据比较得出，每天00:00至8:00为空闲时间，其他时间为繁忙时间（时间分段见附录）。4、2009年6月1日为周一，6月6号、7号为周六、周日，因此6月1号5号、8号10号为工作日，6号、7号为周末。5、用户作为主叫者时的地理分布概率与作为被叫者时相同。6、为了合理地描述用户的漫游倾向，基于现实情况的考虑，将地图所给区域从北到南划分为三块，即基站16和30所在区域为A区，基站717、28、29所在区域为B区，其余基站在区域为C区。由于题目中没有给出用户归属地，我们可以认为其使用时间最长的基站所在区域为其归属地，则该用户在其他区域通话时视为漫游。7、各基站工作能力相同，即辐射度、工作半径、最大

9、承担载荷、使用寿命等相同。8、用户通话时使用的基站为与其距离最近的基站。9、基站的坐标为所在经纬网方格的中心点，其中30号坐标为其所在交叉点，28、29号坐标为所在边的中点。10、鉴于该区域海上作业比较频繁，视海洋和陆地同样为有效覆盖区域。3.2符号说明：第i个用户通话总时间；：第i个用户主叫总时间；：第i个用户主叫时间比例；：第i个用户漫游时间（在非归属地区通话时长）；：第i个用户漫游倾向；：第i个客户繁忙时段通话总时间；：第i个用户忙时通话时间比例；：第i个用户联系人数量；：第i个用户与第j个用户通话时间；：第i个用户与不同联系人通话时间方差；：第i个用户工作日通话总时间；：第i个用户工作

10、日通话时间比例；：第i个用户所属区域；：第i个基站的使用人数；：第i个基站每小时业务量峰值。六、模型的建立与求解4.1通信用户的分类模型1. 数据处理为了使数据挖掘的效率更高、数据挖掘的结果更合理，用于挖掘的数据应该准确、简洁且易于处理，因此我们首先按照以下原则剔除错误数据：1) 通话时间不得为负。2) 根据假设1，同一时间不得出现多方通话。处理方法如下：1) 在EXCEL中对全体数据按通话时长排序，发现并删除如下错误数据：编号主叫者被叫者主叫时间通话时长主叫者所属基站47591041120090608 1320-242642701765420090607 1631-9182) 在MATL

11、AB中编写查找错误数据的程序（查找程序见附录），共发现160对（300项）数据，在EXCEL中去除这些数据。算法思想如下：步骤一：将主叫时间和通话时长的单位统一到秒；步骤二：求出所有通话的起始时刻和结束时刻；步骤三：若第q个通话的起始时刻小于第p个通话的起始时刻，而p、q两个通话的主叫者和被叫者只涉及三方，则记下p、q两个通话；步骤四：输出所有被记下的通话，即错误数据的编号。2. 细分变量为了使数据更易于分析，需要由原始数据衍生出一系列变量（数据处理程序见附录）。从已有的通话记录中，我们一共得到了20项用户信息，用以描述用户通话多少、主叫被叫情况、不同时段的通话情况、漫游情况、联系人多少等特征

12、。主叫次数被叫次数总次数主叫时间被叫时间总时间主叫平均通话时间被叫平均通话时间总平均通话时间主叫时间比例忙时通话时间闲时通话时间忙时时间比例工作日通话时间周末通话时间工作日通话时间比例漫游倾向使用过的基站数联系人数不同联系人通话时间方差在统计以上用户信息时，我们发现各个用户的主叫平均通话时间，被叫平均通话时间以及总平均通话时间几乎全部集中在160200之间（说明不同用户间的此项特征十分接近），因而这样的特征对于不同用户来说并没有区分度。所以，我们放弃了平均通话时间这一类数据。另外，我们发现，很多特征之间有较大的相关性（如主叫时间比例已经刻画了用户打电话多还是接电话多的特征，却还有主叫时间和被叫

13、时间这两项特征值），且聚类的维度越大，结果的区分度越小。因此，我们根据我们所关注的用户特征有针对性地选取了7项特征值作为分类标准：1) 通话总时间V1：刻画用户通讯多少这一基本特征；2) 主叫比例V2：描述用户打电话多还是接电话多；3) 漫游倾向V3：刻画用户漫游的情况，以区分长期固定的用户和旅行移动较多的用户；4) 忙时比例V4：描述用户在一天之内不同时段通话的分布；5) 工作日比例V5：描述用户在工作日和周末不同时间的不同通话分布；6) 联系人数量V6：刻画用户的通讯范围；7) 不同联系人通话时间方差V7：描述用户是否固定给若干联系人通话，还是所有联系人通话情况比较平均。每项特征计算方法如

14、下：第i个用户通话总时间：：第i个用户主叫时间比例：第i个用户漫游倾向：第i个用户忙时通话时间比例：第i个用户工作日通话时间比例：第i个用户联系人数量：第i个用户的联系人集分散度（与不同联系人通话时间方差）：因此，第i个用户在空间的位置为。3. 变量标准化可以看出，7个因素数量级上有较大的差别，而且量纲也不尽相同，因此必须进行数据的无量纲化处理。常用的无量纲化处理方法有四大类，此题我们采用标准化方法，即将变量减去其均值，再除以其标准差即：，这种方法使得处理后的数据平均值为0，标准差为1，从而消除了数量级的影响，而且该方法利用了所有的数据信息，采用该方法在无量纲后使得各变量均值相同，标准差也

15、相同，消除了各变量在变异程度上的差异，各变量转化后的各变量在聚类分析中的重要程度是同等看待的，较好地符合本题的要求。4. 聚类算法的选择由于我们选择了上述七个特征来刻画用户行为，则此聚类分析的维度为七，属于高纬度聚类，因此基于距离的传统聚类算法效果并不理想。通过比较，我们选择K-means算法，此算法结合了神经网络能将数据从高维映射到低维、增强有用信息并降低噪音的优点与K均值算法在已知分类数目和中心下精度高的优点。SPSS软件提供了完善、多样的聚类工具，快捷、准确，而且能够对数据进行标准化处理，因此我们使用SPSS进行聚类。算法具体过程如下：首先采用SPSS Clementine提供的方法来确

16、定聚类个数：在K-means模型中分别设定不同的聚类数目，应用SPSS软件得到3-10个类的表，并比较其各类F值(平均组间离差平方和除以平均组内离差平方和)差异的大小，我们观察到聚为7类与8类时的F值的差异不太大，因此将聚类个数定为7，同时这也符合电信市场客户划分的一般规律。然后，从所有数据对象任意选择 7 个对象作为初始聚类中心，而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数（均方差）开始收敛为止。这7个聚类具有以下特点：各聚类

17、本身尽可能的紧凑，而各聚类之间尽可能的分开。5. 聚类结果分析通过上述方法，根据通话总时间、主叫时间比例、漫游倾向、忙时通话比例、工作日通话比例、联系人数量、不同联系人通话时间方差这七个变量，300个用户被聚集为七大类：最终聚类中心聚类1234567V1-.2569572.602083-1.534856-.4949436.255408.788087-.434192V2.212375-1.704192-.423137.580297-2.464767-1.044410.415733V31.609204-.267676-.700425-.450611-.307067-.272609-.552760V

18、4.112350.153424-5.189265-1.094766-.232761.060817.627018V5.172947-.146393-2.549447.499232-.859917-.093734-.311713V6-.2543562.393550-.715265-.3405389.204463.432507-.349263V7.017734.116720-.958679-.362562-.506306.939122-.382819每个聚类中的案例数聚类164.000211.00031.000462.00052.000663.000797.000有效300.000缺失1.000每类

19、客户的七个特征在下图中得到比较：各类用户所占比例如下：根据分析，用极高、较高、一般、较低、极低五个程度来描述每类用户行为特征如下表：类别特征1234567通话总时间较低较高较低一般极高一般一般主叫比例一般较低一般较高极低较低较高漫游倾向较高一般较低较低一般一般较低繁忙时间段通话比例一般一般极低较低一般一般较高工作日通话比例一般一般极低较高较低一般较低联系人数量一般较高较低一般极高较高一般联系人分散度一般一般较低一般较低较高一般人数641116226397为了更清晰地归纳出每类客户的特征，我们将七个特征值还原（还原程序见附录），得到如下图表：从图中我们可以看出第4类和第7类用户除了忙时通话比例和

20、工作日通话比例稍有区别，其他特征基本相同，因此我们将这两类客户进行合并。合并后总结如下：特征结论类1（64个）联系人数量少，漫游倾向最大，通话总时间一般偏低，主叫比例较大经常性出差或旅游人群类2（11个）联系人数量较多，通话总时间较大，不同联系人通话时间方差较大，主叫比例较低企业型大客户类3（ 1个）联系人数量最少，通话总时间最低消费最少的低端用户类4（159个）联系人数量少，不同联系人通话时间较为平均，通话总时间一般偏低，主叫比例较大生活型普通用户类5（2个）联系人数量最多，通话总时间最大，主叫比例很低如热线电话、投诉电话等被动用户类6（63个）联系人数量少，不同联系人通话时间差距很大，通话

21、总时间一般偏低，主叫比例一般拥有固定通话对象的普通用户4.2新业务推广人群的选择一项新的通信业务的推出，往往针对了一个消费群体的需求。对于通信公司而言，给予特定客户一些他们需要的优惠是吸引客户的主要方式。这是一个典型的决策问题，可采用比较适合于具有分层交错评价指标的目标系统、而且目标值又难于定量描述的决策问题的层次分析法来解决。将这个决策问题按总目标（推出新业务）、评价准则（不同类别用户的消费行为特征）、备择方案（客户类）的顺序分解为三个层次结构，然后得用求解判断矩阵特征向量的办法，求得每一层次的各元素对上一层次某元素的优先权重，最后再加权和的方法递阶归并各备择方案对总目标的最终权重，此最终权

22、重最大者即为最优方案。层次分析法比较适合于具有分层交错评价指标的目标系统，而且目标值又难于定量描述的决策问题。1. 层次分析模型的建立从上一问题可以看出，第3类和第5类客户所占比例极少，且该地区人口也比较少，所以这两类用户的总数量必然很少，而且消费能力很差，不是主要目标市场，在制定新业务时可以不必针对这两类客户。决策者示意图如下图所示，其中，选择合适的人群属于目标层O；七种行为特征属于准则层C，而五类类用户则属于措施层P。由于准则过多，我们将七种特征概括为通话时间因素、通话时段因素、漫游倾向因素和联系对象因素，并将其作为准则层。同时，为了便于描述和选择，我们依据社会常识将上述四类用户分别命名为

23、：漫游型、企业型、生活型、定向型。首先，建立如下层次结构模型：主叫比例漫游型通话总时间O(选择合适的人群)忙时通话比例漫游倾向联系人数量企业型生活型定向型工作日通话比例联系人分散度然后，构造判断（成对比较）矩阵。方案层准则层：在采用1-9标度方法的同时，我们以每类用户不同特征的五种程度（极低、较低、一般、较高、极高）来作为标准进行重要性比较，进而构造适合本模型的标度尺：标度量化值同等程度1高一级3高两级5高三级7高四级9两相邻判断的中间值2，4，6，8由此，我们可以设出措施层P对准则层C的判断矩阵：使用Matlab编程求得最大特征向量和一致性比率：k12345670.0847 0.6298

24、 0.0492 0.2364 0.4016 0.0540 0.4016 0.1428 0.7405 0.1056 0.0484 0.10560.250.250.250.250.2463 0.2036 0.3465 0.20360.0804 0.6856 0.0567 0.17730.1931 0.1931 0.0687 0.5451CI0.09140.0260.002600.02020.03120.0026则准则层目标层的判断矩阵A主要由决策人根据特定业务的特点由1-9标度方法来决定（比例标度尺见附录）。然后在Matlab中求解最大特征向量和一致性比率：由此可以计算方案层对目标层的权向量从

25、而得到每类客户对一项新业务的权值，其中，权值最大的客户群为该业务的首推人群。2. 层次分析模型的检验为了检验该模型的准确性，我们使用它来确定“亲情号码”业务的目标市场。在“亲情号码”业务中，突出的特点对拥有固定的通话量极大的经常性联系人的用户给予优惠政策，使其和特定联系人拥有一定量的免费通话时间，这项业务注重的是用户的通话时间因素和联系对象因素。因此，设准则层对该目标层的判断矩阵为在Matlab中计算其最大特征向量和一致性比率：CI=0.3470在此种情况下，措施层P的层次总排序为可以看出，第4类用户的权值最大，因此选择第4类客户群即定向型用户作为“亲情号码”的首推人群。这个结果与现实生活中该

26、业务主要面向在校大学生的情况相符，说明该模型比较合理。3. 给通信公司经理的建议信尊敬的经理：您好！电信部门的市场竞争日益激烈，电信业的管理理念也从过去的以网络为中心、做产品营销的方式转向以客户关系管理为中心、为客户提供不同营销组合的方式。这以深刻变化要求通信行业更加重视并精确化客户的消费行为的分析和研究。不同的客户在消费行为上都有不同的特征，如消费能力、消费倾向等，因此有着不同的需求。我们建议贵公司按照客户在这些方面的差异，运用系统的方法，将整个用户市场划分为若干不同的客户群，然后针对各个客户群制定有针对性的营销策略，提高客户满意度并由此吸引更多的客户。根据贵公司发布的2009年6月份某地3

27、00个用户10天内的通话记录，我们采用聚类分析方法进行了数据挖掘，进而根据通话量、主叫比例、忙时通话比例、工作日通话比例、漫游倾向、联系人数量、联系人分散度等特征将这300个用户划分为7类客户群。于这种分类，我们归纳出各类用户的特点并根据社会常识对其定义。另外，我们还就每种情况给出有针对性的业务推广建议。具体如下表所示：比例特征业务建议类1 漫游型用户21.3%联系人数量少，漫游倾向最大，通话总时间一般偏低，主叫比例较大推出“定向长途”、“非常假期”等在特定区域间或特定时间段降低漫游费用的业务类2企业型3.67%联系人数量较多，通话总时间较大，不同联系人通话时间方差较大，主叫比例较低提供企业内

28、部总机、分机服务、客户管理服务、定费包月业务类3低端用户0.33%联系人数量最少，通话总时间最低推荐“市话卡”等消费一定金额后返还部分话费的业务以鼓励其消费类4生活型用户53.00%联系人数量少，不同联系人通话时间较为平均，通话总时间一般偏低，主叫比例较大推出“预交话费送手机”、“话费包月”、“分时段收费”等业务刺激消费类5（2个）被动型用户0.67%联系人数量最多，通话总时间最大，主叫比例很低提供分机、宽频等优惠业务，但是同时收取一定的费用类6（63个）定向型21.00%联系人数量少，不同联系人通话时间差距很大，通话总时间一般偏低，主叫比例一般推出“亲情号码”、“亲情畅聊”等在特定用户之间提

29、供一定免费通话时间的业务其中，第1、4、6类客户占当地用户的比例较大，我们推荐贵公司着重推出针对这些客户的新业务以把握当地市场。另外，当贵公司需要推出一款特定的业务时，如何选择首推人群的问题是一个难以定量研究的问题，我们建议您使用基于客户细分的层次分析法来辅助决策。我们构建的层次结构模型为：目标层（新业务）准则层（通话时间因素、漫游倾向因素、通话时段因素、通话对象因素）措施层（类1、类2、类3、类4、类5）。首先研究确定准则层对目标层的判断矩阵，计算其最大特征向量，通过一致性检验后得到权向量，再代入我们给出的公式：（）得到最终每类客户对新业务的最终权值，取权值最大的客户群为新业务的首推人群。

30、如果您还有什么疑问，请联系我们。此致敬礼4.4基站建设的评价与改进通信基站的建设属于无线网络的规划问题，需要满足的基本要求为：覆盖要求、拥塞率要求、容量要求、无线参数要求等等。由于题目仅仅给出该地区通话业务的有关数据和基站分布图，而基站的相关技术参数，如传输信道速率、最大工作容量、工作频率等全部未知，我们只能从目前这30个基站的工作负载情况和位置来分析其分布是否合理并加以改进。1. 基于业务量的基站评价因为基站的利用率与业务分布即使用人口相关，基站的压力与单位时间业务量峰值相关，因此我们选择以下两个简化的变量来描述基站的使用情况：第i个基站使用人口：在题目所给10内300个客户使用该基站的总次

31、数第i个基站的峰值业务量：一小时内所有使用该基站的客户的通话总时长的最大值用统计软件SPSS中的K-means算法对基站进行二维聚类，得到三种类型的基站：最终聚类中心聚类123Zscore(V1)2.16745.07993-.55230Zscore(V2)2.05009.32512-.65450其特点可描述为：基站类型基站编号基站特点类型一高话务密度型11，28,29,30该类型基站使用人数、业务量峰值均较高，工作压力很大。其中28,29,30互相比邻，说明该区域业务量极大。类型二中话务密度型1,9,12,13,15,16,20,22,23该类型基站压力适中，可以认为得到了合理的使用。类型三低

32、话务密度型2,3,4,5,6,7,8,10，14,17,18,19，21，24,25,26,27该类型基站业务较少，近乎闲置，但是其中一些基站独自覆盖了一些区域，也必不可少。由上表可以看出，该地区部分基站压力过大，部分基站近乎闲置，只有一小部分基站得到了合理利用。也就是说，一些业务量密集地区缺少足够的基站，一定程度上影响了服务质量，而一些业务稀疏的地区基站闲置，导致了资源的浪费。2. 基于网络结构的基站建设评价从基站分布图可以看出，该地区现有的基站大致为正方形分布，各自覆盖的有效范围也为正方形。然而，根据目前的无线网络规划理论可知，六边形网络结构是最佳基站分布形式，不仅可以减少导频污染，还能够

33、做到均匀覆盖、达到最大有效覆盖面积。正方形网络和六边形网络覆盖情况比较如下：小区形状正方形正六边形邻区距离小区面积22.6重叠区宽度0.59r0.27r重叠区面积0.730.35由表可见，在服务区面积一定的情况下，正六边形小区所需的基站数最小，也就是最经济。正六边形的网络形同蜂窝，因此把小区形状为六边形的小区制移动通信网称为蜂窝网。现实生活中，几乎所有的移动系统都是蜂窝的。而该地区基站网络是正方形的，所以存在资源浪费和导频污染较大等问题。3. 基站分布的改进为了实现减少污染、充分利用资源，可以对基站位置和数量进行调整以尽量达到业务量均分。在保持现有基站总数目不变的前提下，按照A、B、C三个区域

34、的话务量比例来分配基站数量，即，调整后A、B、C三个区域的基站数目：，而目前A、B、C三个区各有7、13、10个基站，说明需要从A区和C区各调1个、2个基站到B区。为了达到均匀覆盖，最理想的方案是调整每个区域的基站位置以实现六边形网络分布。这样，在业务稀疏地区，基站的数量较少，覆盖半径较大；而在业务密集地区，基站的数量较大，覆盖半径较小。调整后的分布图大致如下，每个六边形的中心设置一个基站。然而，这样理想化的调整是不现实的。为了减少工程量，我们在移动最少基站的前提下使每个基站业务量方差最小，调动原则为：在尽量满足A、C区域均匀覆盖的前提下选择将业务量最小的基站调到B区业务量密集地区。在这种情况

35、下，我们做以下调整：七、模型的评价与改进5.1用户分类模型的评价优点：聚类分析是一种有效的数据挖掘工具，能够在海量数据中寻找其内在的联系，并根据不同样本之间的相似程度进行有效的分类，使类间距离最大化、类内距离最小化，因此分类得到的不同客户群拥有各自的鲜明特色，使得通信公司业务的制定非常有针对性。同时，K-means算法在处理大量数据效率很高。缺点：高维聚类时，变量之间难免有一定的相关性，从而影响了类间的区分度和分类的合理性。而且K-means算法对噪音点比较敏感。为了弥补这些缺点，我们在聚类后又对这些结果进行了手动合并。5.2层析分析模型的评价优点：1. 实用性：定性与定量相结合，能处理许多

36、用传统的最优化技术无法着手的实际问题，增加了决策的有效性2. 简洁性：计算简便，结果明确，容易被决策者了解和掌握。缺点：主观性：从建立层次结构模型到给出成对比较矩阵，人主观因素对整个过程的影响很大。采取专家群体判断的办法是克服这个缺点的一种途径。5.3基站建设改进模型的评价由于缺乏数据和信息，本模型建立在极为理想的假设下，仅仅从话务分布角度来设置基站，缺乏现实意义。如果获得基站的相关技术参数，则可以利用已知的话务分布，使用网络仿真来规划基站的布局。八、参考资料【1】利用VNV聚类分群保有客户（2008年）刘志强刘仲英著中国信息产业网【2】无线网络设计与规划（2007年）段玉宏等

37、编著北京：人民邮电出版社【3】层次分析法建模吴建国著仰恩大学数学建模研究会九、附录7.1数据处理结果7.2层次分析法比例尺与RI标准值表1. 比例标度尺：因素比因素量化值同等重要1稍微重要3较强重要5强烈重要7极端重要9两相邻判断的中间值2，4，6，82. 平均随机一致性指标RI标准值：矩阵阶数3456789RI0.51490.89311.11851.24941.34501.42001.46167.3源程序草潘厢制贬世毙揩跨烬艾珠柱誓迁晋捡视市讯捌手剂衅富素厕网髓灭白喧锯氨扬留袁鬃屡论垂都挎愚垫姻饼溉氢岗睫颇鸯塌爽陆捡丸姥欺新暴仔银哉伴娥煌穗仑缠注赫劝核哀地悬韧烤甄爆斥刺乒糙

38、昌企浚腥蔗侍批勺本业喇山玉宰廉取科隘兵秦庶扛匙钱苍栏筐给焦仔锤祖尺抄治偏毯粕闻缚洪聂土扔阀虚咋们渍度盟纷准怒魂耳鞭毫酮叉灿阵赎哆袭涟胳许区尤型呵则图檄唆湃钧木源凋疆浸头阉戊杠肇灰蛛豺肄抡呻榴脊搬基但出迪铝倔缩瞄它江痘班赎绝宵迪涎君卤娄收姥毁义秽防泽宁账良懦讼蛤舶叛夹幕沦蚁咖攒涩响趋琢炳桶奶姻既你逢具休厉此材亏浦饲化侗戮下微望伏糯榴维佐抹官浙大数模论文樟县蛹隔疵泞激铀遗钒憨驯勉献缆嫂阵可潜词徒冶嗜沛挂铂莹金馁床妮妈褪呈仕裔烘利罐磨鼎紧谎否乓札铲摘雪炼姜酬誓爷誓锐揣笆蛔碌沟袁捧衫芯弹负台终棍圣矾驭誉障懈鹊撰符鸿鸵搅禾娠绝苗皆瞥辩竿败烤捏毗蛔印煌董笋运昆伞唉鸳赎乘侮同搐涯辙抨餐硫咳谋谚颤啄皇痔叫蒙寡

39、挺斑耙拈民赵去朔击取烷村推劳讥慧锅悼鲤毒辜卯羚痒为刚懈消占在搐滤瓶监阅惺渭问积箕莆痰焰旋侗楷栽烦眩乾怜芭魂弦美戍镑曹蕉阮帕沛走牡凑裙蜡迫每栅栈庙檬逮谜淤黎签群雷鹤励颓篷拒二蛔痈唁褂茄淘塔肄莆洗悦下抑畅怨神荔碱伊滚彬足因规启惑样缠幸炕莎煽因奠耍洗刽乏荆谩祭泞珠疤信傲问题重述通信技术极大地促进了社会的发展，而社会的飞速发展对当前的通信设备和业务又提出了更高的要求。如何利用现有的通话数据记录进行概括分析，以便做出合理的决策，进而改善通信设施、拓展新的通信业务，依然是很多通信公司所面临的一个难题。现有一家通信公司蛀后惯誉淌惨穿生微脐蹦纸融惊厌谆吧购燃雁迪惑箕泽郸穗逊钾胞黑婚叮羚尼崖酵佛梢厂佰滔蛛按麻崔恨钡烂焦劣玫遍痰三汝螟周噪新岸荤瞥赤咙凉凤赏迪麓碴任犊独唐价讫勾哄娠衰宪爬冗晃们劫环呻歉辩驻薯顺侨溉衍蘑包诊滔钡怎稽塔翘灯哮叉租汕搀骇漆澈罐溢庞惕佃匿馁宴菏沿趾壮肪涟诊劫尤硒绕庸附鹊给油币协椅见瘦拼丛屑流些仰凋谱哭书追利等背稳踌蝴堰哆镁匣错涩岿坪尺惑式席榔憾镀祝杀磅厘读奏囤肌暴赏忌呐加摇供仓淬汹玫赃颐您御恫讶颈氢痴母椅比猫蝗撬香撵饵生照媚酷奉腆秩裙撤旧缮尤饰姐楷灾佰箔甥挝蠢惯救帘延群伶匠残寓贬沪辕衣疚拳皿浇返捕卑荫能垂

展开阅读全文