相關(guān)鏈接: 中國安全網(wǎng) 中國質(zhì)量網(wǎng) 中國論文網(wǎng) 中國資訊網(wǎng)
作者:鄭曉敏
通過對居民出行方式選擇的影響因素分析,可以更好地引導(dǎo)居民廣泛使用公共交通,進(jìn)而緩解私人小汽車帶來的交通擁擠。近年來,數(shù)據(jù)挖掘作為一種有效工具在客戶分類,交通客流量分析預(yù)測等方面都有一定的應(yīng)用。本文采用數(shù)據(jù)挖掘理論模型對居民出行調(diào)查數(shù)據(jù)進(jìn)行分析,得出改善居民出行方式構(gòu)成的建議。
1居民出行調(diào)查數(shù)據(jù)挖掘簡述
1.1 數(shù)據(jù)挖掘定義
數(shù)據(jù)挖掘(data mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它并不是在大量已有數(shù)據(jù)的基礎(chǔ)上發(fā)明創(chuàng)造,而是一個(gè)數(shù)據(jù)收集、分析、歸納總結(jié)的過程,故而又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)。數(shù)據(jù)挖掘是一個(gè)處理過程,它利用一種或多種計(jì)算機(jī)學(xué)習(xí)技術(shù),從數(shù)據(jù)庫的數(shù)據(jù)中自動分析并提取知識。在本文中主要體現(xiàn)在對居民出行方式選擇的微觀影響因素分析上,找出關(guān)聯(lián)度較高的影響因素,幫助交通管理和規(guī)劃者調(diào)整相關(guān)政策和措施,引導(dǎo)居民更多地選擇環(huán)保式出行。
1.2數(shù)據(jù)挖掘的任務(wù)
數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析的主要任務(wù)有分類分析、聚類分析、關(guān)聯(lián)分析、因子分析、偏差分析、預(yù)測分析等,分別有神經(jīng)網(wǎng)絡(luò)算法、決策樹法、遺傳算法、粗糙集算法和貝葉斯分離器等建立模型的方法。本文主要涉及到的是分類分析、關(guān)聯(lián)分析和因子分析。
1.2.1分類分析
居民出行調(diào)查存在著不同的數(shù)據(jù)類型,如被調(diào)查者的性別、職業(yè)、年齡、出行目的和出行方式,是否有駕照和受教育程度等,分析這些屬性是否有內(nèi)在的聯(lián)系,將這些調(diào)查數(shù)據(jù)分別列為不同的類別,見表1。
1.2.2關(guān)聯(lián)分析
大量的居民出行調(diào)查數(shù)據(jù)變量之間可能存在著某些規(guī)律和聯(lián)系,關(guān)聯(lián)分析通過統(tǒng)計(jì)某種數(shù)據(jù)屬性及其出現(xiàn)的概率,來發(fā)現(xiàn)數(shù)據(jù)和屬性之間的關(guān)聯(lián)。例如被調(diào)查者的職業(yè)和受教育程度與居民出行選擇的出行方式做關(guān)聯(lián)分析,可以得出特定職業(yè)和受教育程度的居民對某一種出行方式的選擇概率和其未來出行方式選擇的預(yù)測。
1.2.3因子分析
因子分析法是從研究變量內(nèi)部相關(guān)的依賴關(guān)系出發(fā),把一些具有錯綜復(fù)雜關(guān)系的變量歸結(jié)為少數(shù)幾個(gè)綜合因子的一種多變量統(tǒng)計(jì)分析方法。居民出行調(diào)查數(shù)據(jù)中調(diào)查涉及的屬性很多,對于所研究的居民出行方式選擇的微觀影響因素,就是用最少個(gè)數(shù)的不可測的公共因子的線性函數(shù)和特殊因子來描述原來觀測的每一分量。
2居民出行調(diào)查數(shù)據(jù)挖掘流程
數(shù)據(jù)挖掘的算法步驟會隨著不同領(lǐng)域的應(yīng)用而有所變化,每一種數(shù)據(jù)挖掘技術(shù)因?yàn)槊嫦虻膯栴}和領(lǐng)域不同其所制定的數(shù)據(jù)挖掘過程也會有所差異。居民出行調(diào)查數(shù)據(jù)作為一種普遍的數(shù)據(jù)調(diào)查樣本,采用當(dāng)今數(shù)據(jù)挖掘領(lǐng)域最有影響的通用標(biāo)準(zhǔn)CRISP-DM( cross-in-dustry standard proce-ss for data mining),它不僅從方法學(xué)的角度提出了居民出行調(diào)查實(shí)施數(shù)據(jù)挖掘的方法和步驟,對調(diào)查數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析和建模,也是一個(gè)從理解居民出行方式選擇、尋求數(shù)據(jù)背后價(jià)值到改善居民出行方式構(gòu)成的完整過程。
2.1行業(yè)理解
數(shù)據(jù)挖掘流程的第一步是定義目標(biāo),居民出行調(diào)查數(shù)據(jù)從制作問卷、數(shù)據(jù)收集到統(tǒng)計(jì)分析都應(yīng)有一個(gè)明確的目的,數(shù)據(jù)挖掘最后的結(jié)果是不可預(yù)測的,在挖掘過程中根據(jù)特定的目標(biāo)選擇數(shù)據(jù),建立不同的模型,達(dá)到分析每一類不同居民出行選擇的目的。行業(yè)理解包括確定業(yè)務(wù)對象,評估情況,確定數(shù)據(jù)挖掘目標(biāo)以及制定工作計(jì)劃。
2.2數(shù)據(jù)理解
這個(gè)階段包括建立數(shù)據(jù)庫和分析數(shù)據(jù)。按照工作計(jì)劃發(fā)放問卷收集居民出行調(diào)查數(shù)據(jù),根據(jù)題目確定數(shù)據(jù)的含義和特性,過濾出所有可能有用的數(shù)據(jù)調(diào)查表,然后進(jìn)行數(shù)據(jù)整理并評估問卷的質(zhì)量,必要時(shí)再將不同問題分不同屬性形成不同的數(shù)據(jù)集合。數(shù)據(jù)庫建立完成后再進(jìn)行數(shù)據(jù)分析,并找出影響最大的問卷問題,進(jìn)而判斷是否有必要進(jìn)一步收集更為詳細(xì)的數(shù)據(jù)。
2.3數(shù)據(jù)準(zhǔn)備
對可用的原始居民出行調(diào)查問卷數(shù)據(jù)進(jìn)行一系列的組織以及清洗,將文本數(shù)據(jù)處理成電子檔,使之達(dá)到建模需要,其中包括數(shù)據(jù)的選擇及數(shù)據(jù)的預(yù)處理。
2.4建立模型
模型即實(shí)際的挖掘階段,即針對居民出行的特點(diǎn),應(yīng)用數(shù)據(jù)挖掘工具建立模型,即將居民出行調(diào)查數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型并對模型進(jìn)行運(yùn)行和評價(jià)。這個(gè)階段包括選擇建模技術(shù)、生成測試設(shè)計(jì)以及構(gòu)建模型。
2.5模型評估
對數(shù)據(jù)挖掘模型進(jìn)行測試與核查,完善挖掘算法,重點(diǎn)具體考慮得出的結(jié)果是否符合第一步的行業(yè)目的。此階段的要素包括居民出行調(diào)查問卷評估結(jié)果、查看數(shù)據(jù)挖掘過程,以及確定后續(xù)步驟。
2.6結(jié)果發(fā)布
解釋并評估居民出行調(diào)查問卷結(jié)果,使用從數(shù)據(jù)挖掘中獲得的深入見解,解釋影響居民出行方式選擇的微觀因素,實(shí)現(xiàn)最初的行業(yè)目的。
3案例分析
以南京市的居民出行調(diào)查數(shù)據(jù)為例,選取了2 756份調(diào)查數(shù)據(jù),按CRISP-DM流程,建立數(shù)據(jù)挖掘模型。Apriori算法的基本思想是:首先找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第一步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則,其中每一條規(guī)則的右部只有一項(xiàng),這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。為了生成所有頻集,使用了遞歸的方法。經(jīng)典的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法Apriori算法廣泛應(yīng)用于各種領(lǐng)域,通過對數(shù)據(jù)的關(guān)聯(lián)性進(jìn)行了分析和挖掘,挖掘出的這些信息在決策制定過程中具有重要的參考價(jià)值。在居民出行調(diào)查數(shù)據(jù)分析中,Apriori算法可以分析居民出行方式選擇的微觀影響因素。對比幾種挖掘模型,決策樹和Apriori算法較適用于居民出行調(diào)查數(shù)據(jù)的分析,但決策樹分析機(jī)理相對繁雜,并且對于不同屬性均一一分類,表現(xiàn)結(jié)果不夠集中;而Apriori算法可用來分析居民出行方式選擇的影響因素,因此本文采用Apriori算法作為分析模型。
首先對數(shù)據(jù)進(jìn)行預(yù)處理,去除對數(shù)據(jù)分析過程結(jié)果無用的字段,考慮問卷調(diào)查和問詢時(shí)的了解因素,對調(diào)查數(shù)據(jù)缺乏真實(shí)性和可信度的數(shù)據(jù)及調(diào)查表予以舍棄。接著通過交叉表運(yùn)算確定哪些微觀因素對南京市居民出行方式選擇有顯著影響。由于在交叉列聯(lián)表分析中,行、列變量往往不是連續(xù)等距變量,不符合簡單相關(guān)系數(shù)的前提要求,因此一般采用卡方檢驗(yàn),進(jìn)行了相應(yīng)的數(shù)據(jù)處理后,各因素的檢驗(yàn)結(jié)果見表2。
當(dāng)Sig值≤0.05時(shí),拒絕原假設(shè)。由表1中可見,職業(yè),是否有公交IC卡和出行目的是和居民的出行方式選擇相關(guān)的。而性別,年齡,是否有駕照和受教育水平是和居民出行方式選擇無關(guān)的。這和我們以往的理解會有些不同,在有些研究中這些因素也會影響居民的出行方式選擇。而此次分析的是南京的居民出行方式的調(diào)查數(shù)據(jù),分析結(jié)果是符合南京居民的出行方式選擇現(xiàn)狀的。下面分別從這3個(gè)因素進(jìn)行解釋。
(1)居民的職業(yè)。對于有固定工作的居民和學(xué)生來說,其出行方式一般是固定不變的。距離較近時(shí),大多數(shù)居民會選擇步行和自行車,電動車或助力車。而當(dāng)距離較遠(yuǎn)時(shí),學(xué)生一般選擇公交車或者地鐵,但上班族中一部分家庭富裕的居民就會選擇私人小汽車,因?yàn)樗饺诵∑嚨臋C(jī)動性遠(yuǎn)比公交車或者地鐵大得多。
(2)有無公交IC卡。擁有公交IC卡的居民選擇公共交通的可能性更大。而且南京市的公交IC卡現(xiàn)在已經(jīng)可以在公交車、地鐵和出租車同時(shí)使用,這也讓更多居民愿意購買公交IC卡。
(3)居民的出行目的。對于公務(wù)出行的居民來說速度是首要因素,因此居民傾向于速度較快的私人小汽車或出租車。對于接送家人調(diào)查數(shù)據(jù)中公共交通比例較高,但現(xiàn)實(shí)中很多家長接送孩子時(shí)還是使用私人小汽車較多。生活購物和回程為目的的出行大多采用的是公共交通。
經(jīng)過上面的分析已經(jīng)確定影響居民出行方式的因素,因此針對這些因素,要想要改善居民出行方式的構(gòu)成,就需要增加公共交通的比例,因此提出建議如下。
(1)限制私人小汽車使用。職業(yè)性質(zhì)不同選擇出行方式相應(yīng)不同,因此單位可以增加停車費(fèi),減少停車位來減少上班族的私人小汽車出行比例。
(2)加大公交IC持有率。政府可以實(shí)行增加公交IC卡的優(yōu)惠力度,降低公交IC卡的購卡
費(fèi)等措施。只有對居民產(chǎn)生較大的吸引力才會讓更多的居民購買公交卡,也就間接增加了環(huán)保出行方式的比例。
(3)鼓勵公共交通出行。對于公務(wù)出行或者員工上下班出行,政府和單位可以實(shí)行公共交通補(bǔ)貼或者報(bào)銷公共交通出行費(fèi)等措施來鼓勵公共交通出行。
4結(jié)語
數(shù)據(jù)挖掘是一類整理數(shù)據(jù)、歸納數(shù)據(jù)和分析數(shù)據(jù)的科學(xué)方法,尤其是對于海量數(shù)據(jù)的處理和分析數(shù)據(jù)內(nèi)部隱含的關(guān)聯(lián)十分有效。SPSS作為數(shù)據(jù)挖掘的分析工具,在數(shù)據(jù)處理建模分析上簡單且易操作,在流程上清晰易懂,并且在輸入數(shù)據(jù)時(shí)可通過類型屬性篩選進(jìn)行降噪處理,能夠達(dá)到很好的運(yùn)行結(jié)果。
目前,數(shù)據(jù)挖掘在交通行業(yè)的應(yīng)用還在探索中,本文以南京市居民出行調(diào)查數(shù)據(jù)為背景,將數(shù)據(jù)挖掘中的關(guān)聯(lián)分析應(yīng)用在SPSS平臺上,調(diào)查結(jié)果分析簡單可靠,在具體操作時(shí)可根據(jù)不同的分析目的對模型及參數(shù)做適量不同的調(diào)整,以達(dá)到預(yù)期挖掘效果。本文僅提出了一種能夠應(yīng)用于居民出行調(diào)查的數(shù)據(jù)處理方法,未來有待更深入的研究及更有效的應(yīng)用。
5摘要針對居民出行調(diào)查數(shù)據(jù)背后信息挖掘的需求,介紹了居民出行調(diào)查數(shù)據(jù)挖掘的理論及方法,概述了居民出行調(diào)查數(shù)據(jù)挖掘的常規(guī)流程,選擇Apriori模型對居民出行調(diào)查數(shù)據(jù)進(jìn)行分析。以南京市居民出行調(diào)查數(shù)據(jù)為樣本實(shí)例,采用職業(yè)、年齡、受教育程度、出行目的等幾種屬性,以SPSS軟件平臺對各屬性數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,確定影響居民出行方式選擇的因素,得出改善居民出行方式構(gòu)成的相應(yīng)建議。
上一篇:關(guān)于 內(nèi)河航道科技發(fā)展問題的探索
下一篇:返回列表