乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      時(shí)間序列ARIMA模型詳解:python實(shí)現(xiàn)店鋪一周銷售量預(yù)測(cè)

       kieojk 2016-09-06



          顧名思義,時(shí)間序列是時(shí)間間隔不變的情況下收集的時(shí)間點(diǎn)集合。這些集合被分析用來(lái)了解長(zhǎng)期發(fā)展趨勢(shì),為了預(yù)測(cè)未來(lái)或者表現(xiàn)分析的其他形式。但是是什么令時(shí)間序列與常見的回歸問(wèn)題的不同?


      有兩個(gè)原因:

      1、時(shí)間序列是跟時(shí)間有關(guān)的。所以基于線性回歸模型的假設(shè):觀察結(jié)果是獨(dú)立的在這種情況下是不成立的。


      2、隨著上升或者下降的趨勢(shì),更多的時(shí)間序列出現(xiàn)季節(jié)性趨勢(shì)的形式,如:特定時(shí)間框架的具體變化。即:如果你看到羊毛夾克的銷售上升,你就一定會(huì)在冬季做更多銷售。


      常用的時(shí)間序列模型有AR模型、MA模型、ARMA模型和ARIMA模型等。


      一、時(shí)間序列的預(yù)處理

      拿到一個(gè)觀察值序列之后,首先要對(duì)它的平穩(wěn)性和純隨機(jī)性進(jìn)行檢驗(yàn),這兩個(gè)重要的檢驗(yàn)稱為序列的預(yù)處理。根據(jù)檢驗(yàn)的結(jié)果可以將序列分為不同的類型,對(duì)不同類型的序列我們會(huì)采用不同的分析方法。

       

      先說(shuō)下什么是平穩(wěn),平穩(wěn)就是圍繞著一個(gè)常數(shù)上下波動(dòng)且波動(dòng)范圍有限,即有常數(shù)均值和常數(shù)方差。如果有明顯的趨勢(shì)或周期性,那它通常不是平穩(wěn)序列。序列平穩(wěn)不平穩(wěn),一般采用種方法檢驗(yàn)


      (1)時(shí)序圖檢驗(yàn)


       

      看看上面這個(gè)圖,很明顯的增長(zhǎng)趨勢(shì),不平穩(wěn)。

       

      (2)自相關(guān)系數(shù)和偏相關(guān)系數(shù)

      還以上面的序列為例:用SPSS得到自相關(guān)和偏相關(guān)圖。



      分析:左邊第一個(gè)為自相關(guān)圖(Autocorrelation),第二個(gè)偏相關(guān)圖(Partial Correlation)。

       

      平穩(wěn)的序列的自相關(guān)圖和偏相關(guān)圖要么拖尾,要么是截尾。截尾就是在某階之后,系數(shù)都為 0 ,怎么理解呢,看上面偏相關(guān)的圖,當(dāng)階數(shù)為 1 的時(shí)候,系數(shù)值還是很大, 0.914. 二階長(zhǎng)的時(shí)候突然就變成了 0.050. 后面的值都很小,認(rèn)為是趨于 0 ,這種狀況就是截尾。什么是拖尾,拖尾就是有一個(gè)緩慢衰減的趨勢(shì),但是不都為 0 。

       

      自相關(guān)圖既不是拖尾也不是截尾。以上的圖的自相關(guān)是一個(gè)三角對(duì)稱的形式,這種趨勢(shì)是單調(diào)趨勢(shì)的典型圖形,說(shuō)明這個(gè)序列不是平穩(wěn)序列。

       

      (3)單位根檢驗(yàn)

      單位根檢驗(yàn)是指檢驗(yàn)序列中是否存在單位根,如果存在單位根就是非平穩(wěn)時(shí)間序列。

       

      不平穩(wěn),怎么辦?

      答案是差分,轉(zhuǎn)換為平穩(wěn)序列。什么是差分?一階差分指原序列值相距一期的兩個(gè)序列值之間的減法運(yùn)算;k階差分就是相距k期的兩個(gè)序列值之間相減。如果一個(gè)時(shí)間序列經(jīng)過(guò)差分運(yùn)算后具有平穩(wěn)性,則該序列為差分平穩(wěn)序列,可以使用ARIMA模型進(jìn)行分析。

       

      還是上面那個(gè)序列,兩種方法都證明他是不靠譜的,不平穩(wěn)的。確定不平穩(wěn)后,依次進(jìn)行1階、2階、3階...差分,直到平穩(wěn)為止。先來(lái)個(gè)一階差分,上圖:


       



       
      從圖上看,一階差分的效果不錯(cuò),看著是平穩(wěn)的。


      平穩(wěn)性檢驗(yàn)過(guò)后,下一步是純隨機(jī)性檢驗(yàn)。

      對(duì)于純隨機(jī)序列,又稱白噪聲序列,序列的各項(xiàng)數(shù)值之間沒有任何相關(guān)關(guān)系,序列在進(jìn)行完全無(wú)序的隨機(jī)波動(dòng),可以終止對(duì)該序列的分析。白噪聲序列是沒有信息可提取的平穩(wěn)序列。


      對(duì)于平穩(wěn)非白噪聲序列,它的均值和方差是常數(shù)。通常是建立一個(gè)線性模型來(lái)擬合該序列的發(fā)展,借此提取該序列的有用信息。ARMA模型是最常用的平穩(wěn)序列擬合模型。


      二、平穩(wěn)時(shí)間序列建模

      某個(gè)時(shí)間序列經(jīng)過(guò)預(yù)處理,被判定為平穩(wěn)非白噪聲序列,就可以進(jìn)行時(shí)間序列建模。

       

      建模步驟:

      (1)計(jì)算出該序列的自相關(guān)系數(shù)(ACF)和偏相關(guān)系數(shù)(PACF);

      (2)模型識(shí)別,也稱模型定階。根據(jù)系數(shù)情況從AR(p)模型、MA(q)模型、ARMA(pq)模型、ARIMAp,d,q)模型中選擇合適模型,其中p為自回歸項(xiàng),d為差分階數(shù),q為移動(dòng)平均項(xiàng)數(shù)。

       

      下面是平穩(wěn)序列的模型選擇:

      自相關(guān)系數(shù)(ACF)

      偏相關(guān)系數(shù)(PACF)

      選擇模型

      拖尾

      p階截尾

      AR(p)

      q階截尾

      拖尾

      MA(q)

      p階拖尾

      q階拖尾

      ARMA(p,q)

       

       ARIMA 是 ARMA 算法的擴(kuò)展版,用法類似 。


      (3)估計(jì)模型中的未知參數(shù)的值并對(duì)參數(shù)進(jìn)行檢驗(yàn);

      (4)模型檢驗(yàn);

      (5)模型優(yōu)化;

      (6)模型應(yīng)用:進(jìn)行短期預(yù)測(cè)。

       

      三、python實(shí)例操作

      以下為某店鋪2015/1/1~2015/2/6的銷售數(shù)據(jù),以此建模預(yù)測(cè)2015/2/7~2015/2/11的銷售數(shù)據(jù)。



       

       

      #-*- coding: utf-8 -*-
      #arima時(shí)序模型

      import pandas as pd

      #參數(shù)初始化
      discfile = 'E:/destop/text/arima_data.xls'
      forecastnum = 5

      #讀取數(shù)據(jù),指定日期列為指標(biāo),Pandas自動(dòng)將“日期”列識(shí)別為Datetime格式
      data = pd.read_excel(discfile, index_col = u'日期')

      #時(shí)序圖
      import matplotlib.pyplot as plt

      #用來(lái)正常顯示中文標(biāo)簽

      plt.rcParams['font.sans-serif'] = ['SimHei'


      #用來(lái)正常顯示負(fù)號(hào)

      plt.rcParams['axes.unicode_minus'] = False
      data.plot()
      plt.show()

       

       

      #自相關(guān)圖
      from statsmodels.graphics.tsaplots import plot_acf
      plot_acf(data).show()

       



      #平穩(wěn)性檢測(cè)
      from statsmodels.tsa.stattools import adfuller as ADF
      print(u'原始序列的ADF檢驗(yàn)結(jié)果為:', ADF(data[u'銷量']))


      #返回值依次為adf、pvalue、usedlag、nobs、critical values、icbest、regresults、resstore

      原始序列的單位根(adf)檢驗(yàn)

      adf

      cValue

      p值

      1%

      5%

      10%

      1.81

      -3.7112

      -2.9812

      -2.6301

      0.9984

       

      Pdf值大于三個(gè)水平值,p值顯著大于0.05,該序列為非平穩(wěn)序列。

       

       

      #差分后的結(jié)果
      D_data = data.diff().dropna()
      D_data.columns = [
      u'銷量差分']


      #時(shí)序圖

      D_data.plot()
      plt.show()

       



      #自相關(guān)圖

      plot_acf(D_data).show()

      plt.show()




      from statsmodels.graphics.tsaplots import plot_pacf


      #偏自相關(guān)圖

      plot_pacf(D_data).show()

       


      #平穩(wěn)性檢測(cè)

      print(u'差分序列的ADF檢驗(yàn)結(jié)果為:', ADF(D_data[u'銷量差分']))


      一階差分后序列的單位根(adf)檢驗(yàn)

      adf

      cValue

      p值

      1%

      5%

      10%

      -3.15

      -3.6327

      -2.9485

      -2.6130

      0.0227

       

      Pdf值小于兩個(gè)水平值,p值顯著小于0.05,一階差分后序列為平穩(wěn)序列。

       


      #白噪聲檢驗(yàn)
      from statsmodels.stats.diagnostic import acorr_ljungbox


      #返回統(tǒng)計(jì)量和p值

      print(u'差分序列的白噪聲檢驗(yàn)結(jié)果為:', acorr_ljungbox(D_data, lags=1))


      一階差分后序列的白噪聲檢驗(yàn)

      stat

      P值

      11.304

      0.007734 


      P值小于0.05,所以一階差分后的序列為平穩(wěn)非白噪聲序列。

       


      from statsmodels.tsa.arima_model import ARIMA
      #定階

      #一般階數(shù)不超過(guò)length/10

      pmax = int(len(D_data)/10


      #一般階數(shù)不超過(guò)length/10

      qmax = int(len(D_data)/10


      #bic矩陣

      bic_matrix = []
      for p in range(pmax+1):
        tmp = []
        
      for q in range(qmax+1):


      #存在部分報(bào)錯(cuò),所以用try來(lái)跳過(guò)報(bào)錯(cuò)。

          try:
            tmp.append(ARIMA(data, (p,1,q)).fit().bic)
          
      except:
            tmp.append(
      None)
        bic_matrix.append(tmp)

      #從中可以找出最小值

      bic_matrix = pd.DataFrame(bic_matrix)

      #先用stack展平,然后用idxmin找出最小值位置。

      p,q = bic_matrix.stack().idxmin() 


      print(u'BIC最小的p值和q值為:%s、%s' %(p,q))


      取BIC信息量達(dá)到最小的模型階數(shù),結(jié)果p為0,q為1,定階完成。


       #建立ARIMA(0, 1, 1)模型

      model = ARIMA(data, (p,1,q)).fit() 

      #給出一份模型報(bào)告

      model.summary2() 


      #作為期5天的預(yù)測(cè),返回預(yù)測(cè)結(jié)果、標(biāo)準(zhǔn)誤差、置信區(qū)間。

      model.forecast(5)


      最終模型預(yù)測(cè)值如下:


      2015/2/7

      2015/2/8

      2015/2/9

      2015/2/10

      2015/2/11

      4874.0

      4923.9

      4973.9

      5023.8

      5073.8

       

      利用模型向前預(yù)測(cè)的時(shí)間越長(zhǎng),預(yù)測(cè)的誤差將會(huì)越大,這是時(shí)間預(yù)測(cè)的典型特點(diǎn)。

       

      參數(shù)檢驗(yàn)如下:


      Coef.

      Std.Err.

      t

      P值

      const

      49.956

      20.139

      2.4806

      0.0182

      ma.L1.D.銷量

      0.671

      0.1648

      4.0712

      0.0003

       

      從檢驗(yàn)結(jié)果p值來(lái)看,建立的模型效果良好。



        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多