亚洲成在人线在线播放_亚洲精品高清视频_欧美两性网_国产成人综合自拍_九九爱精品_四虎精品免费国产成人_欧美国产韩a在线视频_韩国三级丰满少妇2_欧美一级视频免费_久久免费视频播放,人人爽人人爽人人片AV免费,成人无码h免费动漫在线观看,国产手机在线精品

了解萬里揚的最新動態(tài)

資訊中心

負荷特性研究③丨基于赤池法則和距離分析的電力系統(tǒng)負荷預測研究·下篇

 

 

在上篇文章中,我們確定了電力系統(tǒng)負荷預測對市場主體的必要性,,并利用多元回歸確立預測基本方法,。接下來,我們將引入赤池法則和庫克距離,,提升負荷預測結果的精準度,。

 

2.2曲徑通幽,巧用赤池法則有效篩除弱相關要素

 

赤池法則(Akaike information criterion,,AIC)是衡量和評價模型擬合優(yōu)良性的標準,,被廣泛應用于權衡模型的復雜度和評價模型的擬合優(yōu)良性。在日本統(tǒng)計學家赤池弘次首次提出該法則的論文中,,模型的AIC參數以如下形式表示,。其中L是最大似然函數,k表示模型回歸關聯(lián)的變量數目,。

 

 

那么,,這樣一個“平平無奇”的式子和聽起來較為抽象的最大似然函數與我們今天探討的模型回歸誤差有什么關系呢?根據大數定律,,當研究樣本足夠多時,,我們可以假設模型回歸的誤差符合高斯分布(正態(tài)分布)。在此前提下,,最大似然函數取對數(以e為底)即等價于最小平方誤差,,L越大意味著模型擬合精度越高。數學功底強大且看到這里不覺技癢的大神可嘗試結合最大似然估計的成立條件和誤差的正態(tài)分布表達式自己推導一下,,而像小編一樣懶于動腦的小白只需要記住這個結論就可以了,。順帶一提,這個結論也是眾多基于損失函數的機器學習方法的理論基礎,。AIC表達式可近似理解為在模型的擬合準確度-2ln(L)的基礎上疊加了模型變量數目的懲罰項2k,。容易看出,在過擬合情況下,,模型擬合精度高但擬合所用變量較多,,則L值和K值均會較大。在欠擬合的情況下,,模型擬合精度差但所用變量較少,,則L值和K值均會較小。兩種情況下模型的AIC值均會較大,。

一般而言,,在回歸模型考慮的變量從少變多的過程中,隨著模型精度提升,似然函數L的增速會先大于k的增速,,因此AIC值不斷下降,。但隨著模型復雜度提升到了一定水平而精度增長趨緩時,似然函數L的增速逐漸小于k的增速,,AIC值開始上升,。因此,對于若干個不同變量數目的同類回歸模型,,可以優(yōu)先考慮AIC值最小的模型,,保證模型既具備較高適用性的同時不失預測精確度。

 

2-3.png 

隨著自變量逐步減少,,AIC值呈現“先減后增”的規(guī)律

 

為了降低模型的復雜度,,避免“維數災”,我們根據回歸模型的AIC參數去篩選關鍵變量,,從第二階段的回歸模型出發(fā),,設計了一套精簡變量的方法,具體如下:1,、將所有的自變量,,包括歷史負荷和溫度、風力,、濕度和天氣條件等天氣信息做最小二乘法擬合,,基于N個變量得到初始模型A-0(即Case2),計算A-0的AIC值AIC1,;2,、在A-0的基礎上逐個刪除變量并做最小二乘擬合,得到N個N-1個變量的模型,,分別計算這些模型的AIC值,,選取AIC值最小的模型作為局部最優(yōu)模型A-1;3,、對模型A-1重復步驟2的過程,,直到某一步的局部最優(yōu)模型的AIC值較上一步不再明顯下降。

上述方法可以求得理論上AIC值最低的模型,。但值得注意的是若起始納入考慮擬合的變量過多,,有時AIC值最低的模型仍擁有較多變量。因此在實際應用中不必墨守理論最優(yōu)模型方法,,可在第3步后繼續(xù)結合AIC值最低點后上升的速度和模型復雜度的下降程度選取AIC值較低而擬合變量較少的模型,。

 

 

基于AIC篩選弱相關變量后模型擬合效果初步提升(Case4)

 

我們在研究系統(tǒng)負荷與天氣的相關性的案例中采取了上述方法,成功篩選出了對負荷影響最大的氣象要素(最高溫度,,最低溫度和天氣狀況),。而且在我們的案例中,,僅采用關鍵要素去做擬合(Case 3)時模型精度要優(yōu)于將全部天氣信息一股腦灌進回歸模型(Case 2)內。這是因為某些與負荷弱相關的變量在某些樣本里波動性很大(如沿海城市海區(qū)的風力水平受受洋流和氣壓帶影響,,天與天之間波動頻繁且時間分布差異較大,,但海上風力在正常范圍內時對城市負荷幾乎無顯著影響),從而放大了樣本的方差,,造成擬合效果偏差,。確定了和負荷相關的強相關因素后,為了進一步提升模型的精度,,我們嘗試加入了更多城市的關鍵氣象信息(Case 4),然而盡管模型變得更加復雜,,但精確度提升效果卻著實令人失望,。這說明了除了氣象因素和歷史負荷外,仍有其他關鍵要素對負荷有較大的影響性,。然而,,由于這些要素是未知的,我們難以直接提出明確的方法來識別這些要素,。因此,,我們退而求其次,參考了一些聚類算法的思想,,設法篩選要素含量豐富的樣本,,再根據這些樣本的特征進行分析。

 

2.3一石二鳥,,分析庫克距離查異常指明路

 

 

距離常用于衡量樣本之間的差異,。在線性回歸中,庫克距離(Cook's Distance)描述了單個樣本對整個回歸模型的影響程度,。某個樣本的庫克距離定義為基于所有樣本得到的所有估計值和未包含該樣本所得的估計值之間的平均差異,。庫克距離測量了每個樣本對回歸結果的影響。距離值越大則說明該樣本對擬合效果的影響越大,。庫克距離也可以用來檢測異常點,。在最理想的情況下,每個樣本對模型的影響是相等的,。如某個樣本的庫克距離非常大,,我們可以視這個樣本為與整體特性相異的異常點。

 

2-5.png 

研究樣本庫克距離統(tǒng)計示意

 

通過反復研究數據特征,,我們在本次研究中將4倍于平均距離的樣本作為異常點篩選出來,。剔除了這些異常樣本后剩余樣本總體整體特征和數量仍較為可觀比較一致,大幅提升了擬合效果(Case 5),。Case 5 的擬合誤差已經達到了0.9347,,意味著對于特性與樣本特征相近的運行日系統(tǒng)運行負荷預測已達較高的準確度,。

 

 

AIC+庫克距離分析后模型擬合效果顯著提升(Case5)

 

此外,我們還嘗試從庫克距離分析的結果進行事后分析以尋找對負荷產生顯著影響的隱藏因素,,從而確定模型的適用范圍,。通過對被篩選出來的運行日樣本進行了進一步的共性特征分析,我們發(fā)現這些“異常運行日”通常分布于法定節(jié)假日結束后的工作日,、強對流天氣影響日以及天氣狀況劇烈變化約前后兩天等具有某些特征的時期,。對這些異常樣本的分析有效加深了我們對系統(tǒng)負荷影響因素的進一步理解,并能在實際負荷預測中意識到模型的適用范圍,,有效降低預測失誤率,。

 

3小結

 

為了幫助市場主體有效分析市場形勢,萬里揚能源科技技術團隊針對電力系統(tǒng)負荷預測開展了研究工作,。我們旨在刪繁就簡,,為市場用戶設計便于應用、易于執(zhí)行,、復制并可自主發(fā)揮的研究手段,。在本文所述的研究案例中,成功建立了“線性回歸模型+赤池法則篩選弱相關變量+庫克距離分析篩除異常樣本”的基本分析方法,。所用數據均基于公有信息,,且取得了較好的擬合效果。此外,,這套方法易于復制,,其中的回歸、篩選等方式均可替換為其他算法以進一步提升模型的準確度和適應范圍,,唯一要注意的是算法之間的協(xié)調配合關系,。

本次研究的過程也大大啟發(fā)了我們的思路,在后續(xù)樣本聚類分析,、歸因分析和多時間尺度精細化模型應用等層面取得了一定進展,,并在實戰(zhàn)中獲得了不錯的效果,有效支持了我們后續(xù)開展市場中長期的研究分析工作,。我們也衷心希望能耐心看到這里的看官對我們的研究進行拓展,,并渴望能一起合作碰撞出更棒的成果。








微信掃碼辦理電力零售交易業(yè)務

國網區(qū)域

南網區(qū)域