Petrol fiyatları analizi- Aylık, Haftalık ve Günlük değişimlerin analizi¶

Baris Sanli barissanli2@gmail.com¶

www.barissanli.com/python

Petrol fiyatları genelde tahmin edilemez. Fakat petrol fiyat hareketlerinin tabii ki mevsimselliği var. Mesela Çin'in yeni yılı, Batı dünyasındaki resmi tatiller, ABD sürüş sezonu, rafinerilerin bakım sezonları... Veriye baktığımızda bunları görebilecek miyiz?

Bu yazıda Python'a yeni başlayanlar için ABD Enerji Bilgi Dairesi EIA'dan Brent petrol fiyatının günlük verisini indirerek üzerinde işlemleri göstermeye çalışıyorum.

Python öğrenmek R'a göre biraz daha zor. Kütüphaneler, kurallar... Ama Python, son 5 yıldaki BASIC dili gibi oldu. Yani biraz öğrenince, internette arama ile her derde deva bir reçete bulunabiliyor. Öğrenmek ise zaman alıyor. Unutmayalım, öğrenmek eğlenceli olsa herkes ders çalışırdı.....

Bu yazıda:

Petrol fiyatlarını internetten indirecek,
Veri setindeki değişimlere bakacağız, biraz da filtrelemeye giriş
Gruplama ve pivot tablo komutları
Sonra da dönemsel verileri inceleyeceğiz

Ben Python ve R için Jupyter tavsiye ediyorum. Bu dosyada zaten Jupyter Notebook ile yazıldı. Bir defa kurunca kullanımı kolay rahat. Windows/linux/mac için Anaconda indirmeniz yeterli. Bir komuttan sonra kırmızı renkli uyarı mesajı gelir ise onu internette aratın. Kütüphaneyi bulamadıysa, yeni terminal açıp pip install kütüphane_ismi yapmanız yeterli

Veriyi internetten indiriyoruz, ben bu dosyayı yazarken 8043 küsur nokta vardı. Veri dosyası güncellendikçe veri sayısı artar.

EIA'in verileri webde Excel formatında buradan indirilebilir https://www.eia.gov/dnav/pet/hist_xls/RBRTEd.xls . 1987'den beri her gün petrol kapanış fiyatlarını içeriyor

Kütüphaneler¶

Başlamadan önce, ben Python'da her uyarının ekrana gelmesini sevmiyorum. O yüzden uyarıları aşağıdaki komutla bastırıyorum

# Supress warnings
import warnings
warnings.filterwarnings('ignore')

Analiz için gerekli kütüphanelerden numpy(sayısal analiz) ve matplotlib(çizim) kütüphanelerini tek satır bir komutla %pylab inline ile dahil edebiliyoruz.

# %pylab inline komutu ile numpy, matplotlib dahil edilir
%pylab inline

# veri düzenlemeleri için de Pandas'ı pd olarak alalım
import pandas as pd

Populating the interactive namespace from numpy and matplotlib

Veriye ilk bakış¶

Tüm örnek boyunca tek bir veri kullanacağımdan, ana veriyi indirerek prices adlı bir değişkene yükleyeceğim. Bunun üzerinde değişiklikleri yaparsam, değişen halini başka değişkenlere yükleyeceğim. Internet bağlantısı var ise, dosyayı read_excel komutu ile indirebiliriz. Eğer kütüphaneyi bulamazsa Terminal açarak xlrd yani Excel dosyası okuma kütüphanesini kurabilirsiniz. Bilgisayarınıza otomatik kurar. Bunun için

Terminal/Konsol'a çıkıp xlrd kurmak için "pip install xlrd" yazıyoruz
Veri kaynak noktamı da Brent_data olarak tanımlıyorum

Brent_data="https://www.eia.gov/dnav/pet/hist_xls/RBRTEd.xls"

read_excel internetten dosyayı alarak Pandas'ın meşhur veri çerçevelerine çevirir. Fakat bir Excel dosyasının başında boş satırlar, sütünlar olabilir. Ayrıca veri birden çok alt sayfada da olabilir. Bu yüzden çalışma sayfası "Data 1"'de 2 satır atlayarak veri çekmeye başlıyoruz

prices=pd.read_excel("https://www.eia.gov/dnav/pet/hist_xls/RBRTEd.xls",sheet_name="Data 1", skiprows=2)

Verimizin kaç satır/sütun olduğunu .shape alt özelliği görebiliriz.

prices.shape

(8048, 2)

Verimizin 8048 satır ve 2 sütunu var. Python da (satır,sütun) şeklinde veri tanımları vardır. Şimdi verimizin baş ve son tarafına bakalım Sırasıyla head ve tail komutları ile verinin başını ve sonunu görebiliriz. İstersek baştaki ya da sondaki kaç satırı görmek istediğimizi de parantez içinde ekleyebiliriz.

#ilk 4 satır
prices.head(4)

# son 3 satır
prices.tail(3)

And let's see the column titles with list command

list(prices)

['Date', 'Europe Brent Spot Price FOB (Dollars per Barrel)']

Çizim¶

%pylab inline komutu kullandığımızdan plot yazarak doğrudan veriyi görebiliriz.

UYARI: %pylab inline komutunu baştaki gibi çalıştırmadıysanız, ne plot'u bulabilir ne de çizim yapar.

Veri setimizdeki alt verileri görmek için prices[' yazdıktan sonra TAB'a basmamız yeterli, Jupyter de otomatik tamamlama özelliği var . Ben mesela Europe yazıp TAB'a basınca alt veri geliyor

plot(prices['Europe Brent Spot Price FOB (Dollars per Barrel)'])

[<matplotlib.lines.Line2D at 0x7f37846d86d8>]

Histogram¶

Histogram veri setimizin nasıl dağıldığını gösterir ve sadece hist komutu ile çağrılır. Verimizin normal mi dağıldığı, şişman kuyruklar (yani uç olaylar) histogram ile görülebilir.

Şimdi petrol fiyatlarının dağılımını görelim

hist(prices['Europe Brent Spot Price FOB (Dollars per Barrel)'])

(array([3052., 1314.,  644.,  818.,  696.,  353.,  268.,  726.,  149.,
          28.]),
 array([  9.1  ,  22.585,  36.07 ,  49.555,  63.04 ,  76.525,  90.01 ,
        103.495, 116.98 , 130.465, 143.95 ]),
 <a list of 10 Patch objects>)

Grafikten sonra gelen yazılar can sıkıcı ise .; kullanarak bunları engelleyebilirsiniz. hist komutunda bins parametresi ile de çözünürlüğü arttırabilirsiniz. Yukarıda veri setini 10 kategori(bin) de değerlendirirken, şimdi 100 kategori de grafiği isteyelim

hist(prices['Europe Brent Spot Price FOB (Dollars per Barrel)'], bins=100);

Farkı gördünüz değil mi? bins=100 ile çok daha yüksek çözünürlüklü bir veri dağılımı görüntüsüne sahip olduk.

Gerçekte petrol fiyatları hep 20\$ etrafındaymış gibi bir görüntü var. Tüm veri seti için bu doğru olabilir. Fakat petrol fiyatlarında önemli olan yüzde değişimlerdir.

Asıl bakmamız gereken % değişimlerin dağılımıdır. Bunun için python'da Pandas kütüphanesinde yüzde değişim komutu var. .pct__change().

Veri setini seçip sonra .pct__change() yazınca otomatik olarak % değişimleri hesaplıyor

hist(prices['Europe Brent Spot Price FOB (Dollars per Barrel)'].pct_change(), bins=100 );

Petrol fiyatları görüldüğü gibi çok dağınık bir dağılım sergilemiyor. Hatta diyebiliriz ki hiç değişmemeye yakın. Fakat daha yakın bakmamız lazım.

Bir söz vardır, yarın için en iyi petrol fiyat tahmini bugün ki fiyatı söylemektir. Bakalım ne kadar doğru

Yakın Plan¶

hist komutu otomatik olarak sınırları kendi belirliyor. Yukarıdaki grafiğe bakınca %30(-0.3)lere kadar negatif, %20 (0.2)lere kadar pozitif değişkenler görüldüğü söylenebilir. Göz ucuyla bakınca, veri setinin önemli kısmı %5 ile %-5 arasında dağılıyor gibi gözükmektedir.

% değişimleri pct_change() ile hesaplattıktan sonra, bu hesaplanan verileri pc değişkenine atayalım, sonra geri kalan işlemleri pc ile yaparız.

pc=prices['Europe Brent Spot Price FOB (Dollars per Barrel)'].pct_change()
hist(pc, bins=100);

Veriyi filtrelemek¶

Yukarıdaki grafik daha detay bakış için kaba. Özellikle %1 ve %-1 arasındaki veriyi görmek isteyebilirim. Bu iki şekilde olur.

Veriyi filtreler, hist ile çizdiririm
Ya da hist komutuna bir range= parametresi verebilirim

Önce filtreleme ile başlayalım.

Normalde tüm verilerimiz pc'de. Yani yüzde değişim. Eğer

pc>0.01 yazarsam, pc verisetinde hücre değerlerinin 0.01'in üzerinde olduğu tüm hücreleri doğru/yanlış yani True ve False olarak verir. Bu değerleri tekrar pc veri setine girersek de, doğru yani True olan hücre değerlerini alırız

Şimdi ilk adımla başlayalım... Yer kazanmak adına daima head(5) komutu ile verisetinin sadece başına bakıyorum. Adım 1. %1 yani 0.01'den yüksek değerleri hücrelerin yerini saptayalım

(pc>0.01 ).head(5)

0    False
1    False
2    False
3    False
4    False
Name: Europe Brent Spot Price FOB (Dollars per Barrel), dtype: bool

Şimdi bu doğru/yanlış verilerini veri setine girerek 0.01 den büyük hücre değerlerini ve en başta satır değerlerini elde edelim.

pc[pc>0.01].head(5)

26    0.020321
30    0.014226
35    0.010267
39    0.020121
41    0.011275
Name: Europe Brent Spot Price FOB (Dollars per Barrel), dtype: float64

Aynı zamanda birden çok koşulu mantıksal operatörler (& ve diğerleri ile) birleştirebiliriz.

Mesela %1'den düşük ve %-1'den küçük değerlere(negatif değerlerde büyüklük-küçüklük ters) sahip hücreleri belirlemek için:

(pc<0.01) & (pc>-0.01)

pc[(pc<0.01) & (pc>-0.01)].head(3)

1   -0.009662
2    0.005420
3    0.002695
Name: Europe Brent Spot Price FOB (Dollars per Barrel), dtype: float64

Şimdi %1 ve %-1 arasındaki hücrelerin dağılımını çizdirelim

hist(pc[(pc<0.01) & (pc>-0.01)], bins=100);

Çok garip görünüyor, bir de %5 ve %-5 arasındaki verilere bakalım

hist(pc[(pc<0.05) & (pc>-0.05)], bins=100);

Tüm bunun daha kolay bir yöntemi var, tüm veri setini alıp, hist komutuna range= (-0.05, 0.05) parametresi girerek histogramın %5 ve %-5 arasındaki grafiğini görebiliriz

hist(pc, bins=100, range=(-0.05,0.05));

Dağılımın uç değerlerini görmek¶

Şimdi de, tüm seride, %1 ve %-1 arasındaki verilerin miktarını görmek isteyebiliriz. Bunun için ise .count komutunu kullanabiliriz.

# Orjinal verinin yapısı
pc.shape

(8048,)

shape genelde 2li bir veri döndürür. İçindeki veriyi almak için [0] veya [1] ile satır-sütun verisini çekebiliriz. Unutmayın Python'da (satır, sütun)

pc.shape[0]

8048

Verimizde bu yazının yazıldığı tarihte 8048 satır vardı. Daha sonra çalıştırıldığında bu satır sayısı artacaktır. Çünkü yeni petrol kapanış fiyatları eklenmeye devam ediyor, Excel dosyası EIA tarafından güncelleniyor.

pc.count()

8047

Uyarı shape ile sorduğumuzda 8048 satır vardı, count ile sorduğumuzda 8047 satır olduğu söylendi. Sorun şu, count() NA veri noktalarını yani olmayan verileri saymaz.

Olasılıkları hesaplarken iki yöntemi de göstermeye çalışacağım

%1 ile %-1 arasındaki verilerin oranı = (%1 ve %-1 arasındaki veri sayısı) / (toplam veri sayısı)

Başlayalım

# For 1% 
pc[(0.01>pc) & (-0.01<pc)].shape[0]/pc.shape[0]

0.44719184890656066

Peki %5 ile %-5 arasındaki veri sayısı

pc[(0.05>pc) & (-0.05<pc)].shape[0]

7770

Eğer %5 ila %-5 arasında değişimlerin sayısı 7770 ise, %5 ila %-5 arasındaki değişimlerin tüm değişimlere oranı 7770/8048 olacaktır

7770/8048

0.9654572564612326

Şimdi bunları sıra ile hesaplayarak notlara yazdırabiliriz

print("1% ile -1% arasındaki günlük petrol fiyat değişimlerinin oranı  ", (100*pc[(0.01>pc) & (-0.01<pc)].shape[0]/pc.shape[0]))
print("5% ile -5%  arasındaki günlük petrol fiyat değişimlerinin oranı " ,(100*pc[(0.05>pc) & (-0.05<pc)].shape[0]/pc.shape[0]))
print("5%'ün üzerindeki günlük petrol fiyat değişimlerinin oranı " , (100*(pc[(0.05<pc)].shape[0])/pc.shape[0]))
print("-5%ten daha küçük günlük petrol fiyat değişimlerinin oranı" ,  (100*pc[(-0.05>pc)].shape[0]/pc.shape[0]))

1% ile -1% arasındaki günlük petrol fiyat değişimlerinin oranı   44.71918489065607
5% ile -5%  arasındaki günlük petrol fiyat değişimlerinin oranı  96.54572564612326
5%'ün üzerindeki günlük petrol fiyat değişimlerinin oranı  1.9880715705765408
-5%ten daha küçük günlük petrol fiyat değişimlerinin oranı 1.4537773359840955

Gördüğünüz gibi bir sürü sayılar sayılar. Print komutu ile formatlama da yaparak daha güzel sayı dizilimleri elde edebiliriz.

Fakat bazı dikkat edilmesi gereken noktalar var. Eğer formatlama sistemi kullanıyorsanız, tırnak içindeki gerçek % işaretleri %% (iki) şeklinde yazılmalı, aksi halde hata verir. Buraları da formatlayacağını zanneder.

Sırayla yapılacaklar:

Tüm '%'(cümle içinde yüzde için kullanılan) işaretlerini '%%' çevirin ki Python bunları da formatlamaya kalkmasın
Tırnak bittikten sonra sayı vs eklemek için virgül (,) yerine % kullanın
Sayıların cümle içinde geleceği yere '%.2f' (yani noktadan sonra 2 ondalık ) kullanın

print("1%% ile -1%% arasındaki günlük petrol fiyat değişimlerinin oranı %.2f%%" % (100*pc[(0.01>pc) & (-0.01<pc)].shape[0]/pc.shape[0]))
print("5%% ile -5%%  arasındaki günlük petrol fiyat değişimlerinin oranı %.2f%%" % (100*pc[(0.05>pc) & (-0.05<pc)].shape[0]/pc.shape[0]))
print("5%%'ün üzerindeki günlük petrol fiyat değişimlerinin oranı %.2f%%" % (100*(pc[(0.05<pc)].shape[0])/pc.shape[0]))
print("-5%%ten daha küçük günlük petrol fiyat değişimlerinin oranı %.2f%%" % (100*pc[(-0.05>pc)].shape[0]/pc.shape[0]))

1% ile -1% arasındaki günlük petrol fiyat değişimlerinin oranı 44.72%
5% ile -5%  arasındaki günlük petrol fiyat değişimlerinin oranı 96.55%
5%'ün üzerindeki günlük petrol fiyat değişimlerinin oranı 1.99%
-5%ten daha küçük günlük petrol fiyat değişimlerinin oranı 1.45%

Uç değerler - Minimum, Maksimum değerler ve yerleri¶

Şimdi uç değerleri inceleyelim. Öncelikle en uç değerlerin olduğu, dağılım eğrisinin şişman uçlarını görmeye çalışalım.

Öncelikle en büyük fiyat düşüşlerine bakalım. Yani %-5 ile %-31 arasındaki değerleri görelim. Bunun için hist komutuna range= parametresi girmek yeterli

hist(pc, bins=100, range=(-0.31,-0.05));

Ama en düşük değer tam olarak kaç? Bunun için min komutunu kullanıyoruz

pc.min()

-0.30317040951122853

Bir gündeki en büyük fiyat düşüşü -30%. Peki bu hangi gün oldu? Önce kaçıncı satırda minimum değerin gerçekleştiğini görelim, komutumuz idxmax()

pc.idxmin()

936

satırda en küçük değer oluşmuş. Fakat gerçek fiyat değişkenleri değil değişimleri üzerinde çalıştığımızdan 936.satır için orjinal verideki satırları sorgulayacağız.

Orjinal verimiz prices dı, yüzde değişimler pc

Belirli bir satırdaki değere ulaşmak için kullanacağımız komut iloc . Örneğin veri.iloc[satır, sütun] gibi.Ben aslında tam 936'yı değil etrafındaki satırları da görmek isterim.

Bunun için iki yolumuz var:

Veri lokasyonunu bir dizi şeklinde istemek [935,936,937]
Yada range komutu ile o satırları isteyebiliriz. range(935,938)

prices.iloc[[935,936,937]]

prices.iloc[range(935,938)]

Peki neden pc den istemedik? Görelim, şimdi pc ile o satırlara bakalım.

pc.iloc[[935,936,937]]

935    0.035214
936   -0.303170
937   -0.094787
Name: Europe Brent Spot Price FOB (Dollars per Barrel), dtype: float64

Gördüğünüz gibi hiç tarih verisi yok. Çünkü orjinal veriden bir değişim hesaplayıp başka bir değişkene aktık, bu sebeple orjinal verinin endeksi (tarihler) yeni değişkene gelmedi

Şimdi de maksimum değerin yerini bulalım. .idxmax() komutu ile maksimum değerin satırını bulabiliriz.

# maksimum değer
pc.idxmax()

5499

prices.iloc[range(5498,5501)]

Sonuç olarak.

Petrol fiyatlarındaki en büyük düşüş 17 Ocak 1991'de oldu. Petrol fiyatları 30'dan 21\$ a düştü
Petrol fiyatlarındaki en büyük artış ise 2 Ocak 2009'da oldu. Fiyatlar 35'den to 42\$'a çıktı

Verisetini geliştirmek : Hafta, Ay, %değişim ile daha büyük bir veri seti¶

Internetten indirdiğimi veri setinde sadece Brent fiyatları var. prices veri setimize aşağıdaki başlıkları da eklemek isteyebilirz

Gun
Hafta
Ay
Yil
Yuzde_Degisim

İlk adım olarak Hafta verisini ekleyelim. Bu o tarihin yılın hangi haftasına denk geldiğini verecek.

Yeni bir sütun oluşturmak çok kolay. Sadece yeni sütun ismi ile yeni bir değişken tanımlayıp, hesapladığımız değerleri oraya atıyoruz. Bu durumda "Hafta" başlığı ile yeni sütun açmak yeterli olacaktır.

İndirdiğimiz veri setinin indeksi - yani ana göstergesi Date olduğundan doğrudan bu tarihten datetime kütüphanesi dt ile dönüşüm yapacağız.

# Hafta isimli yeni bir sütun oluştur ve veriseti endeksinde tarihin hafta değerini al
prices["Hafta"]=prices["Date"].dt.week

Veri setimizin son 3 satırını görelim

prices.tail(3)

Eğer problem yaşamadıysak ay, yıl ve haftanın günü(HG) değişkenlerini de ekleyebilir. Değişken isimlerinde Türkçe karakterler sorun olduğundan ben ingilizce alfabe ile değişkenleri tanımlamayı tercih ettim.

prices["Ay"]=prices["Date"].dt.month
prices["Yil"]=prices["Date"].dt.year
prices["HG"]=prices["Date"].dt.dayofweek

Veri setimizi genişlettik. Haftanın günü (HG) verisi Pazartesi için 0, Cuma için 4 değerini verir. Petrol piyasaları haftasonu açık olmadığından sadece haftaiçi değişkenleri var.

#let's see last 4 lines
prices.tail(4)

Şimdi analizimize devam edebiliriz

Python Pandas ile pivot tablolama¶

Gruplama¶

Toplulaştırılmış veri oluşturmak için en kolay yol gruplandırmadır. Mesela veriyi haftalara göre gruplandırabilirz. pandas kütüphanesinde, doğrudan veri setinden çağırabileceğimiz groupby komutu ile gruplama yapabiliriz. Daha sonra gruplanan verinin ortalamasını .mean() ile veya sayısını .count() ile alabiliriz. prices yazıp . koyup TAB a basmanız yeterli, alt komutlar çıkacaktır.

plot(prices.groupby("Hafta")['Europe Brent Spot Price FOB (Dollars per Barrel)'].mean())

[<matplotlib.lines.Line2D at 0x7f37842bd748>]

Maalesef bazı yıllarda 53 hafta olabiliyor, bu yüzden ilk 52 haftayı almak için head(52) komutunu kullanabiliriz.

plot(prices.groupby("Hafta")['Europe Brent Spot Price FOB (Dollars per Barrel)'].mean().head(52))

[<matplotlib.lines.Line2D at 0x7f37843f5898>]

Grafiğe bir başlık ve eksen isimleri gerekiyor. %pylab inline 'ı en başta yazdığımız ve çalıştırdığımız için şimdi çizim alt komutlarını doğrudan title, xlabel veya ylabel olarak çağırabiliriz.

plot(prices.groupby("Hafta")['Europe Brent Spot Price FOB (Dollars per Barrel)'].mean().head(52))
title("52 hafta ortalamalı petrol fiyatları (1987-2019)")
xlabel("Hafta")
ylabel("$/varil");

Şimdi bir sonraki aşamayı deneyelim. Sadece tek 1 yıl verisini çekmeye çalışalım. Mesela 2018

İki adımlı bir yolumuz olacak.

1) pc'de yaptığımız gibi önce yil verisinin 2018'e ait olduğu satırları alalım. prices[prices.Yil==2018]

2) ilk 4 satırına bakalım .head(4)

pf=prices[prices.Yil==2018]
pf.head(4)

Şimdi de filtrelediğimiz sonuçları gruplayarak, sonra da ortalamalarını alacağız.

pf.head(4)

# Just look at the averages for the first 4 week
pf.groupby("Hafta")['Europe Brent Spot Price FOB (Dollars per Barrel)'].mean().head(4)

Hafta
1    67.810
2    69.470
3    69.388
4    70.040
Name: Europe Brent Spot Price FOB (Dollars per Barrel), dtype: float64

Şimdi herşeyi birleştirelim ve grafiğini çıkaralım

plot(pf.groupby("Hafta")['Europe Brent Spot Price FOB (Dollars per Barrel)'].mean())

[<matplotlib.lines.Line2D at 0x7f3783c74cf8>]

Veya herşeyi tek satırda da yazabiliriz. Yani 2018'deki haftaların ortalama fiyatı...

plot(prices[prices.Yil==2018].groupby("Hafta")['Europe Brent Spot Price FOB (Dollars per Barrel)'].mean())

[<matplotlib.lines.Line2D at 0x7f3783ae4550>]

Şimdi son 5 yıl ve 10 yılın grafiklerini de görebiliriz

5 yıl için range(2014,2019) veya prices.Yil>=2014
10 yıl için range(2009,2019) veya prices.Yil>=2004

komutlarını kullanabiliriz.

plot(prices[prices.Yil>=2014].groupby("Hafta")['Europe Brent Spot Price FOB (Dollars per Barrel)'].mean().head(52))

[<matplotlib.lines.Line2D at 0x7f37842f3e48>]

Bunu daha okunabilir şekilde de yapabiliriz. Örneğin

1) 2014'ten büyük yılları ayrı bir değişkene atarız mesela p2014_2019

2) Ardından tüm işlemleri p2014_2019 için yaparız.

p2014_2019=prices[prices.Yil>=2014]

plot(p2014_2019.groupby("Hafta")['Europe Brent Spot Price FOB (Dollars per Barrel)'].mean().head(52))
# title for the plot and ";" for supressing text output
title("Haftalık Petrol Fiyatları(2014-2019)");

Pivot Tablolar¶

Uyarı _Ben aynı işlemleri hem groupby hem de pivottable ile yaptım. Ama sonuçlar küçük de olsa ayrışıyordu. NA(olmayan veri) işlevinden olabilir diye fonksiyon opsiyonlarını denedim, ama sonuç elde edemedim

Pivot tablolara veri analizinde önemli araçlardandır. Bilmeyenler için elimizdeki günlük veriden, haftaları satıra, yılları sütuna al, Brent rakamlarını da ortalamalardan oluştur diye tek satır ile dönüşüm yapabileceğiz.

Orjinal veri setinden verileri aşağıdaki adımlar ile şekillendireceğiz

Yeni veri setinin endeksini(ana kolon, satır verilerinin neye karşılık geldiğini) berlirliyoruz ----> index=['Hafta']
Ardından veri setimizin sütunları yıllar olacak ----> columns=['Yil']
numpy kütüphanesinden günlük Brent fiyatlarının ortalamasını işleyeceğiz ----> aggfunc=np.mean
Hafta ve yıllara göre ortalaması alınan değerler Brent fiyatlar olacak ----> values='Europe Brent Spot Price FOB (Dollars per Barrel)'

Petrol fiyatını uzun uzun "Europe Brent Spot Price FOB (Dollars per Barrel)" yazmıyorum, Jupyter de Euro yazıp tab a basınca kendinden geliyor

pt=prices.pivot_table( values='Europe Brent Spot Price FOB (Dollars per Barrel)', index=['Hafta'],
                     columns=['Yil'], aggfunc=np.mean)

Pivot tablomuzu oluşturarak yüklediğimi pt değişkenine bakalım(pt pivot tablo kısaltması)

pt.head(4)

Şimdi Filtreleme Yapalım¶

Bakınca 1987'de amma çok NaN -olmayan veri- var gözüküyor. Çünkü veri seti 1987 Mayıs'tan başlıyor. Diğerlerinde sorun gözükmüyor.

Şimdi 2014 ile 2019 arasındaki yılları seçerek ilk 52 haftalarını çizebiliriz

range(2014, 2020) komutu 2014,2015,2016,2017,2018,2019.... dizisini oluşturur. range'de bitiş noktası dahil değildir
Her yıldaki haftaların ortalamasını mean komutunu (axis=1) ile alıyoruz. axis=1 ile satırların ( yani aynı haftaların) ortalamasını al diyoruz.
53ncü hafta ender görülen bir şey, o yüzden sadece ilk 52 haftayı alıyoruz head(52)

plot(pt.loc[:,range(2014,2020)].mean(axis=1).head(52))
title ("Haftalık fiyat ortalamaları (2014-2019)");

İnanmazsanız range komutunun neleri içerdiğine bakabilirsiniz

# range command does not include the last element 
print(*range(2014,2020))

2014 2015 2016 2017 2018 2019

Eğer sorun yoksa pct_change() ile haftadan haftaya %değişimleri de hesaplayalım

ptpc=pt.pct_change()

Daima verisetini yada bir kısmını kontrol edin (mesela ilk 4 satırı head(4) ile görelim)

ptpc.head(4)

İlk satır hep NaN, yani hesaplanamadı, Çünkü ilk satır yani hafta 1'in üstünde bir değer yok.

Şimdi bir de grafikleyelim, haftalık ortalama % değişimleri.

plot(ptpc.mean(axis=1))
title("Haftalık petrol fiyat değişimleri(1987-2019)")
xlabel("Haftalar")
ylabel("Haftadan Haftaya % değişim");

5 ve 10 yıllık ortalama haftalık fiyatlar¶

% değişimler yerine, dikkatimizi tekrar orjinal veriler pt 'ye çevirelim. Son 5 ve 10 yıldaki fiyat ortalamalarını çıkarmaya çalışalım

Yıl verilerini oluştur range(2014, 2019) ---> 2014,2015,2016,2017,2018
pt verisetinde bu yılları seç ---> pt.loc[:range(2014,2019)]
Seçtiğimiz yıllardaki hafta ortalamaları al ---> mean(axis=1)
53ncü haftayı atla ---> head(52)

# First 5 years 2014,2015,2016,2017,2018
plot(pt.loc[:,range(2014,2019)].mean(axis=1).head(52))

[<matplotlib.lines.Line2D at 0x7f37849109e8>]

Şimdi 10 yılı görelim

# 10 years of average weekly prices
plot(pt.loc[:,range(2009,2019)].mean(axis=1).head(52));

10 yıllık ortalamada, 10ncu hafta civarı büyük bir artış gördük. Fakat benim tavsiyem son 5 yıla bakmak çünkü ABD şeyl üretimi son 5 yılda ana etkisini oluşturdu. Ben 5 yılı yapayım, siz 10 yılı deneyebilirsiniz.

Bu sefer veriyi alıp, yüzde değişimlere bakalım pct_change ile

pt_haftalik=pt.loc[:,range(2014,2019)].mean(axis=1).head(52)
plot(pt_haftalik.pct_change());

5 yılda bir şeye dikkat ettiniz mi? Yılın başında bir sürü artış, son çeyrekte ise bir sürü düşüş (0'ın altında değişim var)

Şimdi bu değişimlere de yakından bakalım. Kodumuz güzel gözüksün diye yüzde değişimleri ayrı bir değişkene atalım

pt_haftalik_pc=pt_haftalik.pct_change()

Bu sefer mutlak değer 2%'nin üzerindeki değişimleri görmeye çalışalım.

Yüzde değişimin abs ile mutlak değerini alalım----> abs(pt_weekly_pc)>0.02
Şimdi de bu değerleri görelim ----> pt_weekly_pc[abs(pt_weekly_pc)>0.02]

pt_haftalik_pc[abs(pt_haftalik_pc)>0.029]

Hafta
2     0.068843
8     0.029134
15    0.042727
46   -0.037651
51   -0.037612
dtype: float64

Haftaları Tarihlere Çevirme¶

%2'nin(+-%2) üzerinde değişimlerin olduğu hafta rakamlarını biliyoruz, fakat bunlar bu sene(2019)'da hangi tarihlere denk geliyor.

Beni işi birazda daraltmak adına 2.9% (tamamen rastsal), değişimlerin üzerindeki değişim haftalarını alıyorum. Önce bu verilerin olduğu hafta rakamlarını (.index.values) ile alıyor strptime komutu ile de tarihe çeviriyorum. Tarih çevrimlerinden nefret ediyorum....

for hafta in pt_haftalik_pc[abs(pt_haftalik_pc)>0.029].index.values:
    print(time.asctime(time.strptime('{} {} 1'.format(2019, hafta), '%Y %W %w')))

Mon Jan 14 00:00:00 2019
Mon Feb 25 00:00:00 2019
Mon Apr 15 00:00:00 2019
Mon Nov 18 00:00:00 2019
Mon Dec 23 00:00:00 2019

Son 5 yılda, en güçlü

Fiyat artışları, Ocak'ın 2. haftası, Şubat'ın son haftası ve Nisan ortasında görüyoruz (pozitif değerler)
Fiyat düşüşlerini ise Kasım ve Aralık'ta görüyoruz

Aylık veri¶

Aylık analiz için bir farklı adımımız daha var. Bunun için bir önceki senenin Aralık aylarını Ocak ayının önüne koyacağız. Bu şekilde Ocak aylarındaki değişimleri de hesaplama şansımız olacak.

Bunun için son satır (12. ay = Aralık) alıp, bir sütun sağa kaydırıp (1987 ARalık 1988 Ocak'tan önce gelecek şekilde) en üst satıra taşıyoruz.

Adımlarımız ise şöyle:

Pivot tablo ile aylık verileri ana sütuna al
1. satırdaki Aralık değerlerini bir sütun kaydı (shift(1)) ve en başa 0.ay olarak ekle
Yüzde değişimleri hesapla

# Prices monthly data to pm variable
pa=prices.pivot_table( values='Europe Brent Spot Price FOB (Dollars per Barrel)', index=['Ay'],
                     columns=['Yil'], aggfunc=np.mean)

Yeni verimizin ilk 4 satırına bakalım

pa.head(4)

Şimdi dikkat

pa.loc[12,:] 12nci satırdaki Aralık verilerini verecek
.shift(1) ile 1987 Aralık değeri 1988 Sütununa kayacak
Bu kayan veriyi de 0 (sıfır) endeksi ile en başa yapıştıracağız

pa.loc[0]=pa.loc[12,:].shift(1)
pa.head(3)

Bizim sıfırıncı sütun nerede? bir de son 3 satıra bakalım

pa.tail(3)

Evet 0.satır ekledik ama en sonda kaldı, onu başa almak için endeksi tekrar sırala diyerek, verimizin üzerine yazacağız. Bunun için sort_index() komutu yeterli olacak

pa=pa.sort_index()
pa.head(3)

Şimdi yüzde değişimleri hesaplayalım

# aylık fiyattan aylık değişim
pad=pa.pct_change()
pad.head(3)

0.satır hep NaN. Çünkü üstünde satır olmadığından yüzde değişim hesaplanamadı. Bu yüzden silelim

Satırı silmek için drop komutunu kullanarak, verinizin üzerine yazmanız lazım

pad=pad.drop(pad.index[0])

pad.head()

Şimdi son 10 yıldaki değişimlerin ortalamalarını hesaplayabiliriz.

pad veri setindeki yılları seç
Her satır (aynı aylar için) ortalama al

pad.loc[:,range(2009,2020)].mean(axis=1)

Ay
1    -0.008514
2     0.037552
3     0.029233
4     0.035098
5     0.013082
6    -0.005655
7    -0.004082
8     0.005426
9     0.012227
10    0.009811
11   -0.029433
12   -0.018523
dtype: float64

Son 10 yılda, Şubat-Nisan fiyat artışlarının pozitif olma ihtimali yüksek olduğu aylar. Kasım-Aralık ise düşüş yönünde eğilimlerin yüksek olduğu aylar

Şimdi 1987-2019 dönemine, yani tüm veri setine bakalım.

pad.mean(axis=1)

Ay
1     0.007312
2     0.006919
3     0.027188
4     0.032079
5     0.021397
6    -0.007607
7     0.017863
8     0.024199
9     0.015686
10   -0.000595
11   -0.033889
12   -0.025382
dtype: float64

İki sonucu birleştirirsek

Fiyat artışları Şubat-Mart'ta başlıyor
Nisan fiyat artışlarının görülme ihtimali en yüksek olan ay
Fiyat değişimleri Kasım-Aralık gibi negatif oluyor

Artış veya Düşüş yönündeki ayların toplama oranı¶

Daha detayda olasılıkları da hesaplayabiliriz. Yani tüm yıllar boyunca aynı aylar için kaç yıl pozitif veya negatif olmuş, toplama oranı ne? gibi...

Eğer hücre 0'dan büyük(artış ise)seç ----> pad[(pad.iloc[:,:]>0)]
Aynı satırda pozitif hücre sayısını say ----> .count(axis=1)
Yukarıdaki rakamı tüm sütun sayısına böl ----> /(2020-1987+1)
Tüm hesaplanan verileri de "Artis" isimli sütuna kopyala --> pmc["Positive"]

pad["Artis"]=pad[(pad.iloc[:,:]>0)].count(axis=1)/(2020-1987+1)

Aynısını negatif, yani düşüşler için yapalım

pad["Dusus"]=pad[(pad.iloc[:,:]<0)].count(axis=1)/(2020-1987+1)

Hem artış hem de düşüş olasılıklarını birlikte görelim

pad[["Artis","Dusus"]]

Yukarıdaki sonuçlara göre en yüksek fiyat artışı görme ihtimali Nisan'da (ay=4), ve ihtimali(=artış) 70%(=0.705). Fiyat düşüş ihtimali ise 26%(=0.26)

Aylık Grafiklere Devam¶

2009-2019 ve 1987-2019 arası aylık ortalama fiyatların grafiği ile devam edelim

plot(pa.loc[:,range(2009,2020)].mean(axis=1))
title('2009-2019 Ortalama aylık fiyatlar')
xlabel("Aylar")
ylabel("$/varil");

plot(pa.loc[:,range(1987,2020)].mean(axis=1))
title('1987-2019 Ortalama aylık fiyatlar')
xlabel("Aylar (0 = önceki Aralık)")
ylabel("$/varil");

Haftanın günü etkisi¶

Acaba petrol fiyatlarında haftanın günü hareketin yönünü etkiliyor mu? Bazen "Cuma günleri açığa satma" gibi sözleri traderlardan duyabiliyoruz. Bakalım doğru mu?

Bu sefer verimizi haftanın günü yani HG değişkenine göre yeniden yapılandıracağız. Fakat önce % değişimleri hesaplamamız gerekecek

prices.head(3)

Günlük yüzde değişimleri hesaplayalım pct_change ile

prices["Yuzde"]=prices["Europe Brent Spot Price FOB (Dollars per Barrel)"].pct_change()
prices.head(3)

Şimdi pivot_table ile günleri sütunlara, yıllar da endeks olacak şekilde verimizi şekillendirelim. (0= Pazartesi, 4=Cuma)

pgun=prices.pivot_table( values='Yuzde', index=['Yil'],columns=['HG'], aggfunc=np.mean)

# This time check the last 5 lines
pgun.tail (5)

pgun* yani haftanın günlerinden derlenen veride kaç satır ve sütun var?

pgun.shape

(33, 5)

Bu fiyat değişimlerinin ne kadarı pozitif, ne kadarı negatifmiş. Önce pozitifler

pgun[pgun>0].count()

HG
0    14
1    14
2    18
3    24
4    19
dtype: int64

Şimdi de negatiflere bakalım (pday küçüktür sıfır)

pgun[pgun<0].count()

HG
0    19
1    19
2    15
3     9
4    14
dtype: int64

Olasılık hesabı da gayet basit, pozitifleri/negatifleri toplam satır sayısına böl

pgun[pgun>0].count()/pgun.shape[0]

HG
0    0.424242
1    0.424242
2    0.545455
3    0.727273
4    0.575758
dtype: float64

Haftanın 3.günü(0=Pazartesi), Perşembe gününün pozitif kapanma ihtimali çok çok yüksek: %72

pgun[pgun<0].count()/pgun.shape[0]

HG
0    0.575758
1    0.575758
2    0.454545
3    0.272727
4    0.424242
dtype: float64

Negatif, yanin düşüş ihtimali ise Pazartesi veya Salı daha yüksek görünüyor.

Sonuç¶

Bu çalışma kitabında, basit filtreleme, gruplandırma, pivot tablo ve çizim fonksiyonlarını örneklemeye çalıştım.

Evet belki, petrol fiyatları tahmin edilemez, ama insan davranışlarına bağlı belirli eğilimler olabilir. Python ile bunları aramak, bulmak daha kolaylaşmışa benziyor

Python ile Enerji Analizi (barissanli.com/python)