Ehtimolliklar

Kirish

Ushbu qismda biz ehtimollar nazariyasining boshlang’ich ta’riflarini va qoidalarni o’rganib chiqamiz, hamda uning mashinali o’rganishda keng qo’llaniladigan usullaridan biri bo’lgan, Naive Bayes algoritmi yordamida insoning diabetga chalinganilini tashhis qiluvchi dastur tuzamiz. Bu fanning tarixi o’yinlarda yutishni tahlil qilishdagi imkoniyatni o’rganish bo’lib, 1600-yillardan o’rganilib boshlangan. Albatta bundan ham oldin boshqa ko’rinishlarda mavjud bo’lgan. Odatda Mashinali o’rganish masalalarini shakllantirishda va ularni belgilashda ikki xil yondashuv mavjud. Garchi ikkisi ham bir narsani ifoda etsada, lekin ulardagi ta’riflar qoidalar tubdan farq qiladi. Shuning uchun ushbu bobda biz ko’proq ehitmollar nazariyasi nuqtai nazaridan SI, xususan mashinali o’rganish masalalarini yechamiz.

Keling birinchi ushbu fanning maqsadini va o’rganadigan hayotiy masalalaridan bir ikki misol keltiraylik, shu orqali tushinish osonroq bo’ladi. Biz kundalik hayotimizda har doim biror joyga borib kelamiz va bu narsa qayta-qayta takrorlanadi. Masalan, o’qishga borib kelishni olsak. Tassavur qilaylik uydan o’qishga yetib olish uchun bir nechta yo’llar mavjud. Bulardan qaysi biri kunning qaysi vaqtida yaxshi ekanligini kuzatishlarimizdan xulosa qilib olganmiz hamda shunga ko’pincha rioya qilamiz. Lekin ushbu yo’l har doim ham eng tez yo’l bo’lmasligi mumkin, ammo eng yaxshi bo’lgan holatlari juda ko’p. Masalan, bir yil davomida o’qishga 100 marta borib keldik. Aynan shu biz tez deb o’ylagan yo’l orqali. Ba’zi sabablarga ko’ra shundan 86 martasida eng tezi bo’ldi, qolgan hollarda yetarlicha ko’p vaqt ketdi, misol uchun yarim soatdan ko’p. Shunda biz aytishimiz mumkin, bu yo’lda orqali juda kam hollarda sekin borishim mumkin, ya’ni tez borishning ehtimoli 86%. Ushbu fanda shu kabi narsalarni o’rganamiz.

Ba’zida biz statistika va ehtimollini adashtirib yoki ikkisini doim yonma-yon bo’lgan holatini ko’ramiz. Hozir ham ushbu holat yuz bermoqda, ya’ni bu qo’llanmada ham biz ikki fani ketma-ketlikda o’rganib boramiz. Garchi ular orasida fundamental farqlar mavjud bo’lsada, ehtimollar nazariyasi va statistika ikkisi ham noaniqliklar ustida ish yuritadi. Ehitmollar nazariyasi deduktiv mulohazalar bilan ishlasa, statistika induktiv mulohazalar bilan.

Ta’riflar

Eksperiment deb kuzatishlarni yoki o’lchovlarni yig’ib olish ketma-ketligiga aytiladi. Ushbu eksperimentni ishga tushirishga va natija olishga sinov deyiladi. Biz sinovlar o’tkazish natijasida olgan qiymatlarimiz, kuzatishlarimiz va o’lchovlarimizni natija deb ataymiz. Biror hodisa asosida eksperiment o’tkazish esa tasodifiy eksperiment deyiladi. Masalan, yuqoridagi “o’qishga borish” misol kabi, ya’ni har safar har xil vaqtda va sharoitda yetib boramiz.

Natijalar to’plami deb biror eksperimentni o’tkazish natijasida hosil bo’ladigan to’plamga aytiladi. Ba’zida buni biz namunalar fazosi ham deb ataymiz. Ko’pincha fazo deb osmondagi borliqqa nisbat beramiz, matematikada ushbu so’z biror tuzilishga bo’lgan va u qaralayotgan mazmunga bo’gliq bo’ladi. Shuning uchun ham namunalar fazosi deyilgan umumiy narsalar tushiniladi va bu narsani boshqa narsalarga qo’llash mumkin bo’ladi. Biz mashinali o’rganish fanida ko’pincha alomatlar fazosi atamasini ham qo’llashimiz mumkin, ushbu holda ikkisining deyarli farqi yo’q, chunki ikkisi ham eksperiment orqali yig’ib olingan natijalar to’plamini ifodalaydi.

Namuna. “Tanga tashlash”. Tangani yuqoriga otib uning qaysi tomoni tushushini tekshirib ko’raylik. Bu eksperimentni ikkilik experiment deb ataymiz, chunki natijalar ikki xil bo’lishi mumkin va tanga tik turmaydi deb tassavur qilamiz. Hamda bu natijalar to’plamni \(S={M, R}\) kabi belgilaymiz. Bu yerda \(M\) tanganing miqdori yozilgan tomoni bo’lsa, \(R\) rasmli tomoni.

Hodisa deb biror narsaning using ustida eksperiment o’tkazganda sodir bo’lishi yoki bo’lmasligini aytamiz. Masalan, yuqoridagi misolda, “Rasmli tomon tushishi” yoki “Miqdorli tomon tushishi”.

Namuna. “Tosh tashlash”. Kubning 6 ta tomoniga 1 dan 6 gacha raqamlar yozib chiqilgan. Ushbu kubni tashlash orqali uning bir tomoni osonga qarab qoladi. Ushbu misolda natijalar to’plami \(\mathbf{S}={1, 2, 3, 4, 5, 6}\) ya’ni biz tashlangan kubning ustki tomonida shu sonlardan birini ko’rishimiz mumkin. Quyida esa bir qancha turli xil hodisalarga keltirilgan:

  • juft son bo’lishini;

  • 2 dan katta son bo’lishini;

  • 5 soni bo’lmasligini;

  • va boshqalar.

Bu kabi turli xil xodisalarni joiz hodisalar deymiz. Agar ushbu kubni bir marta tashlasak unda uning qaysi soni tushishiga ko’ra 6 ta mumkin bo’lgan hodisa bo’ladi. Agar shu kubni ikk marta ketma-ket tashlasak, unda bu ko’rsatgich \(2^6\) bo’ladi, ya’ni: \(\mathbf{S}=\{(1, 1), (1, 2), (1, 3), \dots, (6, 6)\}\). E’tibor qiling, biz faqat shu oltita tominidan biri tushishini aytayabmiz, aslida bundan ko’proq turdagi hodisalar bo’lishi mumkin.

Hodisaning ehtimolligi

\(E\) hodisaning Ehtimollikgi deb uning ro’y berishining miqdoriga aytamiz. Bu miqdor har doim 0 va 1 yoki 0% va 100% oralig’ida bo’ladi hamda \(Pr(E)\) deb belgilanadi. Ushbu miqdorning hisoblashning 3 ta asosiy yo’li bor: nazariy, empirik va subyektiv.

Nazariy yo’li. Ushbu yo’lda hodisaning simmetrikliginga e’tibor qaratamiz. Masalan, yuqoridagi tangani tashlash namunasida biz joiz hodisalar 2 ta degan edik. Shunga ko’ra tanganing ikki tomonidan biri tushishi mumkin, shuning uchun ham:

  • \(Pr("Rasmli\,tomon\,tushishi") = \frac{1}{2}\)

  • \(Pr("Miqdor\,tomon\,tushishi") = \frac{1}{2}\)

Ushbu qiymatlar kub tashlash misolida esa:

  • \(Pr("1\,raqmi\,tushishi") = \frac{1}{6}\)

  • \(Pr("2\,raqmi\,tushishi") = \frac{1}{6}\)

  • \(Pr("3\,raqmi\,tushishi") = \frac{1}{6}\)

  • \(Pr("4\,raqmi\,tushishi") = \frac{1}{6}\)

  • \(Pr("5\,raqmi\,tushishi") = \frac{1}{6}\)

  • \(Pr("6\,raqmi\,tushishi") = \frac{1}{6}\)

Agar hamma joiz hodisalarning experimentda sodir bo’lishi teng o’xshash bo’lsa, u holda ularning ehtimoligi quyidagi formula asosida hisoblanadi

\begin{equation} Pr(E)=\frac{kuzatilayotgan\,hodisalar\,soni}{joiz\,hodisalar\,soni}=\frac{E\,soni}{S\,soni} \end{equation}

Bu yerda \(E\) deb bizning eksperimentimizdagi hodisaning ro’y berishlar soni, \(S\) esa hamma joiz hodisalar soni.

Empirik yo’l. Odatda har doim simmetrikani qo’llab nazariy yo’l bilan hodisalarning ehtimoligini topib bo’lmaydi. Shuning uchun biz bundan boshqacharoq bo’lgan, eksperimentlar asosida topiladigan yo’l deb empirik yo’lni aytamiz. Hamda bu yo’l eng ko’p qo’llaniladigan yo’l hisoblanadi. Biz rasmlarga oid masalani o’rganib chiqanimizda ham xudi shu yo’l bilan ishlagan edik. Ya’ni raqmlarni saqlovchi rasmlarni empirik yo’l bilan olingan deyishimiz mumkin. Tasavur qilaylik, bir qutiga 3 ta bir xil o’lchamdagi va bir-biridan ularning ustiga yozilgan raqamalardan boshqa yo’l bilan farqlab bo’lmaydigan tangalar tashlangan. Hamda tangalarning ikkitasiga 0 raqami va bittasiga 1 raqami yozilgan bo’lsin. Bu tangalarni qutining ichiga qaramasdan tasodifiy tanlab olsak, u holda biz yuqoridagi simmetrik yo’lni qo’llay olmaymiz. Uning o’rniga empirik yo’lni qo’llaymiz. Masalan, tangalarni 100 marta tasodifiy tanlaymiz hamda ularni yozib boramiz, keyin esa ulardan nechtasida 0 raqam yozilgan va nechtasida 1 raqam yozilganligini topamiz. Bu raqamlarni 100 ga bo’lish orqali biz qutidan keyingi oladigan raqamizni 0 yoki 1 bo’lish ehitmolini topishimiz mumkin. Quyida shunday eksperimentni Pythoning random modulining random.choice() metodi orqali amalga oshirishimiz mumkin.

[1]:
# random paketini qo'shish
import random
# 2 ta 0 va 1 ta 1 dan ibora quti
box = [0, 0, 1]
# 0 lar soni, boshi hech narsa yo'quit
# shuning uchun 0
s0 = 0
# 1 lar soni
s1 = 0
# sanagich
i = 0
# eksperimentlar soni
n = 10000
while i < n:
  # raqam tanlash
  digit = random.choice(box)
  # tekshirish 0 yoki 1 likka
  if digit == 0:
    s0 = s0 + 1
  else:
    s1 = s1 + 1
  i = i + 1

# ehitmoliklarni hisoblash
# 0 chiqishi ehtimoli
print('0 chiqishi ehitimoli: ', s0 / n)
print('1 chiqishi ehitimoli: ', s1 / n)
0 chiqishi ehitimoli:  0.6691
1 chiqishi ehitimoli:  0.3309

Yuqoridagi dasturni har safar ishga tushirganimizda turli xil natijalar olamiz, buning sababi empirik baholar har safar o’zgaradi, lekin nazariylar emas. Hamda bu misolda biz sodda usulni ko’rdik. Aslida esa buni simmetrik ham baholash mumkin edi, chunki qutida 3 ta tanga bo’lib ulardan 2 tasi 0 bo’lgani uchun 0 chiqishi hodisasini sodda qilib 2/3 va 1 chiqishini esa 1/3 deb hisoblash mumkin edi. Ammo agar biz 0 va 1 larning qutidagi sonini oldindan bilmasak buni bajara olmaymiz. Masalan, ishlab chiqarish korxonasiga kelayotgan buyurtmalarning qanchasi 2 yoki 5 kilolik qadoqda bo’lishini aniqlash. Ushbu numunadagi asosiy maqsad, biz korxona keyingi buyurtmaning 2 yoki 5 kilolik qadoqda bo’lishiga qarab, qolgan xom ashyolarini tayyorlashi mumkin. Bundan tashqari, yuqoridagi misolda biz qutidan bir tangani olgandan so’ng yana qaytarib joyiga qo’yabmiz deb tassavur qilganmiz yoki ularning soni cheksiz deymiz.

Yana bir boshqa holat bu biz qutida haqida to’liq ma’lumotga egamiz va bu qutini biz umumiy holda muhit deb nomlaymiz. Agar bizda muhit haqida umuman aniq manba bo’lmasa u holda ushbu empirik kuzatishlarni o’tkazib natijalar olamiz. Ushbu tanga qutisi misolida esa, bizda nechta tanga va qanday raqamli ekanligi oldindan aniq, shuning uchun ham biz ushbu muhit haqida to’liq ma’lumotga egamiz. Boshqa hollarda, masalan Mustahkamlab o’rganishda, bunday ma’lumotlar berilmaydi, shuning uchun ham xuddi shunday eksperimentlar o’tkaziladi va funksiyalarning qiymati topilib har qadamda shu orqali qaysi harakat tanlash aniqlanadi.

Subyektiv ehtimollik. Bu kabi ehtimollik ma’lum bir soha mutaxasisining o’zi foaliyat yuritib turgan sohada ma’lum bir darajada ishonchlilik bilan aytgan fikri. Masalan, iqtisodchi keyingi oyda narxlarning ko’tarilishiga o’zi 75% aminligini aytsa, bu kabi ehitmollik subyektiv bo’ladi. Ushbu turdagi ehtimollik bilan ko’p shug’ullanmaymiz chunki bu ehtimolik natijalari uning taklif etuvchilari o’zgarganda o’zgaradi hamda SI uchun muhim emas.

Monte Carlo usuli (ixtiyoriy)

Biz oldingi qismda empirik bahoni 1000 marta urinish orqali topdik va bu topilgan baholar haqiqiy bahodan farqlanadi. Agar ushbu tarjibalarni ko’paytirsak, aytaylik cheksizga qaratib ketsak, biz empirik yo’l bilan oladigan natijalarimiz ham haqiqiy yechimga yaqinlashadi. Ushbu qonun Katta sonlar qonuni deb nomlanadi. Ushbu yuqoridagi kabi usullarni umumiy holda Monte Carlo usuli deb nomlaymiz. Bu usulning qo’llanishi juda keng bo’lib, u hatto Ikkinchi Jahon urushi davrida atom bombasini ishlab chiqishda ham keng qo’llanildi. Bu metodning asosiy g’oyasi tasodifiy ravishda eksperimentlarni kompyuterda o’kazib shu orqali matematik masalalarni yechish bo’lgan. Masalan, hammamizda mashhur \(\pi\) sonining qiymatini ham biz shu usul orqali taqribiy yechishimiz mumkin yoki bo’lmasam ko’p karrali integrallarni hisoblash ham mumkin.

Ehtimollik qoidalari

Qaysi turdagi usul orqali biz hodisaning ehtimolligini topmaylik, ular ustidagi aksoimalar va boshlang’ich qoidalar bir xil bo’ladi. Keling ularni birma-bir ko’rib chiqaylik:

  • Har qanday \(E\) hodisaning ehtimoligi 0 va bir orasida, ya’ni \(0 \leq Pr(E) \leq 1\)

  • Joiz bo’lmagan hodisaning ehimoligi 0 ga teng, bu ehtimollikni odatda \(\emptyset\) belgisi oraqli ifodalaymiz. \(Pr(\emptyset)=0\)

  • Muqarar hodisa, ya’ni sodir bo’lishi aniq hodisaniki 1 ga teng bo’ladi. \(Pr(S)=1\).

  • Hodisaga teskarisi(aksi) hodisaning ehtimolligi, \(Pr(not\,E)=1-Pr(E)\). Masalan, “tanganing miqdoriy tomoni tushishi” deb \(E\) hodisani belgilasak, unda tushmasligi esa \(not\,E\) bo’ladi. Hamda bizda faqat ikkita hodisa bo’lgani uchun uning teskarisining qiymati \(Pr(not\,E)=1-Pr(E)\) bo’ladi.

Shartli ehtimollik

Bizda bir qancha hodisalar bo’lganda birining sodir bo’lishi ikkinchisining sodir bo’lishiga sabab bo’lishi yoki bo’lmasligi mumkin. Masalan, qonunga ko’ra 18 yoshdan oshganlar uylanish yoki turmush qurishi mumkin. Ya’ni birinchi hodisa deb \(E="18\,yoshdan\,kattalar"\) ni olamiz va ikkinchisga esa \(S="Turmush\,qurganlar'\) ni olamiz. Albatta ikkinchisi sodir bo’lishi uchun avval birinchisi bo’lishi kerak. Bu kabi hodisalar Erksiz hodisalar yoki Bo’gliq hodisalar deyiladi. Chunki ular bir-birga ta’sir qiladi va birinchisi sodir bo’lishi ikkinchisining sodir bo’lishiga ta’sir ko’rsatadi yoki sodir bo’lishiga imkon beradi. O’z navbatida ularning ehtimoligi esa shartli ehtimollik deb yuritiladi, hamda ular quydagicha ifodalanadi \(Pr(S|E)\). O’qilishi “\(E\) hodisai ro’y berganda \(S\) hodisaning sodir bo’lishining ehtimoli.” Ya’na boshqa bir misol sifatida esa, masalan, “Issitmasi bo’lganlarda COVID-19 virusi bo’lish ehtimoli”. Demak bu ehtimollikda biz avval shart bo’yicha “Issitmasi bo’lishlik” hodisaning sodir bo’lishini shart qilib qo’yib, keyin unga bog’liq “COVID-19 virusi bo’lishlik” hodisani qo’shyabmiz. Erkli ehtimollik esa ikkita bir biriga bo’gliq bo’lmagan hodisaning ehtimoligi bo’ladi. Masalan, oldingi misollardagi tangani yoki raqamli kubni tashlashimizda, birinchi tashlash bilan ikkinchi tashlash orasida hech qanday bog’liqlik yo’q. Ya’ni, misol uchun, birinchi tashlashda miqdor tomon tushgan bo’lsa, bunatija ikkinchi tushish natijasiga hech qanday ta’sir qilmaydi. Yana bir misol sifatida, birinchi farzand o’gil tug’ilishi ikkinchi farzandning qiz yoki o’g’il bo’lishining ehtimoligiga ta’sir qilmaydi.

Hodisalarning ehtimoliklari ustida ham amallar mavjud bo’lib, ular yuqoridagi ikki hodisaning turlariga qarab bir-biridan farq qiladi. Soddaroq tushinish uchun birinchi quyidagi ikki hodisani qaraylik:

  • \(E_1="Juft\,raqam\,tushishi"\)

  • \(E_2="Toq\,raqam\,tushishi"\)

Ushbu ikki \(E_1\) va \(E_2\) hodisalar bir-briga bog’liq emas, chunki kubni bir tashlashda toq raqam chiqishi bilan juft raqam chiqishi umuman bog’lanmagan hamda ular bitta eksperimentda o’zaro teskari, ya’ni agar toq sonli tomoni tushsa, juft tomon tushish hodisasi sodir bo’lmaydi. Shuning uchun ushbu ikki hodisaning yig’indisi deb odatda shu ikki hodisadan birining sodir bo’lishiga aytiladi. Bu narsani to’plamlar ma’nosida tushinish ham mumkin. Joriy misolda \(E_1 + E_2="Ixitiyoriy\,tomon"\), yan’i ikki hodisani umumlashtirsak, u holda tanganing ixtiyoriy tomoni bo’lishi mumkin. Shuning uchun bu ikki hodisaning ikkisidan birining sodir bo’lishi 1 ga teng. Quyida shuni hisobi keltirilgan. Biz hodisalarni yig’indisi yoki birlashmasi uchun odatda \(\cup\) yoki \(or\) operatorlaridan foydalanamiz.

\begin{equation} Pr(E_1\cup E_2) = Pr(E_1) + Pr(E_2) = \frac{3}{6} + \frac{3}{6} = 1 \end{equation}

Bu shaklda qo’shish har doim to’g’ir bo’lmaydi, chunki agar \(E_1\) va \(E_2\) hodisalar bir-birga bog’liq bo’lsa, u holda biz ikki hodisaning bir vaqtda bo’lishi mumkin degan qismini ikki marta yig’indida ishlatgan bo’lamiz. Quyida yuqoridagi ikki hodisani quyidagicha qilib qayta o’zgartirib yozaylik:

  • \(E_1="Juft\,raqam\,tushishi"\)

  • \(E_2="4\,dan\,katta\,raqam\,tushishi"\)

Keling birinchi shu ikki hodisaning ehtimoligini alohida topaylik. \(E_1\) hodisaning ehtimoligi kubning 6 tadan 3 ta tomoni tushishidir, ya’ni \(Pr(E_1)=\frac{3}{6}=0.5\). Hamda \(E_2\) hodisaning ehtimoligi ham kubning 6 tadan 3 ta, ya’ni \(Pr(E_2)=\frac{3}{6}=0.5\). Lekin kubning 4 va 6 tomoni tushishi ikki hodisada ham uchraydi, shuning uchun ularning ehtimoligini qo’shsak bu ikki raqamlardan biri qatnashgan hodisa natijaga takror qo’shilib qoladi. Shu sababdan \(E_1\) va \(E_2\) hodisalarning bir vaqtda sodir bo’lsh ehtimoligini umumiy qo’shilmadan ayirib qo’yishimiz kerak. Buning uchun avval ikki hodisaning birgalikdagi ehtimoligini hisoblab olishimiz kerak. Bunday hodisalarning ehtimolgini biz hodisalar kesishmasi deb aytamiz. Ushbu atama to’plamlar ustida kiritilgan. Bizda ham yuqorida xudi shunday holat mavjud, ya’ni biz hodisalardagi ichki holatlarni to’plamalar asosida qurishimiz mumkin. Bu ikki hodisaning kesishmasi quyidagicha yozamiz: \(E_1 \cap E_2=\{4, 6\}\). Ehtimoligi o’z navbatida quyidagicha bo’ladi: \(Pr(E_1 \cap E_2)=\frac{2}{6}\). Odatda biz \(\cap\) belgisini to’plamlar ustida kesishmasi amali uchun ishlatamiz. Ehtimollar nazariyasida esa \(\cap\) bilan birgalikda \(and\) operatorini ham ishlatamiz, ya’ni \(Pr(E_1\,and\,E_2)=\frac{1}{3}\).

Quyida yuqoridagi ikki hodisaning yig’indisini umumiy ko’rinishda yozamiz.

\begin{equation} Pr(E_1 \cup E_2) = Pr(E_1) + Pr(E_2) - Pr(E_1 \cap E_2)=\frac{3}{6} + \frac{3}{6} - \frac{2}{6}=\frac{2}{3} \end{equation}

Odatda yuqoridagi holatni umumiy holda qo’shish qoidasi deb ataymiz. Chunki \(Pr(E_1 \cap E_2)\) ehtimolik bu ikki hodisalar bir-biriga bog’liq bo’lmaganda 0 ga teng bo’ladi.

Xuddi shu asnoda biz ko’paytirishni ham kiritishimiz mumkin, ya’ni ko’paytirish \(Pr(E_1 \cap E_2)\) ga tengdir. Agar bu hodisalar bo’gliq bo’lmasa, ikki hodisaning shunchaki alohida holdagi ehtimoliklarining ko’paytmasi quyidagicha bo’ladi:

\begin{equation} Pr(E_1\,and\,E_2)=Pr(E_1)\cdot Pr(E_2) \end{equation}

Agar ular bog’liq bo’lsa, u holda quyidagicha bo’ladi:

\begin{equation} Pr(E_1 \cap E_2) = Pr(E_1)Pr(E_2|E_1) \end{equation}

Oxirgi formuladan shartli \(Pr(E_2|E_1)\) ehtimolikni topsak:

\begin{equation} Pr(E_2|E_1) = \frac{Pr(E_1 \cap E_2)}{Pr(E_1)} \end{equation}

Ushbu oxiridagi formulalardan biz amaliy masalalarni yechishda foydalanamiz. Keyingi mavzularda biz Bayes Teoremasi asosida eng mashur SIning metodlaridan birini amaliy masalalar sifatida ko’rib chiqamiz.