Mis oleks, kui oskaksite ennustada, kas teie valitud aktsia järgmise kuu jooksul tõuseb või langeb? Või kui teie lemmik jalgpallimeeskond võidaks või kaotaks oma järgmise mängu? Kuidas saate selliseid ennustusi teha? Ehk võib masinõpe anda osa vastusest. Cortana, uus digitaalne isiklik assistent, mida toetab Bing sellega kaasneb Windows Phone 8.1 ennustas 2014. aasta jalgpalli maailmameistrivõistlustel täpselt 16 kohtumist 15-st.
Selles Azure'i õpetuses uurime Azure'i masinõppe funktsioone ja võimalusi ühe meie igapäevaelus silmitsi seisva probleemi lahendamise kaudu.
Alates masinõppe arendaja Vaatepunktist võib probleemid jagada kahte rühma - need, mida saab lahendada standardsete meetoditega, ja need, mida ei saa lahendada standardsete meetoditega. Kahjuks kuulub enamik tegelikke eluprobleeme teise rühma. Siin tuleb mängu masinõpe. Põhiidee on kasutada masinaid ajaloolistest andmetest sisukate mustrite leidmiseks ja selle abil probleemi lahendamiseks.
Gaasihinnad on tõenäoliselt üks elementidest, mis on enamiku inimeste eelarves juba olemas. Pidev tõus või langus võib mõjutada ka teiste toidukaupade ja teenuste hindu. Gaasihindu võivad mõjutada paljud tegurid, alates ilmastikutingimustest kuni poliitiliste otsuste ja haldustasudeni ning täiesti ettearvamatute teguriteni, nagu loodusõnnetused või sõjad.
Selle Azure'i masinõppe õpetuse plaan on uurida mõningaid juurdepääsetavaid andmeid ja leida seoseid, mida saab kasutada ennustusmudeli loomiseks.
Azure'i masinõppestuudio on veebipõhine integreeritud arenduskeskkond (IDE) andmekatsete arendamiseks. See on tihedalt seotud ülejäänud Azure'i pilveteenustega ning see lihtsustab masinõppemudelite ja -teenuste väljatöötamist ja juurutamist.
Masinõppenäite loomiseks on viis põhietappi. Uurime kõiki neid samme, arendades välja oma gaasihindade prognoosimudeli.
Andmete kogumine on selle protsessi üks olulisemaid samme. Andmete asjakohasus ja selgus on aluseks heade ennustusmudelite loomisel. Azure Machine Learning Studio pakub mitmeid näidisandmekomplekte. Veel ühe suurepärase andmekogude kogu leiate aadressilt arhiiv.ics.uci.edu/ml/datasets.html .
Pärast andmete kogumist peame need Stuudiosse üles laadima, kasutades nende lihtsat andmete üleslaadimismehhanismi:
SQL serveri päringute optimeerimise tehnikad
Pärast üleslaadimist saame andmeid eelvaadata. Järgmine pilt näitab osa meie andmetest, mille me just üles laadisime. Meie eesmärk on siin hinna ennustamine veerus sildiga E95.
Meie järgmine samm on uue katse loomine, lohistades moodulid vasakult paneelilt tööpiirkonda.
Kättesaadavate andmete eeltöötlus hõlmab olemasolevate andmete kohandamist vastavalt teie vajadustele. Esimene moodul, mida siin kasutame, on kirjeldav statistika. See arvutab olemasolevate andmete põhjal statistilised andmed. Lisaks kirjeldavale statistikale on üks sagedamini kasutatav moodul „Puuduvate andmete puhastamine”. Selle sammu eesmärk on anda puuduvatele (null) väärtustele tähendus, asendades need mõne muu väärtusega või eemaldades need täielikult.
Teine meie juhendaja selles etapis rakendatav moodul on moodul „Filtril põhinevate funktsioonide valik”. See moodul määrab andmekogumi omadused, mis on kõige olulisemad tulemuste jaoks, mida me soovime ennustada. Sellisel juhul, nagu näete alloleval pildil, on „E95“ väärtuste neli kõige olulisemat omadust „EDG BS“, „Oil“, „USD / HRK“ ja „EUR / USD“.
Kuna „EDG BS” on veel üks väljundväärtus, mida ei saa prognooside tegemiseks kasutada, valime ülejäänud oluliste tunnuste seast ainult kaks - see on nafta hind ja valuutakurss veeru USD / HRK all.
Allpool on näidatud andmekogumi näidis pärast töötlemist.
Meie järgmine samm on saadaolevate andmete jagamine mooduli “Split” abil. Esimest osa andmetest (meie puhul 80%) kasutatakse mudeli koolitamiseks ja ülejäänut kasutatakse koolitatud mudeli hindamiseks.
Järgmised toimingud on kogu Azure'i masinõppeprotsessi kõige olulisemad sammud. Moodul “Rongimudel” aktsepteerib kahte sisendparameetrit. Esiteks on töötlemata andmed ja teine õppimisalgoritm. Siin kasutame algoritmi 'Lineaarne regressioon'. Mooduli “Rongimudel” väljund on mooduli “Score Model” üks sisendparameetritest. Teine neist on ülejäänud olemasolevad andmed. Score Model lisab meie andmekogumisse uue veeru Scored Labels. Kui rakendatud õpialgoritm töötab olemasolevate andmetega hästi, on veeru „Scored Labels” väärtused lähemal nende vastavate E95 väärtuste väärtustele.
Mudeli Hinda mudeli abil saame hinnata koolitatud mudelit statistilistes väärtustes. Kui vaatame jaotust „Koefitsient”, võime järeldada, et selle mudeli abil on õige hinna prognoosimise tõenäosus umbes 80%.
Nüüd tasub proovida kasutada moodulit 'Neural Network Regression'. Peame lisama uued moodulid „Rongimudel“ ja „Hindemudel“ ning ühendama väljund olemasoleva mooduli „Hinda mudelit“.
Moodul “Neural Network Regression” nõuab natuke rohkem seadistamist. Kuna see on kogu katse kõige olulisem moodul, peaksime just sinna oma jõupingutused suunama, kohandades ja katsetades sobiva õpialgoritmi kui terviku seadeid ja valikut.
Sel juhul annab moodul Hindamine meile võrdluse meie kahe koolitatud mudeli vahel. Jällegi näeme määramiskoefitsiendi põhjal, et närvivõrgud annavad veidi vähem täpseid prognoose.
Siinkohal saame valitud koolitatud mudelid tulevaseks kasutamiseks salvestada.
mis on sõna xml dokument
Kui meil on väljaõppinud mudel, saame jätkata punktikatset. Seda saab teha uue katse loomisega nullist või Azure Machine Learning Studio abistaja abil. Valige lihtsalt koolitatud mudel ja klõpsake nuppu „Loo hindamiskatse”. Uuteks mooduliteks, mida siin vajame, on „Veebiteenuse sisend” ja „Veebiteenuse väljund”. Lisame sisendi ja väljundi väärtuste valimiseks mooduli „Projektiveerud“. Sisendväärtused on nafta ja USD / HRK ning väljundi prognoositav väärtus väljundi „Score Model” veerus „Scored Labels”.
Alloleval pildil on toodud meie hindamiskatse pärast neid mõningaid korrigeerimisi ning pärast moodulite „Veebiteenuse sisend” ja „Veebiteenuse väljund” ühendamist.
Sel hetkel tuleb mängu veel üks vahva abistaja. Rakendusega „Avalda veebiteenus” saate luua lihtsa veebiteenuse, mida hostitakse Azure'i pilvetaristul.
Lõpuks saame oma prognoosimise veebiteenust testida lihtsa testvormi abil.
Läbi selle lihtsa masinõppe õpetus oleme näidanud, kuidas luua täielikult toimiv ennustusteenus. Azure'i platvormi integreeritud Azure Machine Learning Studio võib olla väga võimas tööriist andmekatsete loomiseks. Lisaks Machine Learning Studio'ile on ka teisi masinõppelahendusi nagu Oranž ja Tiberious . Sõltumata teile meeldivast arenduskeskkonnast soovitan teil uurida masinõpet ja leida oma sisemine andmeteadlane.