apeescape2.com
  • Põhiline
  • Vilgas Talent
  • Brändikujundus
  • Kasumlikkus Ja Tõhusus
  • Tehnoloogia
Andmeteadus Ja Andmebaasid

Andmekaevandamine sotsiaalse võrgustiku ennustamiseks

Sotsiaalsed võrgustikud on ühel või teisel kujul eksisteerinud sellest ajast, kui inimesed esimest korda suhtlema hakkasid. Tõepoolest, pange kokku kaks või enam inimest ja teil on sotsiaalvõrgustiku alus. Seetõttu pole üllatav, et tänapäevases Internetis kõikjal maailmas on veebipõhised suhtlusvõrgustikud muutunud kõikjal levinuks.

Selles online-sotsiaalvõrgustike maailmas on viimase kümnendi eriti põnev nähtus olnud plahvatuslik kasv Twitter , mida sageli kirjeldatakse kui SMS Interneti kasutamine ”. 2006. aastal käivitatud Twitter kogus kiiresti ülemaailmset populaarsust ja on muutunud üks kümnest kõige enam külastatud veebisaidist maailmas. Alates 2015. aasta maist on Twitter uhke 302 miljonit aktiivset kasutajat kes toodavad ühiselt 500 miljonit säutsu päevas. Ja need arvud kasvavad pidevalt.



Arvestades seda tohutut sotsiaalmeedia andmemahtu, on analüütikud hakanud Twitterit tunnustama kui virtuaalset aardekogumit teabekaevanduste, sotsiaalvõrgustike analüüsi ja avaliku arvamuse suundumuste ning eri poliitiliste ja sotsiaalsed algatused. Andmeteaduse ettevõtted leiavad, et Twitteri trendi teemad on avaliku arvamuse mõõtmiseks väärtuslikuks volikirjaks üha kasulikumad.



sotsiaalvõrgustike analüüs ja andmekaevandamine

Selles artiklis kirjeldatakse tehnikaid, mida kasutasin kontseptsiooni tõendamiseks, mis analüüsis tõhusalt Twitteri trenditeemasid, et prognoosida valimitestina Brasiilia 2014. aasta presidendivalimiste piirkondlikke valimismudeleid.



Valimised

Üldised presidendivalimised toimusid Brasiilias 5. oktoobril 2014. Ükski kandidaat ei saanud üle 50% häältest, seega toimusid 26. oktoobril teistkordsed valimised.

Esimeses voorus Dilma Rousseff ( Tööliste pidu ) kogus 41,6% häältest enne Aécio Neves ( Brasiilia Sotsiaaldemokraatia Partei ) 33,6% ja Marina Silva ( Brasiilia Sotsialistlik Partei ) 21,3% -ga. Rousseff ja Neves vaidlustasid 26. oktoobril toimunud äravoolu, kusjuures Rousseff valiti tagasi napilt, 51,6% Nevesi 48,4% -le. Selle artikli analüüs on seotud konkreetselt 26. oktoobri valimisvoorudega.

konkurentsieeliste näited äriplaanist

Partido dos Trabalhadores (PT) on Brasiilia üks suurimaid erakondi. See on praeguste ja endiste presidentide, Dilma Roussefi ja Luis Inacio Lula da Silva . Brasiilia Sotsiaaldemokraatia Partei (PSDB) on presidendi presidendiks Fernando Henrique Cardoso kohahoidja pilt .



Andmekaevandamine ja Twitteri trenditeema andmete väljavõtmine

Alustasin sotsiaalmeedias andmete kaevandamist, kogudes Twitteri trendi teema andmeid 14 Brasiilia linna kohta, mille kohta andmeid edastatakse Twitteri API , nimelt: Brasília, Belém, Belo Horizonte, Curitiba, Porto Alegre, Recife, Rio de Janeiro, Salvador, São Paulo, Campinas, Fortaleza, Goiânia, Manaus ja São Luis.

Ma küsisin Twitter REST API saada nende 14 linna 10 parimat Twitteri trenditeemat 20-minutilise intervalliga (piiratud mõningate piirangutega, mis Twitteril on oma API-l). Päringu piiramine nende 14 linnaga toimub nende täpsustamisega Yahoo! GeoPlanet WOEID-id (kus on maa ID-d) .

Selle ideekontrolli jaoks kasutasin Python ja Twitteri raamatukogu (nutikalt kutsutud twitteriks) kõigi sotsiaalvõrgustike andmete hankimiseks valimispäeva valimiste päeva (26. oktoober) ning kahe eelneva päeva (24. ja 25. oktoober) kohta. Iga päeva jaoks esitasin umbes 70 erinevat päringut, mis aitasid tuvastada hetketrendide teemasid.

Allpool on näide JSON-i objektist, mis tagastati vastusena igale päringule (see näide põhines 26. oktoobri kell 12:40:00 andmete päringul ja näitab ainult Belo Horizonte andmeid).

[{'created_at': '2014-10-26T02:32:59Z', 'trends': [{'url': 'http://twitter.com/search?q=%23GolpeNoJN', 'name': '#GolpeNoJN', 'query': '%23GolpeNoJN', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=%23SomosTodosDilma', 'name': '#SomosTodosDilma', 'query': '%23SomosTodosDilma', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=%23EAecio45Confirma', 'name': '#EAecio45Confirma', 'query': '%23EAecio45Confirma', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=Uilson', 'name': 'Uilson', 'query': 'Uilson', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=%22Lucas+Silva%22', 'name': 'Lucas Silva', 'query': '%22Lucas+Silva%22', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=%22Marcelo+Oliveira%22', 'name': 'Marcelo Oliveira', 'query': '%22Marcelo+Oliveira%22', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=Cruzeiro', 'name': 'Cruzeiro', 'query': 'Cruzeiro', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=Tupi', 'name': 'Tupi', 'query': 'Tupi', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=%22Real+x+Bar%C3%A7a%22', 'name': 'Real x Baru00e7a', 'query': '%22Real+x+Bar%C3%A7a%22', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=Wanessa', 'name': 'Wanessa', 'query': 'Wanessa', 'promoted_content': null} ], 'as_of': '2014-10-26T02:40:03Z', 'locations': [{'name': 'Belo Horizonte', 'woeid': 455821}] }]

Lühike tutvustus sotsiaalvõrgustike analüüsiga

Sotsiaalvõrgustiku teooria on uuring selle kohta, kuidas inimesed, organisatsioonid või rühmad suhtlevad teistega oma võrgus. Sotsiaalvõrgustikke on kolme peamist tüüpi:

  • Egotsentrilised võrgud on ühendatud ühe sõlme või üksikisikuga (nt teie ja kõik teie sõbrad ja sugulased).
  • Sotsiatsentrilised võrgud on vaikimisi suletud võrgud. Kaks sellist tüüpi võrgu tavaliselt kasutatavat näidet on klassiruumis olevad lapsed või organisatsiooni töötajad.
  • Avatud süsteemivõrgud on võrgud, kus piirjooned pole selgelt määratletud, mistõttu on seda tüüpi võrke tavaliselt kõige raskem uurida. Sotsiaalpoliitilise võrgustiku tüüp, mida käesolevas artiklis analüüsime, on avatud süsteemivõrgu näide.

Arvestatakse sotsiaalsete võrgustikega keerukad võrgud , kuna neil on mitte triviaalsed topoloogilised tunnused, nende elementide vahelised seosemustrid pole puhtalt korrapärased ega puhtjuhuslikud.

Sotsiaalvõrgustike analüüs uurib sotsiaalsete üksuste vaheliste suhete struktuuri. Need üksused on sageli inimesed, kuid võivad olla ka sotsiaalsed rühmad, poliitilised organisatsioonid, finantsvõrgustikud, kogukonna elanikud, riigi kodanikud jne. Võrgustike empiirilisel uurimisel on sotsiaalteadustes olnud keskne roll ning paljud võrkude uurimiseks kasutatavad matemaatilised ja statistilised vahendid töötati esmakordselt välja sotsioloogias.

Võrgustiku loomine

Twitteri trenditeemade abil võrgu loomiseks määratlesin järgmised reeglid:

c korporatsioon või s korporatsioon
  • Iga linn on võrgus tipp (st sõlm).
  • Kui kahe linna vahel on vähemalt üks ühine trenditeema, on nende linnade vahel serv (st link).
  • Kumbagi serva kaalutakse vastavalt nende kahe linna ühiste trenditeemade arvule (st mida rohkem on kahel linnal trenditeemasid, seda suurem on kaal, mis omistatakse nende vahelisele seosele).

Näiteks 26. oktoobril oli Fortaleza ja Campinase linnadel 11 ühist trenditeemat, nii et selle päeva võrk sisaldab serva Fortaleza ja Campinase vahel kaaluga 11:

Sotsiaalsete võrgustike loomise protsess on illustreeritud

Lisaks hõlbustasin linnade vaheliste suhete kaalumise protsessi ka teemasid, mis ei olnud seotud valimiste endaga (eelduseks oli see, et linnad, millel on ühised prioriteedid ja huvid, võivad olla rohkem valmis jagama samu poliitilisi suundumusi ).

Ehkki trenditeemade järjekord võib analüüsi jaoks potentsiaalselt omada mingit tähtsust, otsustasin kontseptsiooni lihtsustamise huvides ignoreerida teemade järjestust trenditeemade loendis.

Võrgu topoloogia

Võrgu topoloogia on sisuliselt võrgu erinevate elementide (linkide, sõlmede jne) paigutus. Analüüsitava sotsiaalse võrgustiku puhul ei muutu võrgu topoloogia kolme päeva jooksul dramaatiliselt, kuna võrgu sõlmed (st 14 linna) jäävad fikseerituks. Kuid sõlmede vaheliste linkide kaaludes võib tuvastada erinevusi, kuna linnade vahel levinud trenditeemade arv varieerub kolme päeva jooksul, nagu on näidatud võrgutopoloogia allpool toodud võrdluses 24. päeval ja 25. päeval.

Illustreeritud sotsiaalse võrgustiku topoloogia

Valimistulemuste ennustamine Twitteri trenditeema andmete abil

Valimistulemuste ennustamisel ei võta me arvesse mitte ainult linnade ühiseid suundumusi, vaid ka seda, kuidas nende teemade sisu on seotud tõenäoliselt kahe peamise erakonna võimaliku toetusega; st Partido dos Trabalhadores (PT) ja Partido da Social Democracia Brasileira (PSDB).

Kõigepealt lõin loetelu sõnadest ja fraasidest, mida tajutakse positiivse kallutamise või pooldamise toetamiseks. (Selle loendi täitmine on tõepoolest väga keeruline ülesanne. Selle kontseptsioonitõendi kontekstis lähtusin tahtlikult lihtsustatud lähenemisviisist. Kui midagi on, muudab see tulemuste kaliibri veelgi intrigeerivamaks, kuna täpsemalt häälestatud terminite loend ja fraasid parandaksid tõenäoliselt tulemuste täpsust.)

Seejärel loen iga sõlme kohta:

  • selle linkide arv, mis sisaldab termineid, mis osutasid PT toetusele
  • selle linkide arv, mis sisaldab termineid, mis osutasid PSDB toetamisele

Kasutades jälle näiteks Fortazela linna, jõudsin lõpuks järgmiste arvudeni:

Fortaleza['PT'] = 56 Fortaleza['PDSB'] = 37

Seeläbi teeme järelduse, et Fortaleza elanikud eelistavad üldiselt Partido dos Trabalhadores (PT).

Tulemused ja järeldused

Selle algoritmi põhjal annab analüüs tulemusi, mis on üllatavalt sarnased tegelike valimistulemustega, eriti kui arvestada meie lähenemisviisi üldist lihtsust. Siin on Twitteri trenditeema andmetel põhinevate ennustustulemuste võrdlus tegelike valimistulemustega (punast kasutatakse Partido dos Trabalhadorese ja sinist Partido da Social Democracia Brasileira tähistamiseks):

sotsiaalvõrgustike analüüs ja andmekaevandamine

Paranenud teaduslik rangus, samuti keerukamad algoritmid ja mõõdikud parandaksid tulemusi kahtlemata veelgi.

Siin on näiteks mõned mõõdikud, mida saab kasutada sõlme olulisuse või mõju järeldamiseks, mis omakorda võib anda teavet selles artiklis kirjeldatud ennustava analüüsi tüübi kohta:

  • Sõlme kesksus. Arvukalt sõlme tsentraalsus on olemas meetmed, mida saab kasutada võrgu kõige olulisemate või mõjukamate sõlmede tuvastamiseks. Näiteks kesksuse vahel peab sõlme ülitähtsaks, kui see moodustab sildu paljude teiste sõlmede vahel. Omaväärtuse kesksus põhines seevastu sõlme tähtsusel teiste sellega seotud väga oluliste sõlmede arvul.

    kuidas javas klassi katsetada
  • Klastrite koefitsient. The klastrite koefitsient sõlme mõõdab, kui suures ulatuses on sõlme „naabrid” omavahel ühendatud. See on veel üks meede, mis võib olla asjakohane, et hinnata sõlme oletatavat mõju oma naaber sõlmedele.

  • Kraad keskne. Kraadiline tsentraalsus põhineb sõlme linkide (st ühenduste) arvul. See on üks lihtsamaid mõõtmeid sõlme „olulisuse“ kohta võrgus.

Kuid isegi ilma selle keerukuse tasemeta pakkusid selle lihtsa tõestuskontseptsiooniga saavutatud tulemused tõhusat ennustavat analüüsi veenvalt, kasutades Twitteri trendi teema andmeid. Selgelt on potentsiaali sotsiaalmeedia andmete analüüsi veelgi kaugemale viia.

Ühe vastutuse põhimõte: retsept suure koodeksi jaoks

Tagumine Ots

Ühe vastutuse põhimõte: retsept suure koodeksi jaoks
Twitteri andmekaevandus: Pythoni abil suurandmete analüüsi juhend

Twitteri andmekaevandus: Pythoni abil suurandmete analüüsi juhend

Andmeteadus Ja Andmebaasid

Lemmik Postitused
Analyticsi direktor
Analyticsi direktor
Kuidas luua kohandatud Magento 2 vidinaid
Kuidas luua kohandatud Magento 2 vidinaid
Varastamise kunst: kuidas saada disaineriks
Varastamise kunst: kuidas saada disaineriks
Mis juhtus BlackBerryga: Zombie Stock või Comeback King?
Mis juhtus BlackBerryga: Zombie Stock või Comeback King?
Kuidas luua eelarve, mis kestaks terve aasta
Kuidas luua eelarve, mis kestaks terve aasta
 
Värvipõhise pildiotsingumootori ehitamine Ruby'sse
Värvipõhise pildiotsingumootori ehitamine Ruby'sse
Kasutage oma inspiratsiooni - juhend meeleolulaudadele
Kasutage oma inspiratsiooni - juhend meeleolulaudadele
Pythoni mitmikeermelise ja mitme töötlemise õpetus
Pythoni mitmikeermelise ja mitme töötlemise õpetus
Kliendi hoidmise tähtsus - empiiriline uuring
Kliendi hoidmise tähtsus - empiiriline uuring
4 Go keelekriitika
4 Go keelekriitika
Lemmik Postitused
  • mis on scrumi meeskonna soovitatav suurus?
  • roboti operatsioonisüsteem (ros)
  • milliste järgmiste jaoks kasutatakse tavaliselt java-, c- ja cpp-faililaiendeid?
  • lõbusad asjad, mida teha c ++ -ga
  • .h failid c ++
  • kui palju teeb meigitööstus aastas
Kategooriad
Kpi-D Ja Analytics Tulud Ja Kasv Töö Tulevik Veebi Kasutajaliides Projekti Juht Investorid Ja Rahastamine Toote Elutsükkel Inimesed Ja Meeskonnad Kasumlikkus Ja Tõhusus Puldi Tõus

© 2021 | Kõik Õigused Kaitstud

apeescape2.com