Sotsiaalsed võrgustikud on ühel või teisel kujul eksisteerinud sellest ajast, kui inimesed esimest korda suhtlema hakkasid. Tõepoolest, pange kokku kaks või enam inimest ja teil on sotsiaalvõrgustiku alus. Seetõttu pole üllatav, et tänapäevases Internetis kõikjal maailmas on veebipõhised suhtlusvõrgustikud muutunud kõikjal levinuks.
Selles online-sotsiaalvõrgustike maailmas on viimase kümnendi eriti põnev nähtus olnud plahvatuslik kasv Twitter , mida sageli kirjeldatakse kui SMS Interneti kasutamine ”. 2006. aastal käivitatud Twitter kogus kiiresti ülemaailmset populaarsust ja on muutunud üks kümnest kõige enam külastatud veebisaidist maailmas. Alates 2015. aasta maist on Twitter uhke 302 miljonit aktiivset kasutajat kes toodavad ühiselt 500 miljonit säutsu päevas. Ja need arvud kasvavad pidevalt.
Arvestades seda tohutut sotsiaalmeedia andmemahtu, on analüütikud hakanud Twitterit tunnustama kui virtuaalset aardekogumit teabekaevanduste, sotsiaalvõrgustike analüüsi ja avaliku arvamuse suundumuste ning eri poliitiliste ja sotsiaalsed algatused. Andmeteaduse ettevõtted leiavad, et Twitteri trendi teemad on avaliku arvamuse mõõtmiseks väärtuslikuks volikirjaks üha kasulikumad.
Selles artiklis kirjeldatakse tehnikaid, mida kasutasin kontseptsiooni tõendamiseks, mis analüüsis tõhusalt Twitteri trenditeemasid, et prognoosida valimitestina Brasiilia 2014. aasta presidendivalimiste piirkondlikke valimismudeleid.
Üldised presidendivalimised toimusid Brasiilias 5. oktoobril 2014. Ükski kandidaat ei saanud üle 50% häältest, seega toimusid 26. oktoobril teistkordsed valimised.
Esimeses voorus Dilma Rousseff ( Tööliste pidu ) kogus 41,6% häältest enne Aécio Neves ( Brasiilia Sotsiaaldemokraatia Partei ) 33,6% ja Marina Silva ( Brasiilia Sotsialistlik Partei ) 21,3% -ga. Rousseff ja Neves vaidlustasid 26. oktoobril toimunud äravoolu, kusjuures Rousseff valiti tagasi napilt, 51,6% Nevesi 48,4% -le. Selle artikli analüüs on seotud konkreetselt 26. oktoobri valimisvoorudega.
konkurentsieeliste näited äriplaanist
Partido dos Trabalhadores (PT) on Brasiilia üks suurimaid erakondi. See on praeguste ja endiste presidentide, Dilma Roussefi ja Luis Inacio Lula da Silva . Brasiilia Sotsiaaldemokraatia Partei (PSDB) on presidendi presidendiks Fernando Henrique Cardoso kohahoidja pilt .
Alustasin sotsiaalmeedias andmete kaevandamist, kogudes Twitteri trendi teema andmeid 14 Brasiilia linna kohta, mille kohta andmeid edastatakse Twitteri API , nimelt: Brasília, Belém, Belo Horizonte, Curitiba, Porto Alegre, Recife, Rio de Janeiro, Salvador, São Paulo, Campinas, Fortaleza, Goiânia, Manaus ja São Luis.
Ma küsisin Twitter REST API saada nende 14 linna 10 parimat Twitteri trenditeemat 20-minutilise intervalliga (piiratud mõningate piirangutega, mis Twitteril on oma API-l). Päringu piiramine nende 14 linnaga toimub nende täpsustamisega Yahoo! GeoPlanet WOEID-id (kus on maa ID-d) .
Selle ideekontrolli jaoks kasutasin Python ja Twitteri raamatukogu (nutikalt kutsutud twitteriks) kõigi sotsiaalvõrgustike andmete hankimiseks valimispäeva valimiste päeva (26. oktoober) ning kahe eelneva päeva (24. ja 25. oktoober) kohta. Iga päeva jaoks esitasin umbes 70 erinevat päringut, mis aitasid tuvastada hetketrendide teemasid.
Allpool on näide JSON-i objektist, mis tagastati vastusena igale päringule (see näide põhines 26. oktoobri kell 12:40:00 andmete päringul ja näitab ainult Belo Horizonte andmeid).
[{'created_at': '2014-10-26T02:32:59Z', 'trends': [{'url': 'http://twitter.com/search?q=%23GolpeNoJN', 'name': '#GolpeNoJN', 'query': '%23GolpeNoJN', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=%23SomosTodosDilma', 'name': '#SomosTodosDilma', 'query': '%23SomosTodosDilma', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=%23EAecio45Confirma', 'name': '#EAecio45Confirma', 'query': '%23EAecio45Confirma', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=Uilson', 'name': 'Uilson', 'query': 'Uilson', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=%22Lucas+Silva%22', 'name': 'Lucas Silva', 'query': '%22Lucas+Silva%22', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=%22Marcelo+Oliveira%22', 'name': 'Marcelo Oliveira', 'query': '%22Marcelo+Oliveira%22', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=Cruzeiro', 'name': 'Cruzeiro', 'query': 'Cruzeiro', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=Tupi', 'name': 'Tupi', 'query': 'Tupi', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=%22Real+x+Bar%C3%A7a%22', 'name': 'Real x Baru00e7a', 'query': '%22Real+x+Bar%C3%A7a%22', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=Wanessa', 'name': 'Wanessa', 'query': 'Wanessa', 'promoted_content': null} ], 'as_of': '2014-10-26T02:40:03Z', 'locations': [{'name': 'Belo Horizonte', 'woeid': 455821}] }]
Sotsiaalvõrgustiku teooria on uuring selle kohta, kuidas inimesed, organisatsioonid või rühmad suhtlevad teistega oma võrgus. Sotsiaalvõrgustikke on kolme peamist tüüpi:
Arvestatakse sotsiaalsete võrgustikega keerukad võrgud , kuna neil on mitte triviaalsed topoloogilised tunnused, nende elementide vahelised seosemustrid pole puhtalt korrapärased ega puhtjuhuslikud.
Sotsiaalvõrgustike analüüs uurib sotsiaalsete üksuste vaheliste suhete struktuuri. Need üksused on sageli inimesed, kuid võivad olla ka sotsiaalsed rühmad, poliitilised organisatsioonid, finantsvõrgustikud, kogukonna elanikud, riigi kodanikud jne. Võrgustike empiirilisel uurimisel on sotsiaalteadustes olnud keskne roll ning paljud võrkude uurimiseks kasutatavad matemaatilised ja statistilised vahendid töötati esmakordselt välja sotsioloogias.
Twitteri trenditeemade abil võrgu loomiseks määratlesin järgmised reeglid:
c korporatsioon või s korporatsioon
Näiteks 26. oktoobril oli Fortaleza ja Campinase linnadel 11 ühist trenditeemat, nii et selle päeva võrk sisaldab serva Fortaleza ja Campinase vahel kaaluga 11:
Lisaks hõlbustasin linnade vaheliste suhete kaalumise protsessi ka teemasid, mis ei olnud seotud valimiste endaga (eelduseks oli see, et linnad, millel on ühised prioriteedid ja huvid, võivad olla rohkem valmis jagama samu poliitilisi suundumusi ).
Ehkki trenditeemade järjekord võib analüüsi jaoks potentsiaalselt omada mingit tähtsust, otsustasin kontseptsiooni lihtsustamise huvides ignoreerida teemade järjestust trenditeemade loendis.
Võrgu topoloogia on sisuliselt võrgu erinevate elementide (linkide, sõlmede jne) paigutus. Analüüsitava sotsiaalse võrgustiku puhul ei muutu võrgu topoloogia kolme päeva jooksul dramaatiliselt, kuna võrgu sõlmed (st 14 linna) jäävad fikseerituks. Kuid sõlmede vaheliste linkide kaaludes võib tuvastada erinevusi, kuna linnade vahel levinud trenditeemade arv varieerub kolme päeva jooksul, nagu on näidatud võrgutopoloogia allpool toodud võrdluses 24. päeval ja 25. päeval.
Valimistulemuste ennustamisel ei võta me arvesse mitte ainult linnade ühiseid suundumusi, vaid ka seda, kuidas nende teemade sisu on seotud tõenäoliselt kahe peamise erakonna võimaliku toetusega; st Partido dos Trabalhadores (PT) ja Partido da Social Democracia Brasileira (PSDB).
Kõigepealt lõin loetelu sõnadest ja fraasidest, mida tajutakse positiivse kallutamise või pooldamise toetamiseks. (Selle loendi täitmine on tõepoolest väga keeruline ülesanne. Selle kontseptsioonitõendi kontekstis lähtusin tahtlikult lihtsustatud lähenemisviisist. Kui midagi on, muudab see tulemuste kaliibri veelgi intrigeerivamaks, kuna täpsemalt häälestatud terminite loend ja fraasid parandaksid tõenäoliselt tulemuste täpsust.)
Seejärel loen iga sõlme kohta:
Kasutades jälle näiteks Fortazela linna, jõudsin lõpuks järgmiste arvudeni:
Fortaleza['PT'] = 56 Fortaleza['PDSB'] = 37
Seeläbi teeme järelduse, et Fortaleza elanikud eelistavad üldiselt Partido dos Trabalhadores (PT).
Selle algoritmi põhjal annab analüüs tulemusi, mis on üllatavalt sarnased tegelike valimistulemustega, eriti kui arvestada meie lähenemisviisi üldist lihtsust. Siin on Twitteri trenditeema andmetel põhinevate ennustustulemuste võrdlus tegelike valimistulemustega (punast kasutatakse Partido dos Trabalhadorese ja sinist Partido da Social Democracia Brasileira tähistamiseks):
Paranenud teaduslik rangus, samuti keerukamad algoritmid ja mõõdikud parandaksid tulemusi kahtlemata veelgi.
Siin on näiteks mõned mõõdikud, mida saab kasutada sõlme olulisuse või mõju järeldamiseks, mis omakorda võib anda teavet selles artiklis kirjeldatud ennustava analüüsi tüübi kohta:
Sõlme kesksus. Arvukalt sõlme tsentraalsus on olemas meetmed, mida saab kasutada võrgu kõige olulisemate või mõjukamate sõlmede tuvastamiseks. Näiteks kesksuse vahel peab sõlme ülitähtsaks, kui see moodustab sildu paljude teiste sõlmede vahel. Omaväärtuse kesksus põhines seevastu sõlme tähtsusel teiste sellega seotud väga oluliste sõlmede arvul.
kuidas javas klassi katsetada
Klastrite koefitsient. The klastrite koefitsient sõlme mõõdab, kui suures ulatuses on sõlme „naabrid” omavahel ühendatud. See on veel üks meede, mis võib olla asjakohane, et hinnata sõlme oletatavat mõju oma naaber sõlmedele.
Kraad keskne. Kraadiline tsentraalsus põhineb sõlme linkide (st ühenduste) arvul. See on üks lihtsamaid mõõtmeid sõlme „olulisuse“ kohta võrgus.
Kuid isegi ilma selle keerukuse tasemeta pakkusid selle lihtsa tõestuskontseptsiooniga saavutatud tulemused tõhusat ennustavat analüüsi veenvalt, kasutades Twitteri trendi teema andmeid. Selgelt on potentsiaali sotsiaalmeedia andmete analüüsi veelgi kaugemale viia.