Som alla som någonsin har varit i ett förhållande berättar för dig är mänskliga känslor ett komplicerat koncept. Detta gäller särskilt för marknadsförare som försöker förstå de kvalitativa fördelarna - värdet som går utöver grundläggande funktionalitet - av deras produkt eller tjänst. Det är inte svårt att förstå vad din produkt gör, men vet du hur det får dina konsumenter att känna sig?



Det skulle du göra om du använde en social lyssningsentimentanalys för att destillera din målgrupps ofiltrerade sociala medieinsatser till handlingsbar strategisk insikt. Tar alla de sociala data tillgängliga över Twitter och att kategorisera det för positiva, negativa eller neutrala känslor är ett stort åtagande, och inga två metoder skapas lika. Därför byggde HASHTAGS ett hybrid sentimentanalyssystem som kombinerar de två primära metoderna, regellistor och maskininlärning.



Regellistor

Ett av de enklaste sätten att ta itu med sentimentanalys är att använda mänskliga regler eller ordböcker. Med detta tillvägagångssätt förlitar sig systemet på en lista med ord eller fraser som direkt kartläggs till en specifik känsla. Till exempel kan alla Tweet som innehåller ordet 'high five' märkas som positiva, medan en Tweet som innehåller 'hemsk' skulle vara negativ. System som detta är mycket anpassningsbara och kan utökas till att omfatta tusentals ord och fraseregler.

På nackdelen kämpar regelsystem med tweets som matchar motstridiga regler, som 'Filmen var inte så hemsk som jag förväntade mig.' Här kan 'hemskt' märkas negativt, medan 'förväntat' skulle vara positivt. De motstridiga reglerna märker Tweet som neutralt, medan vissa mänskliga läsare tolkar det som något positivt och andra, något negativt.

En ytterligare begränsning av regelbaserade system är beroende av mänsklig ansträngning och förståelse. Språket utvecklas snabbt (särskilt på Twitter), och ett regelbaserat system kräver att någon tillhandahåller en stadig ström av nya termer och fraser. Uppdatering av ett sentimentsystem är inte alltid en topprioritet och ett system kan snabbt bli föråldrat. Även med vaksam övervakning kan det vara svårt att identifiera förändrade språktrender och avgöra när nya regler behöver läggas till.


nummer 809

Maskininlärning

Mer avancerade system för sentimentanalys använder Maskininlärning (ML) tekniker (ibland även kallad artificiell intelligens eller Naturlig språkbehandling ). Machine Learning är en familj av tekniker som använder statistik och sannolikhet för att identifiera komplexa mönster som kan användas för att märka objekt.

Till skillnad från regelbaserade system är ML-system tillräckligt flexibla för att upptäcka likheter som inte är uppenbara för en människa. Genom att titta på många, många exempel, lär sig systemet mönster som vanligtvis är associerade med positiva, negativa eller neutrala känslor.



Till exempel kan ett ML-sentimentanalyssystem finna att tweets som innehåller ordet 'regn' och slutar med ett utropstecken är negativa, medan tweets med 'regn' och två utropstecken är positiva. En människa kanske inte märker detta mönster eller förstår varför det sker, men ett ML-system kan använda det för att göra mycket exakta förutsägelser.

Även om maskininlärningssystem kan ge bra resultat har de några brister. När det finns mycket variation i språket kan det vara svårt för ett ML-system att sikta genom bruset för att välja mönster. När det finns starka mönster kan de överskugga mindre vanliga mönster och få ML-systemet att ignorera subtila signaler.

Sprout's Approach

För att bygga vårt sentimentanalyssystem designade vi ett hybridsystem som kombinerar det bästa av både regelbaserade och maskininlärningsmetoder. Vi analyserade tiotusentals tweets för att identifiera platser där ML-modeller kämpar och introducerade regelbaserade strategier för att övervinna dessa brister.



Genom att komplettera statistiska modeller med mänsklig förståelse har vi byggt ett robust system som fungerar bra i en mängd olika inställningar.

analys av groddesentiment

Allt om noggrannhet

På ytan verkar sentimentanalys ganska enkelt - besluta bara om en Tweet är positiv, negativ eller neutral. Mänskligt språk och känslor är dock komplicerade, och att upptäcka känslor i en Tweet återspeglar denna komplexitet.

Tänk på dessa tweets. Är de positiva, negativa eller neutrala?

https://twitter.com/alex/status/917406154321420289

Du kanske känner dig säker på dina svar, men chansen är god att inte alla håller med dig. Forskning har visat att människor bara håller med om känslan av tweets 60-80% av tiden.

Du kanske är skeptisk. Vi var också.


nummer 22

För att testa det märkte två medlemmar av vårt Data Science-team exakt samma uppsättning av 1 000 tweets som positiva, negativa eller neutrala. Vi tänkte att 'vi arbetar med tweets varje dag; vi kommer antagligen ha en nästan perfekt överenskommelse mellan oss två. ”

Vi beräknade resultaten och dubbelkontrollerade dem sedan. Forskningen var perfekt - vi kom bara överens om 73% av tweets.

Utmaningar i sentimentanalys

Forskning (tillsammans med vårt lilla experiment) visar att sentimentanalys inte är enkel. Varför är det så knepigt? Låt oss gå igenom några av de största utmaningarna.

Sammanhang

Tweets är en liten ögonblicksbild i tid. Medan vissa står ensamma är tweets ofta en del av en pågående konversation eller referensinformation som bara är vettigt om du känner till författaren. Utan dessa ledtrådar kan det vara svårt att tolka en författares känslor.

Sarkasm

Sarkasmdetektering är en annan smak av kontextutmaningen. Utan ytterligare information förväxlar sentimentanalyssystem ofta ordens betydelse med hur de är avsedda. Sarkasm är ett aktivt område för akademisk forskning, så vi kan se system inom en snar framtid som förstår snark.

Jämförelser

Sentiment blir också knepigt när tweets gör jämförelser. Om jag bedriver marknadsundersökningar på grönsaker och någon tweets, 'Morötter är bättre än squash', är denna Tweet positiv eller negativ? Det beror på ditt perspektiv. På samma sätt kan någon tweeta, 'Företag A är bättre än företag B.' Om jag jobbar för företag A är denna Tweet positiv, men om jag är med företag B är det negativt.

Emojis

Emojis är ett eget språk . Medan emojis som uttrycker en ganska uppenbar känsla är andra mindre universella. När vi byggde vårt sentimentanalyssystem tittade vi noggrant på hur människor använder emojis och fann att även vanliga emojis kan orsaka förvirring. används nästan lika mycket för att betyda 'så glad att jag gråter' eller 'så ledsen att jag gråter.' Om människor inte kan komma överens om innebörden av en emoji, kan inte heller ett sentimentanalyssystem göra det.

Definierar Neutral

Även 'neutral' känsla är inte alltid enkel. Tänk på en nyhetsrubrik om en tragisk händelse. Även om vi alla håller med om att händelsen är hemsk, är de flesta nyhetsrubriker avsedda att vara faktiska, informativa uttalanden. Sentimentanalyssystem är utformade för att identifiera känslor hos innehållets författare, inte läsarens svar. Även om det kan verka konstigt att se fruktansvärda nyheter märkta ”neutrala”, återspeglar det författarens avsikt att kommunicera faktainformation.

Sentimentanalyssystem varierar också i hur neutralt definieras. Vissa anser att neutral är en kategori för alla Tweet där systemet inte kan välja mellan positivt eller negativt. I dessa system är 'neutral' synonymt med 'Jag är inte säker.' I verkligheten finns det dock många tweets som inte uttrycker känslor, till exempel exemplet nedan.

Vårt system klassificerar uttryckligen icke-emotionella tweets som neutrala, snarare än att använda neutralt som en standardetikett för tvetydiga tweets.

Utvärdera sentimentanalys

Med så många utmaningar i sentimentanalys lönar det sig att göra dina läxor innan du investerar i ett nytt verktyg. Leverantörer försöker hjälpa till att skära igenom komplexiteten genom att fokusera på statistik om produktens noggrannhet. Noggrannhet är dock inte alltid en jämförelse mellan äpplen och äpplen. Om du planerar att använda noggrannhet som mätpinne, här är några saker du bör fråga.

Är den rapporterade noggrannheten större än 80%?
Eftersom människor bara håller med varandra 60-80% av tiden finns det inget sätt att skapa en testdatauppsättning som alla är överens om att de innehåller de 'rätta' sentimentetiketterna. När det gäller sentiment är 'korrekt' subjektivt. Med andra ord finns det ingen guldstandard att använda vid testnoggrannhet.

Den övre gränsen för ett sentimentanalyssystems noggrannhet är alltid överenskommelse på mänsklig nivå: cirka 80%. Om en leverantör hävdar mer än 80% noggrannhet är det en bra idé att vara skeptisk. Aktuell forskning tyder på att till och med 80% noggrannhet är osannolikt; toppexperter inom området uppnår vanligtvis noggrannhet i mitten till över 60-talet.

Hur många sentimentkategorier förutses?
Vissa leverantörer utvärderar noggrannhet endast på tweets som har identifierats av mänskliga utvärderare som definitivt positiva eller negativa, exklusive alla neutrala tweets. Det är mycket lättare för systemets noggrannhet att verka mycket hög när man arbetar med starkt emotionella tweets och endast två möjliga resultat (positiva eller negativa).


betydelsen av tre

I naturen är de flesta tweets dock neutrala eller tvetydiga. När ett system utvärderas mot endast positivt och negativt är det omöjligt att veta hur bra systemet klarar neutrala tweets - majoriteten av vad du faktiskt ser.

Vilka typer av tweets ingår i testuppsättningen?
Ett sentimentanalyssystem bör byggas och testas på tweets som är representativa för verkliga förhållanden. Vissa sentimentanalyssystem skapas med hjälp av domänspecifika tweets som har filtrerats och rengjorts för att göra det så enkelt som möjligt för ett system att förstå.

Till exempel kan en leverantör ha hittat en redan existerande dataset som endast innehåller starkt emotionella tweets om flygindustrin, med skräppost eller utanför ämnet tweets uteslutna. Detta skulle göra att noggrannheten blir hög, men bara när den används i mycket liknande tweets. Om du arbetar inom en annan domän eller får tweets utanför ämnet eller skräppost ser du mycket lägre noggrannhet.

Hur stor var testdatasetet?
Sentimentanalyssystem bör utvärderas på flera tusen tweets för att mäta systemets prestanda i många olika scenarier. Du får inte ett riktigt mått på systemets noggrannhet när ett system bara testas på några hundra tweets.

Här på Sprout byggde vi vår modell på en samling av 50 000 tweets från ett slumpmässigt urval från Twitter. Eftersom våra tweets inte är domänspecifika, fungerar vårt sentimentanalyssystem bra på ett brett spektrum av domäner.

Dessutom gör vi separata förutsägelser för positiva, negativa och neutrala kategorier; vi tillämpar inte bara neutrala när andra förutsägelser misslyckas. Vår noggrannhet testades på 10 000 tweets, varav ingen användes för att bygga systemet.

Se Sprouts sentimentanalys live med lyssnare

All forskning i världen kan inte ersätta att utvärdera ett system från första hand. Ge vårt nya sentimentanalyssystem en provkörning i vårt senaste verktyg för social lyssnande. Lyssnare och se hur det fungerar för dig. I slutändan är det bästa sociala lyssnarverktyget det som uppfyller dina behov och hjälper dig att få större värde från socialt. Låt oss hjälpa dig komma igång idag.

Dela Med Dina Vänner: