Analysis/GA

[GA] 구글 어낼리틱스 언어 스팸(Language spam) 차단하기

표표_ 2016. 12. 26. 16:50
반응형




구글 어낼리틱스 언어 스팸(Language spam) 차단하기



언어 스팸(Language spam)이 뭐지??


어느 날 갑자기 분석 리포트에 나타난 뜬금없는 언어 스팸(Language spam)! 보통 한국어로 작성한 블로그는 주로 한국인이 보기 때문에 GA에서 수집하는 언어 정보에는 Ko 혹은 Ko-kr 정도로만 표기되는데, 구글 서치 콘솔(google search console, https://www.google.com/webmasters/tools/home?)을 연동한 연유인지 이후로 언어 정보에 이상한 글자들이 보이기 시작했다.


 GA 리포트의 가장 첫 화면에서 확인할 수 있는 정보 중에 언어 항목에 위 그림과 같이 이상한 글자들이 상위권에 점령한 것이다. 구글링을 좀 해보니 'Secret.ɢoogle.com You are invited! Enter only with this ticket URL. Copy it. Vote for Trump!' 라는 글자는 러시아에서 발생한 스팸으로 미 대선에서 트럼프에게 투표할 것을 주장하는 메세지를 전달하고 있다. 


구글 서치 콘솔에서 자동적으로 블로그를 검색에 노출되도록 뿌려주는 것을 이용하여 스팸 봇(bot)도 자동으로 이러한 블로그나 웹사이트에 무단으로 침투하는 것인데, 이럴 경우 언어 스팸 필터가 제대로 되어 있지 않다면 엉뚱한 스팸이 트래픽에 얽혀들어 잘못된 분석 리포트를 보게 된다는게 주요한 이슈인 것이다.


이미 세계에서는 이와 같은 이슈를 접한 사람이 많으며 해결책 또한 이미 나와있는 상태이다. 구글 어낼리틱스 커뮤니티에서 이와 같은 문제점을 접한 사람의 대화 내용을 확인해보자(https://www.en.advertisercommunity.com/t5/Google-Analytics-Filters/Secret-%C9%A2oogle-com-You-are-invited-Enter-only-with-this-ticket/td-p/868915#).


해당 커뮤니티 스레드의 답변자는 해결책을 링크해 두었는데 그 중 Analytics-Toolkit.com에서 제시한 해결 방법을 통한 언어 스팸 차단 방법을 알아보도록 하자(http://blog.analytics-toolkit.com/2016/language-spam-latest-google-analytics-spam/).




두 가지의 Google analytics 언어 스팸 제거 방법


GA에서 데이터가 한번 기록되면 변경하거나 수정할 수가 없기 때문에, 데이터를 아예 지워버리지 않는 한은 스팸을 없앨 방법이 없다. 때문에 첫 번째 방법은 '필터'를 이용해 앞으로 기록될 트래픽에서 언어 스팸이 기록되지 않도록 하는 것이며, 두 번째는 '고급 세그먼트'를 이용하여 보고서에서 필터링하는 것이다.


1. 설정에서 '필터'를 이용하기

- 필터를 이용하는 것은 간단하지만 앞으로의 설정을 바꾸는 것이고 트래픽에 직접적으로 영향을 미치므로 사용 시 주의할 필요가 있다. 다음의 정규식을 이용하여 필터를 작성하도록 하자.


.{15,}|\s[^\s]*\s|\.|,|\!|\/



- GA에서 '관리'의 '보기' 항목 중 '필터'에서 필터를 추가한 뒤 위 항목과 같이 입력을 해주도록 하자.

- 필터이름 작성 / 필터 유형은 '맞춤' 선택 / 필터 입력란에서 '언어 설정' 선택 / 필터 패턴에 '정규식 입력' / 저장

- 내용을 저장하기 전에 필터가 제대로 적용되는지 확인하려면 하단의 '이 필터 확인' 버튼을 누르면 아래와 같이 확인이 가능하다.


- 좌측이 필터 적용 이전의 트래픽량이고 우측이 필터가 적용된 이후의 트래픽량이다. 필터 적용 후 언어 스팸이 필터링되어 더이상 트래픽으로 잡히지 않을 것임을 나타낸다.



2. '세그먼트'를 이용하기

- 세그먼트를 이용할 경우 기존의 데이터도 필터링하여 볼 수 있다는 장점이있으나 매번 세그먼트를 적용해줘야 하는 단점이 있다.

- 보고서 항목에서 새 세그먼트를 만들어 아래와 같이 셋팅을 하도록 하자.



- 그리고 저장을 하면 아래와 같이 정리 된 것을 확인할 수 있다!



이와 같이 언어 스팸을 필터링 하는 것에 대해 알아보았다. 웹 로그 분석에 있어서 중요한 것 중 하나는 정확히 내가 원하는 트래픽이 무엇인지 파악하고 본질을 보기 위해 방해가 되는 요소를 제거하는 것이다. 잘못된 트래픽에 휩쌓여 본질을 제대로 파악하지 못하는 일이 없도록 항상 감시를 하도록 하자!



* 참고

https://www.en.advertisercommunity.com/t5/Google-Analytics-Filters/Secret-%C9%A2oogle-com-You-are-invited-Enter-only-with-this-ticket/td-p/868915#

http://blog.analytics-toolkit.com/2016/language-spam-latest-google-analytics-spam/

https://www.seroundtable.com/google-vote-trump-analytics-spam-22966.html




반응형