<< 대용량 파일 다운로드는 Axel | Home | 설정 기반의 플러그인 시스템(Java) >>

데이터에 현혹되지 않고, 데이터를 잘 활용할수 있는 14가지 룰


요즘 데이터에 관련된 부분을 생각하고 고민하다보면서 데이터를 바라보는 시각에 도움되는 글이 있어서 원저자의 허락하에 번역해 봅니다. 원저는 14 rules for data-driven, not data-deluded, marketing"입니다.
이 글을 쓴 SCOTT BRINKER는 년도별 "Marketing Technology Landscape Supergraphic"으로도 유명합니다.

1. 데이터 기반보다는 고객 기반

데이터 기반 마케팅은 분명 좋다. 그러나 (데이터 기반) 마케팅의 목적은 고객을 유치하고 그들에게 더 나은 사용자 경험을 제공하여 그들을 유지시키는 것이다. 결국엔 데이터 기반보다 고객 기반 마케팅이 더 낫다. 고객과 데이터 기반 마케팅은 상호 배타적이진 않다. 다르게 말하면, 데이터 기반은 고객 기반을 위한 수단에 지나지 않는다. 데이터로 인해 미궁의 속으로 들어갔을 땐 생각을 멈추고 "고객에게 어떻게 좋은가?"를 물어봐라. 데이터보다는 고객의 목소리가 더 중요한 법이니깐.

2. 모든 데이터는 동일하게 만들어지지 않는다.

데이터는 논쟁을 종료시킨다는 말이 있다. 적어도 절대적 진실적(정확성)이었을때만 그렇다는 이야기다. 하지만, 데이터는 마음만 먹으면 어떤 주장에도 뒷바침할 수 있는 자료를 찾게 해준다. 다만, 중요한 것은 데이터의 정확성과 관련성의 차이다. "In A Big Data World, Marketers Know Shockingly Little About Us"를 생각해 보자.
좀더 나은 교훈은: 가장 정확하고 관련성이 높은 데이터가 논쟁을 종식시킨다. 하지만, 논쟁이 끝난 다음엔 결단이 기다린다. 즉, 데이터 분석은 단지 결단을 위한 조그만 수단일뿐이다.

3. 데이터는 단순한 역사에 불과하다.

데이터는 일어난 것을 우리에게 말해준다. 일어날 것에 대해서는 말해주지 않는다. 그렇다. 하지만, 우리는 데이터의 역사로부터 배워야 한다. 그리고 과거 데이터로부터 정확한 미래를 예측가능해야 한다. 그러나 세계는 끊임없이 변하고, 데이터가 나타내는 역사의 상황은 오늘, 내일의 환경과도 엄연히 다르다. 중요한 건, 블랙스완(과거의 경험에 의한 판단이 행동의 기준이 되어서는 안된다는 것)의 경고처럼, 그 방법이 될 순 있어서 항상 될 수 있는 건 아니다.

4. 데이터는 항상 불완전하다.

물론 구체적인 하나의 데이터셋은 완전할 순 있다. 지난 3년동안 분기별 판매액을 나에게 줘라는 것은 완전한 데이터 셋이다. 하지만, 진공상태에서 존재하는 것은 아무것도 없다. 당신이 데이터를 가지고 의사결정을 할 때 데이터가 의사 결정에 관련된 유일한 것은 있을 수 없다. 의사 결정에 관련된 더 많은 데이터가 있어야 한다. 하지만, 모든 것을 손에 넣을 순 없다. 이것을 인정하면 우리가 가지고 있는 데이터로 그림은 그릴수 있지만 기껏해야 인상파 화가의 그림 정도이다. 종종 그것은 현대 미술일 수도 있다. 즉, 모든 데이터를 손에 넣을 수 없기 때문에 때로는 주어진 데이터속에서 의사 결정을 할 수 있는 용기가 필요하다.
그리고 나의 데이터에서 의사 결정할 카드가 적다는 것은 인식할 필요가 있다. 그럼 불완전한 데이터에서 많은 시간을 투자해 의사 결정에 필요할 카드를 많이 만들 수 있게 된다.

5. 데이터는 객관적이다. 그러나, 그 집합이나 해석은 주관적이다.

데이터는 객관적이라는 위험한 환상을 우리에게 준다. 객관적으로 모든 사람은 스프레드시트의 같은 데이터를 바라본다. 내가 순 추천 고객 지수 7을 보여줬다면, 내가 보여준 7에 대해서는 이견이 없다. 그러나, 무슨 데이터를 수집했고, 언제 어떻게 수집했는지, 누구로부터 수집한지에 대한 데이터에 대한 주관적인 선택이 포함되어 있다. 다른 한편으로는 우리가 어떻게 해석했는지도 주관적이다.
"The Hidden Biases in Big Data"라는 기사에서 많은 좋은 사례를 보여준다. "data fundamentalism(데이터 원리주의)"라는 화려한 문구로 소개되곤 한다. 데이터는 항상 객관적이라는 환상은 버리는 것이 낫다.

6. 하나의 데이터셋은 무한한 스토리를 만들수 있다.

마케터들은 스토리텔러이다. 그것은 일반적으로 좋은 일이다. 데이터는 스토리를 더욱 설득력있게 만든다. 하지만, 우리는 데이터를 주관적으로 해석할 수 있기 때문에 우리는 주위가 원하는 거의 모든 이야기를 만들수 있기도 하다. 인정하지만, 몇몇 스토리는 다른 것들보다 더 신뢰한다. 이것은 퍼지 라인이며 귀납의 문제(반복되는 경험의 패턴에 따른다는 사실에 촛점을 맞추고, 과거로부터 미래를 추론(Reasoning) 하는 것으로 규정되지만, 넓은 의미에서는, 관찰된 것을 기반으로 해서 아직 관찰되지 않은 것에 대한 결론에 이르는 것을 포함된다. 귀납법을 위한 틀로서 확률이론을 사용하는 베이즈 정리(Bayes' Theorem) 등이 있다.)이다.
그리고 이는 수세기 동안 과학자나 철학자들에게 성가시게 해왔다. 말할 필요도 없이 쉬운 답은 없다. 그러나 관점을 유지하는데 도움이 된다: 데이터 주위에서 나온 어떤 이야기는 그것에 대해 이야기할 수 있는 유일한 이야기는 결코 없다.

7. 전략은 선택의 문제이고, 좋은 데이터는 그 선택을 도와준다.

좋은 전략은 선택을 하기 위한 프레임워크이다. 그리고 좋은 데이터는 좋은 선택을 지원해주는 정보이다. 우리의 전략을 추구하는데 있어서 선택에 도움이 되지 못하는 데이터는 방해의 산물이다.

8. 실험은 인과관계를 발견하는 최고의 수단이다.

상관 관계가 곧 인과 관계로 이어지지 않는다. 데이터 과학자라면 누구나 알고 있는 일이지만, 그러나 마케터들은 더 많은 고객이 우리와 함께 더 많은 사업을 수행하게 되는 인과 관계를 알고 싶어한다. 데이터를 통해 있음직한 상관 관계가 발견되었을 경우 우리는 어떻게 해야할까? 우리는 통제된 실험을 실행한다. 실질적으로 가능한 만큼의 모든 변수를 가지고, 증명 또는 우리의 가설을 반증할 수 있는 대안을 테스트한다. Google은 매년 10,000건의 실험을 수행한다. 그것은 우리가 만들수 있는 가장 강력한 데이터이다. 이것은 Big Data보다 Big Test를 더 크게해야 하는이유이기도 하다.

9. 대시보드 뿐만 아니라, 앞 유리도 보자.

정량적으로 우리는 운전하는 동안 속도계 등의 대시보드(데이터)를 봐야하고, 정성적으로 앞 유리의 시야(경험)도 봐야한다. 물론 둘다 해야한다. 또한 실제로 운전할 때 정량(데이터)과 정성(경험)의 균형을 자연스럽게 유지해야 한다. 우리는 마케팅에서도 똑같은 균형을 위해 노력해야 한다.

10. 데이터의 정확성과 관련성은 시간과 함께 쇠퇴된다.

특히나 마케팅 영역에서는 데이터의 유통기한은 짧다. 내가 새로운 자동차를 검색하는 그 주에 나에게 자동차 광고를 타겟팅하는 것은 의미가 있지만, 6개월 후에 자동차 마케팅 대상에서 나를 식별해준 데이터는 단지 과거의 화석에 지나지 않는다. 내가 자동차 마케팅 대상에 포함된 것을 안다는 것은 약간의 가치가 있을지도 모른다.
하지만 나는 여전히 가치가 없다고 생각하고 있다. 가치가 없는것보다 더 나쁘다. 왜냐하면, 나에게 나쁜 의사 결정을 유도하기 때문이다. 정확성과 관련성은 데이터를 가치있게 만들지만, 속성은 시간이 지남에따라 변한다.

11. 데이터는 탐색(exploration, why?)나 확인(confirmation, what?) 작업에 유용할 수 있다.

데이터는 탐색과 확인시에는 서로 다르게 접근해야 한다. 탐색시에는 새로운 가설에 영감을 얻을 수 있는 패턴, 인사이트나 아이디어, 발견할 것들을 찾는다. 확인시에는 어떤 일이 일어날지 안일어날지, 혹은 어느 정도 일어날지에 대해 검증하는 것이다. 그러나 통제된 실험에서 테스트한 가설이 확인되지 않았다면, 확인은 무엇이 일어났고 왜 안됐는지 말해주어야 한다. 같은 데이터로 하나의 환경에서 확인에 사용될 수도 있고 또 다른 환경에서 탐색에도 사용될 수 있다. 다만 당신이 하고 있는 것에 대해서는 알아야 한다.

12. 하나의 시계를 가진 사람은 지금의 시간을 알 수 있지만, 두 시계를 가진 사람은 알 수 없다.

이 법칙은 마케터들이 알아야할 7가지 기술 법칙들 중의 하나인 Segal의 법칙(정보량이 너무 많으면 정보들이 돌아가는 것을 모르게 된다)으로 알려져 있다. 세상엔 혼돈의 데이터가 많이 있다. 준비된 두개의 다른 웹 분석 패키지들로부터 지표를 얻고자하는 사람은 정확성을 입증할 수 있다. 이 다른 두 툴은 동일 현상을 다르게 측정한다. 왜 두 툴은 서로 다른 가치있는 통찰력을 보여주는지에 대한 이해 - 즉, 중요한 차이에 대한 이해력을 갖추는데 투자하는 것은 가치가 있을수도 있다. 하지만, 매번 모순을 추적하기에는 수확 체감이 있다. 많은 경우 완벽하게 정확한 데이터는 필요없다. 하지만 충분히 정확한 데이터는 좋은 의사 결정을 낳게 한다.

13. 모델은 현실이 아니다.

데이터는 주장을 표현하기 위한 것이고 현실성은 없다. 기껏해야 현실은 반영하지만, 데이터는 변형되기도 쉽다. 과학자이면서 철할자인 Alfred Korzybski가 "지도는 영토가 아니다"라는 말을 했다. 재해석해보면, 물리적 세계(영토)를 반영한 가상적인 공간이 지도인것처럼, 만드는 사람의 심리적 상태나 개인적인 지식의 편차에 의해 지도의 모형은 변형될 수 있다는 의미로 받아들여질 수 있다. 지도나 데이터처럼 실제적인 것이 아님에도 불구하고 사람들은 사용하길 원한다.

위대한 통계학자 George E. P. Box는 "모든 모델들은 잘못된 것이지만, 일부 유용한 것도 있다."고 말했다. 그러나, 데이터가 나타내는 것에 대해 정확성에 대한 긍정적인 의구심을 유지하기 위해 신중을 기해야 한다. 실제로 우리들은 데이터가 현실과 다르다는 것을 알리는 의미로, 임계치를 벗어나는 등의 신호에 대해 알람 주기를 원할 것이다. 그리고 "지도와 지형이 다를 경우 지형을 우선시해라."라는 스위스 군대의 격언을 업급하면서 현실(고객)의 목소리가 중요시하고 있다.

14. 데이터 시각화는 명확하게 하기도 하지만, 혼선을 주기도 하고, 집중을 분산시키기도 한다.

차트, 그래프, 인포그래픽 등의 데이터 시각화는 강력하지만, 양날의 검이기도 하다. 시각화는 지금까지 우리 인간에게 데이터에서 패턴을 발견하는데 가장 효과적인 방법이다. 불행하게도 의도적이든, 우연이든 패턴은 실제로 정확하지 않은 것을 보여줄 수 있다. 데이터 시각화는 과학이며 그 자체가 예술이다. 다양한 각도와 인사이트력이 필요하다.

비주얼에 대한 문학적 스킬을 배울려면 Stephen Few, Kaiser Fung, Edward Tufte, Nathan Yau, Fernanda Viégas and Martin Wattenberg의 글을 읽으면 좋다. 그들은 여러분들의 데이터 인사이트에 많은 도움을 줄 것이다.
Tags : ,



Add a comment Send a TrackBack