Home SD 커뮤니티 Easy Tech

Easy Tech

Easy Tech

데이터 시각화(Data Visualization) 도구 선택 시, 고려사항

2019-06-04


 

데이터 시각화는 뭐지?

데이터 시각화(Data Visualization)는 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정을 말한다. 데이터 시각화의 목적은 도표(graph)라는 수단을 통해 정보를 명확하고 효과적으로 전달하는 것이다. 기능적인 측면을 강조하거나 아름답게 표현하는 데만 매달려서는 안되고, 의미를 효과적으로 전달하기 위해서는 심미적인 형태와 기능적인 요소가 조화를 이루어야 한다. 단지 명확하게 의사를 전달하는 데 머무르기 보다는 보는 사람을 집중하게 하고 참여하게 만드는 것이 이상적인 데이터 시각화다. 

 

데이터 시화의 종류

데이터 시각화와 연관된 개념으로는 정보 시각화, 과학적 시각화, 시각 디자인, 정보 그래픽 등이 있다. 그 개념들을 자세하게 살펴보면, 정보 시각화(information visualization)는 일반적으로 소프트웨어 시스템의 파일이나 프로그램 코드, 도서관의 서지 데이터베이스, 인터넷의 관계 등과 같은 대규모 비수량 정보를 시각적으로 표현하는 것을 의미한다. 과학적 시각화(scientific visualization)는 주로 건축학, 기상학, 의학, 생물학 분야에서 시간의 흐름에 따른 변화를 입체적으로 표현하는 것을 말한다. 과학 분야의 연구결과를 일반인이 쉽게 이해하도록 그림으로 표현하는 사람을 시각화 과학자라고 한다. 아름답게 표현된 행성이나 은하계의 사진은 시각화 과학자들이 만든 작품이라고 할 수 있다. 정보 그래픽(information graphics)은 인포그래픽(infographic)이라고도 불리는데, 정보와 데이터, 지식을 시각적으로 표현하는 것을 말한다. 표지판이나 지도, 언론, 기술보고서, 교육 분야에서 발생하는 복잡한 정보를 빠르고 명확하게 표현하는 것이 핵심이다. 우리가 흔히 접하는 교통표지판과 복잡한 지하철 노선도가 대표적인 인포그래픽이다. 한 장에 수많은 데이터를 요약해 표현하는 인포그래픽은 특히 신문이나 방송과 같은 미디어에서 주목 받고 있다. 지역별 날씨를 그림으로 나타낸 일기예보 기상도나 기사 내용 중의 통계 수치를 그래프로 나타내는 것은 예전부터 사용하던 방법이다.

 

데이터 시각화 도구 선택 시 고려사항 1

데이터 시각화 도구를 선택하려면 어떤 것들을 고려해야 할까?

▶ 레이아웃 유연성과 디바이스 호환성

: 기저의 플랫폼을 이용해 데이터 시각화를 설계할 때 시각화는 전체 화면의 이점을 활용할 수 있다. 아울러 플랫폼의 툴을 이용해 모바일 디바이

스 레이아웃을 반응적으로 조절할 수 있다. 시각적 표현물을 넣을 때에는 애플리케이션 레이아웃에 얼마나 잘 들어맞고, 어떻게 상호작용하는지

확인해야 한다.

▶ 최종 이용자 권한 설정

: 상이한 집단 및 이용자가 상이한 데이터 표현물로 접근하는 애플리케이션을 구축하는 경우라면 플랫폼이 적절한 수준 보안을 어떻게 지원하는

지 검토해야 한다. 이용자 로그인이 데이터 권한을 촉발할 수 있고, 접근 가능 데이터에 맞춰 시각적 표현물이 적절히 조절되는지 확인해야 한

다. 아울러 플랫폼에 관리자 수준 툴이 있어서 상이한 이용자로서 시각적 표현물을 조회하면서 권한 및 시각 데이터가 적절히 설정되어 있는지 확

인할 수 있도록 조사해야 한다.

▶ 개발 기능의 유연성과 확장성

: 애플리케이션 개발 사이클에 시각화 프로세스가 투입되면 버전 제어를 실행하고, 개발을 관리하고, 테스트 및 제작 워크플로우를 전개하고,

실무를 테스트하고, 여하한 지속적 통합 툴과의 구성설정을 하는데 이상이 없어야 한다.

 

데이터 시각화 도구 선택 시 고려사항 2

 

▶ 차트 유형의 비즈니스 요구 충족

: 데이터 시각화 툴은 차트 유형과 유연성으로 경쟁한다. 상자 수염 그림(box and whisker plot)을 원한다면 시각화 툴에 이 차트 유형이 있는지

확인해야 한다.

▶ 통합 용이성

: 플랫폼이 애널리틱스를 애플리케이션에 넣는 방식이 비즈니스 요구를 충족하는지, 이행하기 쉬운지 검토해야 한다. 쉽게 통합하려면 HTML에

시각화를 투하할 수 있는 단순한 임베디드 코드가 필수다. 한편 추가적 유연성이 필요한 경우라면 API 역시 검토해야 한다. 예를 들어, 매개변수

를 애플리케이션으로부터 데이터 시각 표현물로 전달하고 싶다면 API에서 이를 지원해야 한다. 아울러, 애플리케이션에서 인증 정보를 요구하는

경우가 많다. 따라서 플랫폼의 통합 시 단일 로그인 서비스와 원활하게 작용하는지 확인해야 한다.

▶ 애플리케이션 접목 속도

: 시각화 플랫폼에서 시각 데이터에 접근할 때, 이용자는 데이터의 양과 애널리틱스의 복잡성에 더 민감하기 때문에 속도 저하에 관대한 편이다.

반면에 시각 데이터가 사용자경험의 미미한 부분에 불과한 애플리케이션을 이용한다면 속도 면에서 기대치가 이보다 높을 것이다. 게다가 시각

화가 검색 엔진에 최적화된 대중적 웹 페이지에 이식되는 경우 속도를 검토하는 것이 결정적으로 중요하다. 왜냐하면 시각 데이터에 의해 느려진

다면 페이지 순위가 저하될 것이기 때문이다. 

 

데이터 시각화 도구 선택 시 고려사항 3

▶ 애플리케이션의 요건 중 '실시간'이 차지하는 비중

: 플랫폼에서 데이터 출처로의 실시간 접근을 지원하는지, 캐시된 데이터의 애널리틱스 실행이 적당한지 여부는 성능과 직결된다. 실시간 데이터

가용성, 성능, 비용(원가) 사이에는 흔히 절충이 존재하기 마련이다. 실시간 업데이트로부터 정기 업데이트로 변경할 수 있는 제어 수단이 있고,

성능을 검증하는 것은 대형 데이터 세트에서 필수다.

▶ 플랫폼의 비용(원가)과 가격 모델의 정렬

: 대다수 데이터 시각화 플랫폼은 선행 비용과 이용자당 요금이 있다. 시각화를 넣어 수천 명의 이용자에게 접근을 제공하려 한다면, 애플리케이션

의 원가와 사업 모델 사이의 정렬, 즉 사업성을 따져보아야 한다. 이는 시각화가 고객 대면 애플리케이션에 임베디드될 때 특히 중요하다. 데이터

시각화 플랫폼의 이용자당 요금이 원가의 상당 부분을 차지할 수 있기 때문이다.

▶ 상호운용성과 워크플로우로의 플랫폼 확장 가능성

: 일단 시각화를 접목했다면 비즈니스 요건에 부합하는지 검증해야 한다. 예를 들어, 정렬 순서 변경, 시각 데이터에 사용될 측정 단위의 선정, 표에

쓰일 컬럼(열) 종류의 선택, 차트 유형 사이의 전환 등 플랫폼의 기능들을 살펴봐야 한다. 특히 이용자가 기저 데이터를 갱신할 수 있도록 하려는

경우라면 기능 확장성이 필요할 것이고, 전체 플랫폼 기능과 미래 기술 동향을 주시해야 한다. 일부 데이터 시각화 플랫폼은 개발자가 API를 이용

해 시각 기능을 확대하는 것을 지원한다.

 
 

데이터 시각화 BI 툴

데이터는 보이는 만큼 활용할 수 있다. 요즘 대부분의 데이터 시각화 도구는 기업용 보고 도구로 시작해 셀프 서비스 BI로 확장했다. 어떤 서비스는 셀프 서비스 데이터 시각화 도구로 출발한 뒤 고급 보고 기능을 추가하기도 했다. 일부는 데이터 호수(Data Lake)나 하둡(Hadoop)에서 대량의 데이터 세트를 읽어들이는 기능도 지원한다. 배포 방식은 클라우드 전용이거나 온프레미스 설치 등 다양하다. 데이터 시각화 BI 툴 몇 가지를 알아보자.

▶ 버스트(Birst)

: 버스트는 빠른 BI 데이터 검색을 지원한느 기업용 BI를 표방한다. 버스트 아키텍처는 공유된 공통 분석 패브릭 위에 통합된 가상화 BI 인스턴스 네

트워크로 전체 조직을 연결한다. 버스트는 멀티 테넌트 아키텍처를 사용한다. 퍼블릭 클라우드, AWS 또는 가상 어플라이언스로 구축할 수 있다.

▶ 시센스(Sisense)

: 통합된 엔드투엔드 분석 및 BI 플랫폼이다. 인메모리 칼럼 기반 데이터베이스를 기반으로 시각적 데이터 탐색, 대시보드와 내장된 고급 분석 기능

을 제공한다. 시센스는 공공시설, 개인 공간 또는 하이브리드 클라우드 등에서 온프레미스 형식으로 구축할 수 있으며, 서비스로 관리할 수 있다.

시센스가 주장하는 한 가지 차별화 요소는 RAM 보다 50~100배 빠른 데이터 이동을 위해 CPU상의 메모리(캐시)를 많이 사용한다는 것이다.

가트너에 따르면 시센스는 확장성을 강조하지만, 평균 배포 규모는 300명 정도로 알려져 있다.

▶ 태블로(Tableau)

: 태블로는 강력한 시각적 데이터 검색 기능을 갖춘 분석 플랫폼 서비스다. 기본 플랫폼으로는 윈도우나 리눅스용 태블로 서버와 호스팅용 태블로

온라인이 있다. 사용자는 크리에이터이자 익스플로러 또는 뷰어가 될 수 있다. 크리에이터는 서버나 온라인 버전뿐만 아니라 태블로 프립(Tablea

u Prep)과 태플로 데스크롭에 대한 라이선스 등을 지원한다.