컴퓨터공학

[ebook] 데이터이쿠 무작정 따라해보기

23,800원

포인트	0점 적립
배송비	무료배송

[ebook] 데이터이쿠 무작정 따라해보기 (+0원)

수량

총 금액 0원

데이터이쿠, 데이터이쿠 무작정 따라해보기, 김강희, ISBN 979-11-6675-500-2, 9791166755002

상품요약정보 : 서적

상품정보고시
도서명	[ebook] 데이터이쿠 무작정 따라해보기
저자	김강희
출판사	복두출판사
판수(크기)	1판
쪽수	-
판형	-
출판일	2024-03-28
ISBN	979-11-6675-500-2

제01강 데이터이쿠 시작하기

데이터이쿠 다운로드 | 프로젝트 생성하기 | 데이터 불러오기 |

데이터셋의 속성 | 플로우 | 파일 명 변경하기

제02강 탐색적 데이터 분석

데이터 익스플로러 | 데이터 분석 | 빅데이터

제03강 데이터 전처리1

데이터 전처리 준비하기 | 행 삭제하기 | 데이터 열 이동하기 |

열 이름 변경하기 | FORMULAR | 변수 생성하기 | 변수 이름 변경하기 |

ZONE | ZONE 만들기 | ZONE 이동하기

제04강 그래프 분석1

SCATTER PLOT | 토마스 베이즈

제05강 통계분석

파일 복사하기 | ZONE에서 파일 공유하기 | 파일 명 변경하기 |

통계분석 사용하기 | 추천분석 사용하기 | 단변량 분석하기 |

이변량 분석하기 | 가설검추정 | 정규성 검정 | 1표본 T검정 |

2표본 T검정 | 2표본 중위수 검정 | 분포식별하는 방법 |

여러 분포 식별하기 | 2D 분포 확인하기 | 적합선 그리기

제06강 다변량 분석

주성분 분석 | 3D 산점도 | 평행좌표 그래프 | 통계적 유의성

제07강 데이터 전처리2

새 파일 추가하기 | JOIN 하기 | Stack 하기 | 파일 이름 변경하기 |

데이터 탐색하기 | 정규성 검정 | 이상치 제거하기 | ZONE 이동하기 |

탐색적 데이터 분석 | 정규성 검정 | 정규성 검정 | 데이터에 음영처리하기

제08강 그래프 분석2

다중상관분석 | 주성분분석 | Scree Plot |

평행좌표 그래프(Parallel coordinate plot) | 3D Scatter Plot | 산점도 |

Line Chart

제09강 실전 데이터 분석1

라이센스 다시 요청하기 | 프로젝트 파일 불러오기 |

새로운 프로젝트 만들기 | ZONE 만들기 | 다른 ZONE으로 파일 이동하기 |

데이터 셋 확인하기 | 필요없는 행 삭제하기 |

전처리 레시피 복사하여 실행하기 | 데이터 쌓기 | ML ZONE 만들기 |

파일 복사하기 | 데이터 확인하기 | 데이터 오름차순으로 보기 |

데이터 필터링하기 | Columns Quick View | Filter 기능 해제하기 |

Scatter Plot 그려보기 | Line Chart 그려보기

제10강 실전 데이터 분석2

통계분석 수행하기 | 간단한 머신러닝 수행하기 | 예측에 관하여

특강 / 데이터이쿠 아카데미

제11강 머신러닝

K겹 교차 검증 | 데이터 셋 분리

제12강 회귀분석

머신러닝 설계하기 | 알고리즘 | 학습하기 | 중요한 변수 찾기 |

모델 성능 | 예측하기 | 발행하기 | 모델성능평가

제13강 랜덤포레스트

Feature Handling

제14강 리지와 라쏘

Bias와 variance의 trade-off | Regularizatiojn | Ridge regression |

LASSO | Rigde Regression 선택하기 | Lasso Regression 선택하기 |

Individual explanations | 모델 Performance |

Hyperparameter optimization | Override Metrics

제15강 Light GBM

부스팅 기본 개념, 배깅과의 차이 | 에이다 부스트 | 그래디언트 부스팅 |

LightGBM이란?

제16강 모델성능 비교평가

Prologue

빅데이터

빅데이터란 무엇일까? 빅데이터는 정말 큰 데이터일까? 그럼 어느 정도 커야할까? 정해진 기준은 없다. 왜냐하면 빅데이터라는 것은 시간이 흐름에 따라 데이터가 계속 축적되는 존재이기 때문이다. 앞으로 계속 커질 것이다. 인간 유전자 지도 데이터를 예로 들어보면 약 30억 개의 유전자를 나열해서 적으면 700MB 용량의 CD 1장에 담을 수 있다. 문제는 인간 유전자 지도를 만드는 작업 과정이다. 유전자를 나열해서 적으면 간단하지만 실제 작업은 DNA 정보를 하나하나 쪼개서 복사해서 붙이는 과정이 있다. 그러다 보니 겹치는 부분들이 생겨 220GB 정도로 데이터가 커진다.

빅데이터가 모든 것을 정확하게 예측할 수 있을까? 빅데이터만 축적하고 있다면 가능한 일일까? 미국의 질병관리센터Centers for Disease Control and Prevention: CDC에서는 독감환자 수가 발생하였을 때 그 지역을 차단하고 예방조치를 하기 위해 데이터를 수집하기 위해 각 지역으로부터 보고를 받는다. 미국의 국토도 넓다보니 각 지역의 동사무소에서 시청 그리고 질병관리센터까지 정보가 이동하는 과정이 대략 2주 정도 걸린다. 이에 따라 보고서가 나오는 순간 바로 이미 다른 지역으로 독감이 퍼져버렸다. 아이디어는 좋았으나 쓸모없는 보고서가 만드는 꼴이 되어버렸고, 이러한 문제 해결의 돌파구를 구글이 마련했다. 구글은 검색 엔진을 이용해서 독감예측을 하겠다는 것이었다. 사람들은 독감에 걸리거나 위협을 받게 되면 독감에 대한 관심을 갖게 되어 컴퓨터 앞에서 독감 이라는 단어를 검색하게 되고, 구글은 보다 정확한 예측을 위하여 질병관리센터에서 조사한 2003∼2007년의 기존 데이터를 활용하여 독감환자 수와 가장 잘 맞는 키워드 50개(e.g. 독감증세, 독감증상, 독감치료 등)를 선정하여 예측하기 시작했다. 선정된 검색어를 통하여 독감환자 수를 질병관리센터보다 2주 가량 빨리 예측했다. 그런데, 꼭 독감에 걸리거나 위협을 받은 사람만이 검색을 할까? 그로부터 2년 뒤에 구글은 실제 독감에 걸린 수보다 2배나 많은 예측을 하게 되었다. 예측이 어긋난 가장 큰 이유는 2012년에 미국에서 발령한 독감 비상 때문이라는 의견이 지배적인데, 이 때 감기에 걸리지 않은 사람들조차 감기관련 검색을 더 많이 하게 되었고, 구글 트렌드는 이걸 오해해서 감기 전염률을 과대측정했다는 것이다.

빅데이터 분석이 잘못된 결과로 나타났을 때 독이 될 수도 있음을 시사한다. 그렇다면 어떻게 하는 것이 중요할까? 데이터를 서로 연결시켜 흔들리지 않게 무겁게 만들어야 한다. 내용 검토 없이 숫자만을 맹신하는 것도 문제가 될 수 있다.

데이터를 묶을 때에도 주의해야 한다. 데이터를 무조건 묶는다고 좋은 것은 아니다. 묶으려면 잘 묶어야 한다. 뇌의 신경계를 이루고 있는 뉴런neuron이 잘 뭉쳐지면 뇌가 되는데, 건전지를 묶어봐야 쓸모없는 고철덩어리가 된다. 묶더라도 필요한 것끼리 잘 묶어서 쓸모 있는 것으로 만드는 것이 중요하다. 데이터를 묶는 과정에 직관과 통찰력이 필요하다.

과거를 통한 미래 예측, 기계학습과 인공지능. 그 바탕은 통계학이다. 새로운 비즈니스 로직을 개발하려고 할 때 통계학은 어떤 도움을 주는가? 전체적인 관점을 조망하고자 할 때 어떻게 통계학을 사용할 것인가?

상관관계라는 것은 두 변수 간에 어떤 선형적인 관계가 있는지를 나타내는 척도이다. 아래 문장을 보고, 데이터가 맞는 것인지 생각을 해보자.

❝돈이 많은 사람들이 더 행복하다고 조사 결과 나타났다.❞

둘 사이에 어떤 ‘인과관계’가 있는지 더 고민이 있어야 한다. 돈이 많은 게 어떤 식으로 사람의 행복에 영향을 미치는지, 인과관계가 명확히 밝혀지기 전까지는 돈 많은 사람들은 항상 행복하다는 명제를 함부로 단언하기가 어렵다. 데이터를 활용한 이런 식의 분석과 활용은 항상 ‘상관관계’의 한계 속에 갇혀 있다. 좀 더 정확한 분석을 위해서는 인과관계를 면밀히 조사하는 것이 필요하다.

데이터가 보여주는 것은 어디까지나 그것의 현상, 겉모습을 보여줄 뿐이지 그것의 관계를 보여주지는 못한다. 상관관계는 인과관계로 해석하기 위한 힌트를 제공한다. 모든 통계에서 보여주는 데이터 관계는 상관관계이다. 인과관계를 해석하는 것은 통계 프로그램의 계산도 아니고 데이터 그 자체도 아니다. 데이터의 인과관계는 사람들이 스스로 파악해야 하는 것이다.

명성이 덜 한 사람일수록 예측을 할 때 큰 위험이 없으므로 자기 예측이 터무니없더라도 과감하게 예측을 할 수 있다. 틀리더라도 잃을 게 없으니까. 자기 예측이 터무니없더라도 이른바 ‘대박’을 노리고 행동하는 것은 합리적이다. 반대로 이미 상당한 명성을 쌓고 있다면 아무리 판단을 쉽게 할 수 있는 자료를 보더라도 과감하게 예측하는 것이 쉽지 않다.

외삽Extrapolation은 기본적으로 현재의 추세가 앞으로도 계속될 것이라는 가정을 전제로 한다. 빗나간 예측으로 유명한 다수는 이런 가정을 너무 편한대로 적용한 데서 기인한다. 19세기에서 20세기로 넘어갈 무렵 마차의 증가에 따라 당시 전문가들은 말똥이 도시를 덮을 수도 있다는 예측을 했던 적이 있다. 1890년에 예측한 글에 따르면 1940년대가 되면 말똥이 모든 도시의 거리에 2미터 높이로 쌓일 것이라고 예측했지만, 다행스럽게도 헨리 포드가 모델 T를 개발하여 생산하기 시작해서 그런 일은 일어나지 않았다.

통계적 관점에서 보면 기하급수적인 증가가 되는 분야에는 외삽 방법론을 동원하면 정확한 예측은 사실상 불가능하다. 외삽 방법론에 적절한 오차범위를 고려하여 분석을 수행한다 해도, 예측 범위가 넓어서 유용한 예측은 될 수 없다. ‘30대 남성의 평균 키는 1m에서 2m 사이다.‘라는 명제는 100% 맞는 명제가 분명하지만, 의미는 없다.

통계 자료를 잘못 판단하거나 수치 자체를 무비판적으로 해석하고 성급하게 받아들이면서 실패하는 경우가 대부분이다. 이제는 데이터를 신뢰해야 하며, 신뢰할만한 데이터를 만들고 사용해야 한다. 신뢰할만한 데이터인지 아닌지를 판단할 수 있어야 한다.

머신러닝 분석도 사실 예측을 하는 분석이 아니라 실제로는 예상을 하는 분석이라고 해야 더 옳다. 항상 우리가 하는 분석 결과가 틀릴 수도 있다는 생각을 해야 한다. 과거 데이터로 현재의 현상을 설명하는 것은 충분히 가능하지만, 미래를 예측할 수 있다고 단순하게 믿지는 말아야 한다.

왜 데이터이쿠인가?

필자가 데이터이쿠를 처음 접한 것은 2021년이었다. 데이터이쿠를 접하기 이전에도 코딩을 사용하지 않고, 머신러닝 등 인공지능 분석을 해볼 수 있는 프로그램들은 더러 있었다. 그러나 큰 인기를 끌지 못하고 사라져 버렸다. 데이터이쿠는 국내외 여러 기업들이 사용하고 있고, 필자가 3년 정도 사용해 보았다. 짧은 시간 동안에 머신러닝을 통해 데이터 분석을 해보고자 하는 분들에게 엑셀만 사용할 수 있다면 도전해 보라고 권하고 싶다. 단언컨대 R이나 파이썬 보다 배우기 쉽다.

지난 1년간 주변 사람들에게 데이터이쿠 사용법을 1∼2시간씩 세미나식으로 설명을 해보았는데 놀랍게도 빠르게 사용을 했다. 그 어떤 통계프로그램이나 코딩 프로그램도 1∼2시간 배우고 과제를 수행하는 것은 불가능한 일이다. 1∼2시간 설명을 듣고 머신러닝을 수행해서 의미 있는 결과를 냈다. 코딩을 배워서 구구단을 출력하는 알고리즘을 짤 수 있는 시간 동안에 머신러닝을 수행할 수 있다니! 데이터이쿠가 그만큼 직관적으로 잘 만들어졌다는 반증이 아닐까 한다. 여러분들도 분명 느끼게 될 것이다.

데이터이쿠를 접하자마자 책을 써야겠다는 생각을 했던 것 같다. 그러니까 수 년 전에 쓰려고 했었는데, 미루고 미뤄서 지금에서야 출판하는 것이다. 지금에라도 출판하게 된 것은 아직도 국내에 데이터이쿠를 설명하는 책이 없다는 점도 있었고, 그 누가 데이터이쿠에 대한 책을 쓰더라도 이 책이 가장 기초적이고 가장 쉬운 책일 것이라는 확신이 들어서다. 무엇보다 데이터이쿠를 통해 많은 기업에서 좋은 성과를 냈으면 하는 바람이 크다. 데이터이쿠를 통해 데이터분석에 머신러닝을 빠르게 접목해서 원하는 결과를 얻을 수 있다고 확신한다.

이 책은 사실 그림책입니다.

그냥 똑같이 따라 하기만 하면 된다. 실습을 하면서 보는 데이터이쿠 화면과 이 책에서 보는 그림은 동일하다. 누구나 쉽게 따라해 볼 수 있도록 최대한 빠뜨리지 않고 수행 과정을 모두 담았다. 따라하기만 하면 저절로 반복학습이 될 수 있도록 구성을 했다. 이 책 한권을 보면 데이터이쿠를 쓸 줄 아는 사람이 될 것이다. 더 필요한 것은 스스로 더해갈 수 있을 것이다.

끝으로 이 책은 데이터이쿠에서 공식적으로 쓴 책이 아니고, 순수하게 유저로써 사용해보고 또 처음 사용하는 많은 분들이 어렵다고 느끼지 않도록 진입장벽을 낮춰 주어보고자 쓴 책이다. 많은 도움이 되었으면 한다. 그리고 이 책으로 인해 데이터이쿠에서 별도로 지원받은 것은 없음을 밝힌다.

2024년 1월

저자 김강희 배상

데이터이쿠, 데이터이쿠 무작정 따라해보기, 김강희, ISBN 979-11-6675-500-2, 9791166755002

08. 거래조건에 관한 정보

거래조건
재화 등의 배송방법에 관한 정보	상품 상세설명페이지 참고
주문 이후 예상되는 배송기간	상품 상세설명페이지 참고
제품하자가 아닌 소비자의 단순변심, 착오구매에 따른 청약철회 시 소비자가 부담하는 반품비용 등에 관한 정보	배송ㆍ교환ㆍ반품 상세설명페이지 참고
제품하자가 아닌 소비자의 단순변심, 착오구매에 따른 청약철회가 불가능한 경우 그 구체적 사유와 근거	배송ㆍ교환ㆍ반품 상세설명페이지 참고
재화등의 교환ㆍ반품ㆍ보증 조건 및 품질보증 기준	소비자분쟁해결기준(공정거래위원회 고시) 및 관계법령에 따릅니다.
재화등의 A/S 관련 전화번호	상품 상세설명페이지 참고
대금을 환불받기 위한 방법과 환불이 지연될 경우 지연에 따른 배상금을 지급받을 수 있다는 사실 및 배상금 지급의 구체적 조건 및 절차	배송ㆍ교환ㆍ반품 상세설명페이지 참고
소비자피해보상의 처리, 재화등에 대한 불만처리 및 소비자와 사업자 사이의 분쟁처리에 관한 사항	소비자분쟁해결기준(공정거래위원회 고시) 및 관계법령에 따릅니다.
거래에 관한 약관의 내용 또는 확인할 수 있는 방법	상품 상세설명페이지 및 페이지 하단의 이용약관 링크를 통해 확인할 수 있습니다.

09. 반품기한

단순 변심인 경우 : 상품 수령 후 7일 이내 신청
상품 불량/오배송인 경우 : 상품 수령 후 3개월 이내, 혹은 그 사실을 알게 된 이후 30일 이내 반품 신청 가능

010. 반품 배송비

반품 배송비
반품사유	반품 배송비 부담자
단순변심	고객 부담 최초 배송비를 포함해 왕복 배송비가 발생합니다. 또, 도서/산간지역이거나 설치 상품을 반품하는 경우에는 배송비가 추가될 수 있습니다.
상품의 불량 또는 오배송	고객부담 아님

011. 배송상태에 따른 환불안내

환불안내
진행 상태	결제완료	상품준비중	배송지시/배송중/배송완료
어떤 상태	주문 내역 확인 전	상품 발송 준비 중	상품이 택배사로 이미 발송 됨
환불	즉시환불	구매취소 의사전달 → 발송중지 → 환불	반품회수 → 반품상품 확인 → 환불

012. 취소방법

결제완료 또는 배송상품은 1:1 문의에 취소신청해 주셔야 합니다.
특정 상품의 경우 취소 수수료가 부과될 수 있습니다.

013. 환불시점

환불시점
결제수단	환불시점	환불방법
신용카드	취소완료 후, 3~5일 내 카드사 승인취소(영업일 기준)	신용카드 승인취소
계좌이체	실시간 계좌이체 또는 무통장입금 취소완료 후, 입력하신 환불계좌로 1~2일 내 환불금액 입금(영업일 기준)	계좌입금
휴대폰 결제	당일 구매내역 취소시 취소 완료 후, 6시간 이내 승인취소 전월 구매내역 취소시 취소 완료 후, 1~2일 내 환불계좌로 입금(영업일 기준)	당일취소 : 휴대폰 결제 승인취소 익월취소 : 계좌입금
포인트	취소 완료 후, 당일 포인트 적립	환불 포인트 적립