000 | 00000cam c2200205 c 4500 | |
001 | 000046138576 | |
005 | 20230110093031 | |
007 | ta | |
008 | 230109s2022 ulka 001c kor | |
020 | ▼a 9791161756516 ▼g 93000 | |
035 | ▼a (KERIS)BIB000016291185 | |
040 | ▼a 011001 ▼c 011001 ▼d 211009 | |
041 | 1 | ▼a kor ▼h eng |
082 | 0 4 | ▼a 006.3/12 ▼a 005.74 ▼2 23 |
085 | ▼a 006.312 ▼2 DDCK | |
090 | ▼a 006.312 ▼b 2022z14 | |
100 | 1 | ▼a Uttamchandani, Sandeep, ▼d 1979- |
245 | 1 0 | ▼a 데이터 민주화와 셀프서비스 데이터 : ▼b 모두가 쉽고 빠르게 데이터 인사이트를 도출하는 지름길 / ▼d 샌딥 우탐찬다니 지음 ; ▼e 이주한 옮김 |
246 | 1 9 | ▼a The self-service data roadmap : ▼b democratize data and reduce time to insight |
246 | 3 9 | ▼a Self-service data roadmap |
260 | ▼a 서울 : ▼b 에이콘, ▼c 2022 | |
300 | ▼a 354 p. : ▼b 삽화 ; ▼c 24 cm | |
490 | 1 0 | ▼a 에이콘 데이터 과학 시리즈 |
500 | ▼a 색인수록 | |
650 | 0 | ▼a Database management ▼x Computer programs |
650 | 0 | ▼a Business intelligence ▼x Data processing |
650 | 0 | ▼a Data mining |
700 | 1 | ▼a 이주한, ▼e 역 |
830 | 0 | ▼a 에이콘 데이터 과학 시리즈 |
900 | 1 0 | ▼a 우탐찬다니, 샌딥, ▼e 저 |
945 | ▼a ITMT |
Holdings Information
No. | Location | Call Number | Accession No. | Availability | Due Date | Make a Reservation | Service |
---|---|---|---|---|---|---|---|
No. 1 | Location Science & Engineering Library/Sci-Info(Stacks1)/ | Call Number 006.312 2022z14 | Accession No. 121261655 | Availability Available | Due Date | Make a Reservation | Service |
Contents information
Book Introduction
데이터 엔지니어, 데이터 과학자, 팀 관리자는 이 실용적인 책을 통해 조직의 모든 사람이 데이터에서 인사이트를 쉽게 추출할 수 있도록 하는 셀프서비스 데이터 플랫폼 구축 방법을 배울 수 있다. 이 책은 데이터 검색, 변환, 처리 및 생산 전반에 걸쳐 인사이트에 도달하기까지 걸리는 시간을 지연시키는 병목 현상을 추적하고 이를 해결하는 방법을 알려준다.
데이터를 기반으로 도출되는 인사이트는 모든 산업에서 경쟁 우위의 열쇠로 여겨진다. 하지만 원천 데이터에서 인사이트를 도출하는 것은 생각만큼 쉽지 않다. 데이터 파이프라인을 아무리 잘 구성해도 인사이트 하나를 도출하는 데에는 며칠에서 몇 주까지 걸리며, 데이터 양은 너무나 방대하고 빠르게 증가해 데이터 사이언스 조직을 아무리 키워도 대응 속도를 따라갈 수 없다. 이때 필요한 것이 바로 셀프서비스 데이터 플랫폼을 구축하는 것이다.
데이터 엔지니어, 데이터 과학자, 팀 관리자는 이 실용적인 책을 통해 조직의 모든 사람이 데이터에서 인사이트를 쉽게 추출할 수 있도록 하는 셀프서비스 데이터 플랫폼 구축 방법을 배울 수 있다. 이 책은 데이터 검색, 변환, 처리 및 생산 전반에 걸쳐 인사이트에 도달하기까지 걸리는 시간을 지연시키는 병목 현상을 추적하고 이를 해결하는 방법을 알려준다. 데이터 엔지니어링의 현실적 어려움으로 병목 현상을 겪고 있는 데이터 과학자들과 셀프서비스 작업 수행 방법을 알고 싶어 하는 데이터 엔지니어들에게 이 책을 추천한다.
◈ 이 책에서 다루는 내용 ◈
◆ 데이터 발견, 품질, 계보, 거버넌스를 지원하는 셀프서비스 포털 구축하기
◆ 오픈소스 기술을 사용해 각 셀프서비스 기능에 가장 적합한 접근 방식 선택하기
◆ 데이터 플랫폼의 사람, 프로세스, 기술 성숙도에 따른 셀프서비스 맞춤화하기
◆ 데이터를 민주화하고 인사이트를 얻는 데 드는 시간을 줄이는 기능 구현하기
◆ 셀프서비스 포털 확장으로 조직 내 많은 사용자 지원하기
◈ 이 책의 대상 독자 ◈
이 책을 통해 엔지니어링의 현실적 어려움으로 병목 현상을 겪고 있는 데이터 과학자들과 셀프서비스 작업을 수행하는 방법을 잘 모르는 데이터 엔지니어들 간의 격차를 해소할 수 있다.
Information Provided By: :

Author Introduction
샌딥 우탐찬다니(지은이)
언래블 데이터 시스템즈(Unravel Data Systems)의 최고 데이터 책임자이자 제품 엔지니어링 부사장이다. 엔터프라이즈 데이터 제품을 구축하고 비즈니스 크리티컬 분석 및 머신러닝애플리케이션을 위한 페타바이트 규모의 데이터 플랫폼을 실행하는 데 20년 가까이 경험을 쌓았다. 가장 최근에는 인튜이트(Intuit)에서 회사의 재무 회계, 급여, 결제 제품에 대한 분석 및 머신러닝을 지원하는 데이터 플랫폼 팀을 운영했다. 오픈소스 제품의 보안 취약성을 관리하기 위해 머신러닝을 사용하는 스타트업의 공동 창립자이자 CEO이기도 했으며, VMware와 IBM에서 15년 이상 엔지니어링 리더십 역할을 수행했다. 40개 이상의 특허를 보유하고 있으며, 주요 기술 콘퍼런스에서 25개 이상의 간행물을 발행하고 다수의 제품 혁신상과 관리 우수상을 수상했다. 또한 데이터 콘퍼런스의 정기 연사이자 대학의 객원 강사이며, 스타트업에 자문을 제공하고 가트너(Gartner)의 SF CDO Executive Summit 및 Usenix Operational ML 콘퍼런스의 공동 의장으로 활동하는 등 여러 콘퍼런스에서 프로그램/운영위원으로 활동했다. 일리노이대학교 어바나-샴페인캠퍼스(University of Illinois at Urbana-Champaign)에서 컴퓨터 공학 박사 및 석사 학위를 받았다.
이주한(옮긴이)
IT 분야에서 20년 가까이 일하면서 플랫폼 사업, 프로젝트 관리, 데이터 분석, 서비스 운영 등 다양한 업무를 담당했다. 현재는 데이터를 기반으로 인사이트를 도출해 플랫폼과 솔루션으로 구현하는 개발 조직에서 프로젝트 관리자로 재직 중이다. 많은 사람이 함께 일하면서 발생하는 다양한 문제를 해결하고 효율적으로 일하는 방법을 찾아내 적용하는 데 관심이 많다.

Table of Contents
1장. 소개 __원시 데이터에서 인사이트로의 여정 지도 ____발견 ____준비 ____구축 ____운영화 __인사이트 시간 스코어카드 정의 __나의 셀프서비스 데이터 로드맵 구축 1부. 셀프서비스 데이터 발견 2장. 메타데이터 카탈로그 서비스 __여정 지도 ____데이터 세트 이해하기 ____데이터 세트 분석하기 ____지식 확장하기 __해석 시간 최소화 ____기술 메타데이터 추출하기 ____운영 메타데이터 추출하기 ____팀 지식 수집하기 __요구 사항 정의 ____기술 메타데이터 추출기 요구 사항 ____운영 메타데이터 요구 사항 ____팀 지식 취합기 요구 사항 __구현 패턴 ____소스 특화 커넥터 패턴 ____계보 상관 패턴 ____팀 지식 패턴 __요약 3장. 검색 서비스 __여정 지도 ____비즈니스 문제의 실행 가능성 확인하기 ____데이터 준비를 위해 연관된 데이터 세트 선택하기 ____프로토타이핑을 위해 현존하는 아티팩트 재사용하기 __탐색 시간 최소화 ____데이터 세트 및 아티팩트 인덱싱 ____결과의 순위 매기기 ____접근 제어하기 __요구 사항 정의 ____인덱서 요구 사항 ____요구 사항 순위 매기기 ____접근 제어 요구 사항 ____비기능 요구 사항 __구현 패턴 ____푸시 풀 인덱서 패턴 ____하이브리드 검색 랭킹 패턴 ____카탈로그 접근 제어 패턴 __요약 4장. 피처 저장소 서비스 __여정 지도 ____사용 가능한 피처 찾기 ____학습 세트 생성 ____온라인 추론을 위한 피처 파이프라인 __피처화 시간 최소화 ____피처 계산 ____피처 제공 __요구 사항 정의 ____피처 연산 ____피처 제공 ____비기능 요구 사항 __구현 패턴 ____하이브리드 피처 연산 패턴 ____피처 레지스트리 패턴 __요약 5장. 데이터 이동 서비스 __여정 지도 ____소스 간 데이터 집계 ____원시 데이터를 전문 쿼리 엔진으로 이동 ____처리된 데이터를 서빙 저장소로 이동 ____소스 전반의 탐색적 분석 __데이터 가용성 확보 시간 최소화 ____데이터 수집 구성 및 변경 관리 ____규정 준수 ____데이터 품질 검증 __요구 사항 정의 ____수집 요구 사항 ____변환 요구 사항 ____규정 준수 요구 사항 ____검증 요구 사항 ____비기능적 요구 사항 __구현 패턴 ____배치 수집 패턴 ____변경 데이터 캡처 수집 패턴 ____이벤트 집계 패턴 __요약 6장. 클릭스트림 추적 서비스 __여정 지도 __클릭 시간 지표 최소화 ____계측 관리 ____이벤트 강화 ____인사이트 쌓기 __요구 사항 정의 ____계측 요구 사항 체크리스트 ____보강 요구 사항 체크리스트 __구현 패턴 ____계측 패턴 ____규칙 기반 보강 패턴 ____소비 패턴 __요약 2부. 셀프서비스 데이터 준비 7장. 데이터 레이크 관리 서비스 __여정 지도 ____원시 수명주기 관리 ____데이터 업데이트 관리 ____배치 및 스트리밍 데이터 흐름 관리 __데이터 레이크 관리 시간 최소화 ____요구 사항 __구현 패턴 ____데이터 수명주기 기본 패턴 ____트랜잭션 패턴 ____고급 데이터 관리 패턴 __요약 8장. 데이터 랭글링 서비스 __여정 지도 __랭글링 시간 최소화 ____요구 사항 정의 ____데이터 큐레이팅 ____운영 모니터링 __요구 사항 정의 __구현 패턴 ____탐색적 데이터 분석 패턴 ____분석 변환 패턴 __요약 9장. 데이터 권한 거버넌스 서비스 __여정 지도 ____데이터 권한 요청 실행 ____데이터 세트 발견 ____모델 재학습 __규정 준수 시간 최소화 ____고객 데이터 수명주기 추적 ____고객 데이터 권한 요청 실행 ____데이터 액세스 제한 __요구 사항 정의 ____현재 고충 설문지 ____상호 운용성 체크리스트 ____기능 요구 사항 ____비기능 요구 사항 __구현 패턴 ____민감한 데이터 발견 및 분류 패턴 ____데이터 레이크 삭제 패턴 ____유스 케이스 기반 액세스 제어 __요약 3부. 셀프서비스 구축 10장. 데이터 가상화 서비스 __여정 지도 ____데이터 소스 탐색 ____처리 클러스터 선택 __쿼리 시간 최소화 ____실행 환경 선택 ____다중언어 쿼리 공식화 ____사일로 간 데이터 결합 __요구 사항 정의 ____현재 문제점 분석 ____운영 요구 사항 ____기능 요구 사항 ____비기능 요구 사항 __구현 패턴 ____자동 쿼리 라우팅 패턴 ____통합 쿼리 패턴 ____연합 쿼리 패턴 __요약 11장. 데이터 변환 서비스 __여정 지도 ____프로덕션 대시보드 및 ML 파이프라인 ____데이터 기반 스토리텔링 __변환 시간 최소화 ____변환 구현 ____변환 실행 ____변환 작업 __요구 사항 정의 ____현재 상태 설문지 ____기능 요구 사항 ____비기능 요구 사항 __구현 패턴 ____구현 패턴 ____실행 패턴 __요약 12장. 모델 학습 서비스 __여정 지도 ____모델 프로토타이핑 ____지속적 학습 ____모델 디버깅 __학습 시간 최소화 ____학습 오케스트레이션 ____튜닝 ____지속적 학습 __요구 사항 정의 ____학습 오케스트레이션 ____튜닝 ____지속적 학습 ____비기능 요구 사항 __구현 패턴 ____분산 학습 오케스트레이터 패턴 ____자동 튜닝 패턴 ____데이터 인식 지속적 학습 __요약 13장. 지속적 통합 서비스 __여정 지도 ____ML 파이프라인에서의 공동 작업 ____ETL 변경 사항 통합 ____스키마 변경 검증 __통합 시간 최소화 ____실험 추적 ____재현 가능한 배포 ____테스트 검증 __요구 사항 정의 ____실험 추적 모듈 ____파이프라인 패키징 모듈 ____자동화 모듈 테스트 __구현 패턴 ____프로그래밍 가능한 추적 패턴 ____재현 가능한 프로젝트 패턴 __요약 14장. A/B 테스트 서비스 __여정 지도 __A/B 테스트 시간 최소화 ____실험 설계 ____대규모 실행 ____실험 최적화 __구현 패턴 ____실험 명세 패턴 ____지표 정의 패턴 ____자동화된 실험 최적화 __요약 4부. 셀프서비스 운영화 15장. 쿼리 최적화 서비스 __여정 지도 ____클러스터 막힘 방지 ____런타임 쿼리 문제 해결 ____애플리케이션 속도 향상 __최적화 시간 최소화 ____통계 집계 ____통계 분석 ____작업 최적화 __요구 사항 정의 ____현재 고충 설문지 ____상호 운용 요구 사항 ____기능 요구 사항 ____비기능적 요구 사항 __구현 패턴 ____회피 패턴 ____운영 인사이트 패턴 ____자동화된 튜닝 패턴 __요약 16장. 파이프라인 오케스트레이션 서비스 __여정 지도 ____탐색 파이프라인 호출 ____SLA 기반 파이프라인 실행 __오케스트레이션 시간 최소화 ____작업 종속성 정의 ____분산 실행 ____프로덕션 모니터링 __요구 사항 정의 ____현재 불만 사항 설문지 ____운영 요구 사항 ____기능 요구 사항 ____비기능 요구 사항 __구현 패턴 ____종속성 저작 패턴 ____오케스트레이션 관측 가능성 패턴 ____분산 실행 패턴 __요약 17장. 모델 배포 서비스 __여정 지도 ____프로덕션에서 모델 배포 ____모델 유지 관리 및 업그레이드 __배포 시간 최소화 ____배포 오케스트레이션 ____성능 확장 ____드리프트 모니터링 __요구 사항 정의 ____오케스트레이션 ____모델 확장 및 성능 ____드리프트 검증 ____비기능 요구 사항 __구현 패턴 ____범용 배포 패턴 ____자동 확장 배포 패턴 ____모델 드리프트 추적 패턴 __요약 18장. 품질 관측 가능성 서비스 __여정 지도 ____일일 데이터 품질 모니터링 보고서 ____품질 문제 디버깅 ____저품질 데이터 레코드 처리 __인사이트 품질 시간 최소화 ____데이터의 정확성 확인 ____품질 이상 탐지 ____데이터 품질 문제 방지 __요구 사항 정의 ____데이터 품질 문제 감지 및 처리 ____기능 요구 사항 ____비기능 요구 사항 __구현 패턴 ____정확도 모델 패턴 ____프로파일링 기반 이상 탐지 패턴 ____방지 패턴 __요약 19장. 비용 관리 서비스 __여정 지도 ____비용 사용량 모니터링 ____지속적인 비용 최적화 __비용 최적화 시간 최소화 ____비용 관측 가능성 ____수요 공급 매칭 ____지속적 비용 최적화 __요구 사항 정의 ____애로 사항 설문지 ____기능 요구 사항 ____비기능 요구 사항 __구현 패턴 ____지속적 비용 모니터링 패턴 ____자동 확장 패턴 ____비용 어드바이저 패턴 __요약