hadoop 커뮤니티 초기부터 가입해서 관심있게 지켜보고 있었습니다.

hadoop 커뮤니티를 이끌고 있는 한재선 박사님께서 이번에Hadoop Tutorial Workshop 을 준비해 주셨습니다.

사실 기본이 좀 부족하다는 생각을 많이 하고 있고, 또 실제 적용사례도 궁금해서 냉큼 세미나를 신청했습니다.

hadoop은 몇가지 특징이 있는데...

1. 다수의 일반 PC로 가상화된 대형 스토리지(HDFS)를 구성한다.
2. 1에 보관된 거대한 데이터셋을 병렬처리 할 수 있는 map&reeduce 방식의 JAVA 프레임웍을 제공한다
3. 1을 운영하는데 있어서 Fault tolerance 모델을 제공하여 서비스 유지보수를 용이하게 한다.
4. 오픈소스 이다.

아...한마디로 오픈소스의 힘!!! ^.^

여러가지 활용방법이 있겠지만(포탈에서는 검색서비스에도 이용한다고 합니다) 지난 webscon에서

들었던 집단지성 프로그래밍에서도 활용 될 수 있습니다(대용량 웹 로그 분석)

사실 웹서버를 수십대 두고, 하루에도 엄청난 웹 로그를 만들어내는 사이트에서

그 로그를 자유자재로 분석한다는 것은 생각처럼 쉬운 일은 아닙니다.

좀 더 마케팅적인....고차원 적인 분석을 위해서는 해당 로그를 따로 DB화 하는 것을 생각할 수 있겠지만

메일메일 분석해야 하는 상황에서 대용량 로그성 flat file을 파싱해서 db에 넣는것은 메인서비스를

위한 DB가 따로 있다고 하더라도 거의 불가능에 가까운 일이 됩니다(특히 통계기반의 MSSQL과 같은 DBMS는 더욱 더....)

그렇다고 따로 이런 경우에 맞는 DBMS를 구매하기도 쉽지 않은 일 이고....

hadoop이 이럴경우에 최적의 시스템이 아닐까 생각됩니다.

다수의 일반PC에 넉넉한 하드를 물려서 해당 웹로그를 바로 HDFS의 가상 스토리지에

저장하는 상황을 만든다면, 마치 DBMS를 이용하듯 편하게 데이터셋을 컨트롤 할 수 있다고 생각합니다.

엄두가 나지 않을정도의 로그가 생성되고 실시간(또는 실시간에 가까운)에 로그를 분석하여

의미있는 자료로 사용자나 관리자에게 제공된다면...~~?

그런 서비스가 운영 서비스에는 전혀~~~ 지장을 주지 않는다면???

이런 시스템이 오픈소스와 저렴한 PC로 비용까지 저렴하다면???

생각만 해도 괜찮지 않나요???

ㅋㅋㅋ

세미나 잘 댕겨오겠습니다.







2008.11.18 18:10:02 (*.32.43.14)
2319

드디어 벼르고 별렀던 Hadoop Tutorial Workshop을 개최합니다.

시간: 11월 28일 (금) 오후 14시 ~ 18시
장소: 서울치대(대학로) 본관 121호 & 교육동 407호 (주차권미제공)
http://dentistry.snu.ac.kr/aboutus/campusguide/campusmap.aspx
인원: 100명 (선착순)
참가비: 무료
주최: 한국 Hadoop Community, NexR, 서울대 BiKE Lab
%% 커뮤니티 성비의 균형을 위해 여성참가자에 한해서 선착순과 상관없이 무조건 참석가능합니다. ^^ %%
워크샵 프로그램은 아래와 같습니다.
본관 121호 (90 - 100석), 교육동 407호 (35 -40석)

HadoopTutorialWorkshopProgram.jpg

Track 1 은 Hadoop 설치 및 운영과 기본적인 사용법 등의 내용을 다루며
Track 2 는 Hadoop MapReduce 프로그래밍에 대한 기본과 고급 내용을 다룹니다.
장소가 떨어져 있기 때문에 휴식시간을 이용하여 이동하셔야 합니다.

Track1, Track2 모두 기본적으로 아래 Yahoo Hadoop Tutorial을 기본 자료로 활용할 계획입니다.
http://public.yahoo.com/gogate/hadoop-tutorial/start-tutorial.html
(1,2,3,4,5,7 정도 커버할 예정)

Track2의 경우 Lab을 할 계획이므로 노트북 지참하시면 직접 프로그래밍을 해 보실 수 있습니다.
Track2의 자세한 내용은 다음과 같습니다.

MapReduce Basic

  MapReduce concept
  Hadoop MapReduce Cluster
  Lab: Program simple MapReduce job
    Apache log analyzer
  Lab: Run Job on test cluster
Advanced MapReduce
  Detailed Hadoop MapReduce data flow
  Lab: Program InputFormat, OutputFormat
  PageInputFormat, DBInputFormat, PageObject
  Partitioner
  Combiner
  Debugging MapReduce
  Reporter
  Distributed Cache

참가를 신청하시는 분은 회원가입 후 이글에 댓글을 남겨 주시기 바랍니다. (선착순)
댓글 남겨 주실 때 "1. 한재선, 트랙1" 과 같이 순번과 실명, 희망트랙을 남겨 주시기 바랍니다.

앞에서 말씀드린 것처럼 Yahoo Hadoop Tutorial 내용을 기반으로 할 것이므로
미리 한번 확인하시어 내용과 수준을 점검해 보시고 참석여부를 결정해 주시기 바랍니다.

그리고 불참시 반드시 하루 전에 댓글로 불참의사를 밝혀서 다른 분들께 피해가
가지 않도록 협조 부탁드립니다.
크리에이티브 커먼즈 라이센스
Creative Commons License
2008/11/27 22:55 2008/11/27 22:55

댓글을 달아 주세요

  1. 비밀방문자 2008/11/29 10:19  댓글주소  수정/삭제  댓글쓰기

    관리자만 볼 수 있는 댓글입니다.

    • minthe 2008/11/29 18:24  댓글주소  수정/삭제

      아~ 이런~~ ^^ 첫 세미나를 서울대에서 하셔서 혼동되었습니다. 정정 하겠습니다.