TensorFlow

Hadoop , 하둡 이 뭐냐고요? ? (클러스터)

LEEHANDS 2022. 4. 20. 16:12
반응형

빅데이터의 저장과 분석을 위한 분산컴퓨팅 솔루션

대용량 데이터를 분산 처리 할 수 있는 자바 기반의 오픈 소스 프레임 워크

 

빅데이터?

  1.  한대의 컴퓨터로는 저 장하거나 연산하기 어려운 규모의 거대 데이터
  2.  일반적으로  TB 또는 PB
  3.  관계형 모델에 적합하지 않다.
  4. 비정형 데이터
  5. 크기가 크고 빠르게 증가하는 데이터 파일
  6. 사용자, 어플레케이션, 시스템, 센서 등에서 파생된 데이터 

분산 ( 클러스터 )

여러대의 컴퓨터로 나눠서 일을 처리한다

 

하둡의 역사

DBMS 의 한계

웹 크롤러 색인처리 과정에서 생성되는 매우 큰 파일 처리 한계

 

하둡

텍스트 검색 라이브러리로 폭넓게 사용되고 있는 아파치 루신의 창시자인 더그 커팅에 의해 시작

크롤러와 검색 엔진 시스템 성능 향상

※ 크롤러 는 로봇이 웹에 있는 웹페이지를 방문해서 모든 내용을 읽어옴

 

라즈베리파이 등을 이용해 클러스터 해서 처리하는데 과연 나도 그렇게 쓸일이 있을까?

그럴일을 만들고 싶다.

반응형