작업이 완료된 후 작업을 정리합니다. 예를 들어 작업이 완료된 후 임시 출력 디렉토리를 제거합니다. 작업 정리는 작업이 끝날 때 별도의 작업에 의해 수행됩니다. 정리 작업이 완료되면 작업이 SUCCED/FAILED/KILLED로 선언됩니다. mapper.py 살펴보고 스크립트 맨 위에 #!/usr/bin/python을 포함시키도록 하겠습니다. #! shebang이라고하며 앞에 파이썬을 입력하지 않고 스크립트를 독립 실행 형처럼 실행할 수 있습니다. 때로는 Hadoop이 실행 및 실행 에 까다로워질 수 있기 때문에 스크립트가 실행되도록 하기 위해 스크립트를 포함시켰습니다. 하두프 파이프는 MapReduce 응용 프로그램(JNI가 아닌 ™ 기반)을 구현하는 SWIG 호환 C++ API입니다. 메모리 내 맵 출력을 디스크에 병합하여 줄이기 시작하면 유출할 세그먼트가 있고 적어도 mapreduce.task.io.sort.factor 세그먼트가 디스크에 이미 있기 때문에 중간 병합이 필요한 경우 메모리 내 맵 출력이 중간 의 일부가 됩니다.

병합. 맵 및 축소 노드 의 수를 정의할 수도 있습니다. 기본적으로 해시 함수를 기반으로 하는 tuples를 분할하고 전송하는 Partitioner 함수를 설정할 수 있습니다. 즉, 특정 키 값 쌍 집합이 특정 축소 작업으로 전송되도록 옵션을 설정할 수 있습니다. 예를 들어 키 값이 기록된 연도로 구성된 경우 특정 연도의 모든 키가 동일한 축소 작업으로 전송되도록 매개 변수를 설정할 수 있습니다. Hadoop 프레임워크는 단일 마스터와 많은 슬레이브로 구성됩니다. 각 마스터에는 JobTracker가 있으며 각 슬레이브에는 작업 추적기가 있습니다. 마스터는 프로그램과 데이터를 슬레이브에 배포합니다.

이름에서 알 수 있듯이 작업 추적기는 작업 추적기로 지시된 작업을 추적하고 정보를 JobTracker에 전달합니다. JobTracker는 모든 상태 보고서를 모니터링하고 실패한 작업이 있는 경우 다시 시작합니다. Hadoop 용어에서 주 파일 sample.txt는 입력 파일이라고 하며 4개의 하위 파일을 입력 분할이라고 합니다. 따라서 Hadoop에서 입력 파일의 매퍼 수는 이 입력 파일의 입력 분할 수와 같습니다. 위의 경우 입력 파일 sample.txt에는 4개의 입력 분할이 있으므로 4개의 매퍼가 실행되어 처리됩니다. 이러한 매퍼를 처리하는 책임은 작업 추적기입니다. 일부 텍스트가 포함된 단어 파일이 있다고 가정합니다. 이 파일을 sample.txt로 지정해 보겠습니다. 우리는 거대한 파일을 처리하기 위해 Hadoop을 사용하지만 여기에 쉽게 설명을 위해, 우리는 예를 들어 텍스트 파일을 복용하고 있습니다. 따라서이 sample.txt 파일에 텍스트로 줄이 거의 없다고 가정해 보겠습니다.