Big Data vẫn đổi mới một trong những phần cầm mạnh mẽ với là gia sản lớn lớn của mỗi chủ thể, và Hadoop là công nghệ chủ chốt đến vấn đề lưu trữ cùng truy cập dữ liệu lớn.

Bạn đang xem: Hdfs là gì

Hadoop là gì?

Hadoop là 1 trong Apache framework mã mối cung cấp msinh hoạt chất nhận được cải cách và phát triển những vận dụng phân tán (distributed processing) nhằm tàng trữ cùng quản lý những tập dữ liệu béo. Hadoop hiện thực quy mô MapReduce, mô hình nhưng vận dụng sẽ được phân tách nhỏ ra thành những phân đoạn khác biệt được chạy tuy nhiên song bên trên những node không giống nhau. Hadoop được viết bởi Java mặc dù vẫn cung ứng C++, Pyeo hẹp, Perl bằng nguyên tắc streaming.

Hadoop giải quyết và xử lý vụ việc gì?

Xử lý cùng thao tác cân nặng tài liệu khổng lồ tính bởi Petabyte.Xử lý trong môi trường phân tán, dữ liệu tàng trữ sinh hoạt phần lớn cứng khác nhau, đề xuất giải pháp xử lý đồng bộCác lỗi xuất hiện thêm thường xuyên.Băng thông thân các Hartware vật lý đựng tài liệu phân tán gồm số lượng giới hạn.

Kiến trúc Hadoop là gì?

Một nhiều Hadoop nhỏ bao gồm một master node cùng nhiều worker/slave node. Toàn cỗ nhiều chứa 2 lớp, một lớp MapReduce Layer với lớp tê là HDFS Layer. Mỗi lớp bao gồm những yếu tắc tương quan riêng biệt. Master node bao gồm JobTracker, TaskTracker, NameNode, với DataNode. Slave/worker node tất cả DataNode, với TaskTracker. Cũng hoàn toàn có thể slave/worker node chỉ với tài liệu hoặc node để tính tân oán.


*
*
*

Hadoop framework bao gồm 4 module:

1.Hadoop Distributed File System (HDFS)

Đây là hệ thống file phân tán hỗ trợ truy cập thông lượng cao đến ứng dụng khai quật tài liệu. Hadoop Distributed File System (HDFS) là hệ thống tập tin ảo. Khi bọn họ di chuyển 1 tập tin lên trên HDFS, nó auto tạo thành nhiều mhình ảnh nhỏ tuổi. Các đoạn bé dại của tập tin sẽ tiến hành nhân rộng lớn với tàng trữ bên trên nhiều máy chủ không giống để tăng mức độ Chịu lỗi và tính chuẩn bị sẵn sàng cao.

HDFS áp dụng bản vẽ xây dựng master/slave, trong số ấy master bao gồm một NameNode nhằm thống trị hệ thống file metadata với một xuất xắc những slave sầu DataNodes để lưu trữ tài liệu thực trên.

Một tập tin với format HDFS được tạo thành nhiều khối và những khối hận này được tàng trữ vào một tập những DataNodes. NameNode tư tưởng ánh xạ trường đoản cú những kân hận mang lại những DataNode. Các DataNode quản lý các tác vụ hiểu cùng ghi tài liệu lên hệ thống file. Chúng cũng quản lý Việc tạo thành, huỷ, và nhân rộng những khối hận trải qua những chỉ thị trường đoản cú NameNode.


2. Hadoop MapReduce

Đây là hệ thống dựa trên YARN dùng để làm xử lý tuy nhiên tuy vậy các tập dữ liệu phệ. Là biện pháp chia một vụ việc dữ liệu to hơn thành các đoạn nhỏ tuổi hơn cùng phân tán nó trên nhiều máy chủ. Mỗi sever có 1 tập tài ngulặng riêng với máy chủ giải pháp xử lý tài liệu bên trên cục bộ. lúc máy chủ giải pháp xử lý ngừng dữ liệu, bọn chúng sẽ gởi trở về sever bao gồm.

MapReduce tất cả một single master (đồ vật chủ) JobTracker cùng những slave sầu (vật dụng trạm) TaskTracker bên trên mỗi cluster-node. Master gồm trọng trách thống trị tài ngulặng, theo dõi quá trình tiêu thú tài nguyên với lập lịch thống trị những tác vụ bên trên những trang bị trạm, quan sát và theo dõi chúng với triển khai lại những tác vụ bị lỗi. Những thiết bị slave TaskTracker xúc tiến những tác vụ được master chỉ định và hướng dẫn và đưa thông tin trạng thái tác vụ (task-status) để master theo dõi.

Xem thêm: Download Autocad 2012 64 Bit Full Crack Sinhvienit Net, Download Tải Phần Mềm Autocad 2012 Full Crack

JobTracker là 1 trong nhược điểm của Hadoop Mapreduce. Nếu JobTracker bị lỗi thì hầu như các bước liên quan sẽ bị cách trở.

3. Hadoop Common

Đây là những thỏng viện với tiện ích cần thiết của Java để các module khác thực hiện. Những thư viện này cung cấp khối hệ thống file và lớp OS trừu tượng, đồng thời cất những mã lệnh Java nhằm khởi cồn Hadoop.

4. Hadoop YARN

Quản lý tài nguim của các khối hệ thống tàng trữ dữ liệu với chạy đối chiếu.

Hadoop chuyển động như thế nào?

Giai đoạn 1

Một user hay là một vận dụng rất có thể submit một job lên Hadoop (hadoop job client) cùng với yêu cầu cách xử trí thuộc các báo cáo cơ bản:

Nơi giữ (location) dữ liệu input đầu vào, output trên hệ thống dữ liệu phân tán.Các java class sinh sống định hình jar chứa những chiếc lệnh thực hiện các hàm maps và reduce.Các thiết lập ví dụ liên quan mang đến job thông qua những thông số truyền vào.

Giai đoạn 2

Hadoop job client submit job (tệp tin jar, tệp tin thực thi) với những thiết lập cấu hình đến JobTracker. Sau kia, master sẽ phân pân hận tác vụ cho những vật dụng slave nhằm theo dõi với cai quản các bước các máy này, mặt khác đưa tin về tình trạng và chẩn đân oán liên quan mang đến job-client.

Giai đoạn 3

TaskTrackers trên những node khác nhau xúc tiến tác vụ MapReduce và trả về tác dụng output được lưu vào hệ thống file.

Khi “chạy Hadoop” tức là chạy một tập các trình nền – daemon, hoặc những công tác hay trú, bên trên các máy chủ không giống nhau bên trên mạng của chúng ta. Những trình nền gồm mục đích rõ ràng, một số chỉ mãi mãi bên trên một sever, một số trong những hoàn toàn có thể mãi sau trên các máy chủ.

Các daemon bao gồm:

NameNodeDataNodeSecondaryNameNodeJobTrackerTaskTracker

Tại sao sử dụng Hadoop?

Các điểm dễ dãi khi dùng Hadoop:

Robus & Scalable – cũng có thể thêm node bắt đầu với đổi khác chúng Lúc nên.Affordable and Cost Effective sầu – Không nên Hartware đặc biệt quan trọng nhằm chạy Hadoop.Adaptive sầu & Flexible – Hadoop được sản xuất với tiêu chí xử trí tài liệu có kết cấu và không cấu trúc.Highly Available và Fault Tolerant – khi 1 node lỗi, căn cơ Hadoop auto gửi sang node khác.

Nguồn tmê say khảo:

Bài viết liên quan

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *