Dữ liệu cho bài toán phân loại tin giả v1.0
STT |
Chủ đề |
Loại |
Số lượng tin tức |
Số lượng câu |
1 |
Chính trị |
Tin thật |
517 |
17.788 |
2 |
Chính trị |
Tin giả |
506 |
29.988 |
3 |
Y tế |
Tin thật |
579 |
27.300 |
4 |
Y tế |
Tin giả |
504 |
22.264 |
Tổng |
|
|
2.106 |
97.340 |
Dữ liệu training (trích 80% từ tập dữ liệu)
STT |
Chủ đề |
Loại |
Số lượng tin tức |
Số lượng câu |
1 |
Chính trị |
Tin thật |
419 |
14.992 |
2 |
Chính trị |
Tin giả |
396 |
25.581 |
3 |
Y tế |
Tin thật |
473 |
24.086 |
4 |
Y tế |
Tin giả |
397 |
17.712 |
Tổng |
|
|
1.685 |
82.371 |
Dữ liệu training (trích 20% còn lại từ tập dữ liệu)
STT |
Chủ đề |
Loại |
Số lượng tin tức |
Số lượng câu |
1 |
Chính trị |
Tin thật |
99 |
2.796 |
2 |
Chính trị |
Tin giả |
110 |
4.407 |
3 |
Y tế |
Tin thật |
105 |
3.214 |
4 |
Y tế |
Tin giả |
107 |
4.552 |
Tổng |
|
|
421 |
14.969 |
Cấu trúc dữ liệu:
* Dữ liệu là tập các bài báo với hai chủ đề chính là Chính trị và Y tế.
* Thuộc tính của mỗi bài báo:
+ loai: chủ đề của tin tức (chinh_tri: Chính Trị, y_te: Y tế) | text
+ nguon: nguồn, trang chia sẻ tin tức | text
+ link: đường dẫn truy cập của tin tức | text
+ tg_dang_tin: thời gian đăng tin tức | date
+ tieu_de: tiêu đề của tin tức | text
+ noi_dung: Nội dụng của tin tức | text
+ nhan: Nhãn phân loại tin tức (0: tin thật, 1: tin giả) | integer
Dữ liệu:
* CSV
+ corpus_full_news.csv:
* Chứa 3.634 bài báo thu thập ở các nguồn tin
* Sử dụng để làm tập corpus
+ ct_news.csv:
* Chứa 1.023 bài báo thuộc chủ đề chính trị đã được lọc từ 3.634 bài báo
* Tin thật: 517 bài báo
* Tin giả: 506 bài báo
+ ct_news.csv:
* Chứa 1.083 bài báo thuộc chủ đề chính trị đã được lọc từ 3634 bài báo
* Tin thật: 579 bài báo
* Tin giả: 504 bài báo
* JSON
Tổ chức dữ liệu phân loại dưới dạng file json. Mỗi file là một bài báo.
____ chi_tri
____ real: 517 files
____ fake: 506 files
____ y_te
____ real: 579 files
____ fake: 504 files