omBot | Phân loại tin giả | VT Hùng, TK Nghĩa

Dữ liệu cho bài toán phân loại tin giả v1.0
STT Chủ đề Loại Số lượng tin tức Số lượng câu
1 Chính trị Tin thật 517 17.788
2 Chính trị Tin giả 506 29.988
3 Y tế Tin thật 579 27.300
4 Y tế Tin giả 504 22.264
Tổng 2.106 97.340
Dữ liệu training (trích 80% từ tập dữ liệu)
STT Chủ đề Loại Số lượng tin tức Số lượng câu
1 Chính trị Tin thật 419 14.992
2 Chính trị Tin giả 396 25.581
3 Y tế Tin thật 473 24.086
4 Y tế Tin giả 397 17.712
Tổng 1.685 82.371
Dữ liệu training (trích 20% còn lại từ tập dữ liệu)
STT Chủ đề Loại Số lượng tin tức Số lượng câu
1 Chính trị Tin thật 99 2.796
2 Chính trị Tin giả 110 4.407
3 Y tế Tin thật 105 3.214
4 Y tế Tin giả 107 4.552
Tổng 421 14.969
Cấu trúc dữ liệu:
* Dữ liệu là tập các bài báo với hai chủ đề chính là Chính trị và Y tế.

* Thuộc tính của mỗi bài báo:
    + loai: chủ đề của tin tức (chinh_tri: Chính Trị, y_te: Y tế) | text
    + nguon: nguồn, trang chia sẻ tin tức | text
    + link: đường dẫn truy cập của tin tức | text
    + tg_dang_tin: thời gian đăng tin tức | date
    + tieu_de: tiêu đề của tin tức | text
    + noi_dung: Nội dụng của tin tức | text
    + nhan: Nhãn phân loại tin tức  (0: tin thật, 1: tin giả) | integer

Dữ liệu:
* CSV
    + corpus_full_news.csv:
        * Chứa 3.634 bài báo thu thập ở các nguồn tin
        * Sử dụng để làm tập corpus

    + ct_news.csv:
        * Chứa 1.023 bài báo thuộc chủ đề chính trị đã được lọc từ 3.634 bài báo
        * Tin thật: 517 bài báo
        * Tin giả: 506 bài báo

    + ct_news.csv:
        * Chứa 1.083 bài báo thuộc chủ đề chính trị đã được lọc từ 3634 bài báo
        * Tin thật: 579 bài báo
        * Tin giả: 504 bài báo

* JSON
    Tổ chức dữ liệu phân loại dưới dạng file json. Mỗi file là một bài báo.
    ____ chi_tri
        ____ real: 517 files
        ____ fake: 506 files
    ____ y_te
        ____ real: 579 files
        ____ fake: 504 files