OmOmega

omBot | Phân loại tin giả | VT Hùng, TK Nghĩa

Dữ liệu cho bài toán phân loại tin giả v1.0

STT	Chủ đề	Loại	Số lượng tin tức	Số lượng câu
1	Chính trị	Tin thật	517	17.788
2	Chính trị	Tin giả	506	29.988
3	Y tế	Tin thật	579	27.300
4	Y tế	Tin giả	504	22.264
Tổng			2.106	97.340

Dữ liệu training (trích 80% từ tập dữ liệu)

STT	Chủ đề	Loại	Số lượng tin tức	Số lượng câu
1	Chính trị	Tin thật	419	14.992
2	Chính trị	Tin giả	396	25.581
3	Y tế	Tin thật	473	24.086
4	Y tế	Tin giả	397	17.712
Tổng			1.685	82.371

Dữ liệu training (trích 20% còn lại từ tập dữ liệu)

STT	Chủ đề	Loại	Số lượng tin tức	Số lượng câu
1	Chính trị	Tin thật	99	2.796
2	Chính trị	Tin giả	110	4.407
3	Y tế	Tin thật	105	3.214
4	Y tế	Tin giả	107	4.552
Tổng			421	14.969

Cấu trúc dữ liệu:
* Dữ liệu là tập các bài báo với hai chủ đề chính là Chính trị và Y tế.

* Thuộc tính của mỗi bài báo:
    + loai: chủ đề của tin tức (chinh_tri: Chính Trị, y_te: Y tế) | text
    + nguon: nguồn, trang chia sẻ tin tức | text
    + link: đường dẫn truy cập của tin tức | text
    + tg_dang_tin: thời gian đăng tin tức | date
    + tieu_de: tiêu đề của tin tức | text
    + noi_dung: Nội dụng của tin tức | text
    + nhan: Nhãn phân loại tin tức  (0: tin thật, 1: tin giả) | integer

Dữ liệu:
* CSV
    + corpus_full_news.csv:
        * Chứa 3.634 bài báo thu thập ở các nguồn tin
        * Sử dụng để làm tập corpus

    + ct_news.csv:
        * Chứa 1.023 bài báo thuộc chủ đề chính trị đã được lọc từ 3.634 bài báo
        * Tin thật: 517 bài báo
        * Tin giả: 506 bài báo

    + ct_news.csv:
        * Chứa 1.083 bài báo thuộc chủ đề chính trị đã được lọc từ 3634 bài báo
        * Tin thật: 579 bài báo
        * Tin giả: 504 bài báo

* JSON
    Tổ chức dữ liệu phân loại dưới dạng file json. Mỗi file là một bài báo.
    ____ chi_tri
        ____ real: 517 files
        ____ fake: 506 files
    ____ y_te
        ____ real: 579 files
        ____ fake: 504 files

Trang chủ

omDoc

omBot

omChat

omMap

omTask

Online

Số phiên truy cập

Điều khoản

Liên hệ

omBot | Phân loại tin giả | VT Hùng, TK Nghĩa

Dữ liệu cho bài toán phân loại tin giả v1.0

Dữ liệu training (trích 80% từ tập dữ liệu)

Dữ liệu training (trích 20% còn lại từ tập dữ liệu)

Trang chủ

omDoc

omBot

omChat

omMap

omTask

Online

Số phiên truy cập

Điều khoản

Liên hệ

Tải ứng dụng OmOmega

Quét mã QR để tải ứng dụng (sử dụng camera của điện thoại)

Quét mã QR hoặc truy cập App Store

Quét mã QR hoặc truy cập Google Play

omBot | Phân loại tin giả | VT Hùng, TK Nghĩa

Dữ liệu cho bài toán phân loại tin giả v1.0

Dữ liệu training (trích 80% từ tập dữ liệu)

Dữ liệu training (trích 20% còn lại từ tập dữ liệu)