Tóm tắt: Phân tích dữ liệu lớn ngày càng được ứng dụng trong nhiều ngành nghề do khả năng biến lượng dữ liệu khổng lồ thành thông tin chi tiết cho các quyết định kinh doanh và sản xuất. Các kỹ thuật khai thác dữ liệu tiên tiến đã được áp dụng trong nhiều lĩnh vực nói chung và ẩm thực nói riêng. Tuy nhiên, các công trình trước đây chủ yếu tập trung vào việc phân tích dữ liệu do thiết bị tạo ra như dữ liệu từ hình ảnh siêu phổ, quang phổ và sinh trắc học. Tầm quan trọng của dữ liệu văn bản kỹ thuật số trong thực phẩm và dinh dưỡng chỉ mới được chú ý gần đây do những tiến bộ trong phân tích dữ liệu lớn. Mục đích của nghiên cứu này là cung cấp phương pháp thu thập dữ liệu trên các phương tiện chính thống, mạng xã hội về ẩm thực Cà Mau, sau đó áp dụng kỹ thuật tóm tắt văn bản bằng mô hình phân cụm. Mục tiêu là cung cấp những thông tin cơ bản, cô đọng về ẩm thực Cà Mau, hỗ trợ khách du lịch, các nhà hàng, quán ăn cải thiện chất lượng, chú trọng an toàn vệ sinh thực phẩm và chế độ dinh dưỡng.
I. Giới thiệu
Theo ngữ nghĩa Hán-Việt, “Ẩm” là “Uống”; “Thực” là “Ăn” nên nói chung “Ẩm thực” là “Cách ăn uống” của con người. Ngoài ra, ẩm thực là một thành phần thiết yếu của cuộc sống, là văn hóa của chúng ta (Abbar, Mejova, & Weber, 2015). Internet là kho dữ liệu khổng lồ về ẩm thực (Marvin, Janssen, Bouzembrak, Hendriksen, & Staats, 2017). Vì ẩm thực là một trong những chủ đề phổ biến nhất trong cuộc sống của chúng ta, nên lượng thông tin liên quan đến ẩm thực vô cùng lớn được tạo ra trên toàn cầu hàng ngày. Sự phát triển vượt bậc của công nghệ đã tạo ra một lượng dữ liệu kỹ thuật số ngày càng tăng liên quan đến sản xuất. chế biến và tiêu thụ thực phẩm. Các nền tảng kỹ thuật số như: các kênh truyền thống, mạng xã hội liên tục cung cấp những thông tin mới để mọi người chia sẻ thói quen ẩm thực của họ với những người khác. Ngày nay, không có gì lạ khi thấy mọi người trong nhà hàng, quán ăn chụp ảnh những món ăn hấp dẫn, nhận xét và lập tức gửi chúng lên mạng xã hội để chia sẻ với những người khác (Masson, Bubendorff, & Fraïssé, 2018). Sự bùng nổ của mạng xã hội đã thay thế cách con người giao tiếp với nhau. Các nền tảng này đã và đang không ngừng tạo ra dữ liệu văn bản thể hiện hành vi, tình cảm và xu hướng của con người về sức khỏe và ẩm thực (Ghosh & Guha, 2013). Do đó, ngày càng có nhiều nghiên cứu về phương tiện truyền thông xã hội tập trung vào việc xác định các đặc điểm ngôn ngữ về ẩm thực. Các nhà khoa học đang sử dụng thông tin văn bản để phát hiện các kiểu ăn uống, phản ứng có hại, nhận thức, sở thích và thảo luận về các loại thực phẩm của người tiêu dùng.
Với sự gia tăng nhanh chóng của văn bản kỹ thuật số, việc xử lý thủ công, đặc biệt là đối với các ứng dụng quan trọng về thời gian, không còn khả thi nữa. Các kỹ thuật phân tích văn bản, được gọi là khai thác văn bản đã xuất hiện, cho phép máy tính chuyển đổi lượng lớn thông tin văn bản thành những hiểu biết hữu ích. Khai thác văn bản là một bộ phận của khai thác dữ liệu, tập trung vào việc khám phá kiến thức từ thông tin văn bản (Zhai & Massung, 2016). Từ việc thu thập dữ liệu, xử lý dữ liệu (làm sạch dữ liệu, phân tích các cấp độ câu từ để khai phá dữ liệu (ví dụ như: phân loại văn bản, nhóm văn bản, tóm tắt văn bản,…)
Hình 1. Qúa trình khai phá dữ liệu văn bản
Ẩm thực là phương tiện quan trọng để thâm nhập vào một nền văn hóa. Ẩm thực địa phương hoặc ẩm thực độc đáo của một khu vực là một trong những nguồn tài nguyên đặc biệt có thể được sử dụng như công cụ tiếp thị để có thêm nhiều khách du lịch. Việc sản xuất, quảng bá ẩm thực địa phương chất lượng cao mang lại nhiều lợi ích về môi trường, kinh tế và sức khỏe cộng đồng (Monika, 2019). Cà Mau – vùng đất Phương Nam không chỉ giàu có, trù phú về rừng và biển, mà nơi đây còn được mệnh danh là vùng đất có “Cá bạc, tôm vàng”. Chính sự phong phú về động thực vật trên rừng, dưới biển đã góp phần tạo nên những món ăn ngon, dân dã, mang đậm hương vị quê hương (Thu, 2013). Hiếm có địa phương nào lại hội tụ được nhiều điều kiện tuyệt vời tạo nên diện mạo ẩm thực vô cùng hấp dẫn như nơi đây. Cà Mau có 2 hệ sinh thái song song ngập lợ và ngập mặn, kèm theo đó là những sản vật đặc trưng, cùng với sự sáng tạo tài tình của cư dân, văn hoá ẩm thực đã trở thành thỏi nam châm có sức hút lớn, đủ sức thuyết phục mọi đối tượng thực khách (Rin). Ngoài ra, sự đa dạng của văn hóa khi là nơi sinh sống của nhiều đồng bào dân tộc Kinh, Khmer, Hoa… Cà Mau đã dệt nên một nền văn hoá ẩm thực bình dị mà đầy sức hút, thể hiện sự giao thoa văn hoá với những món ăn pha trộn thú vị như bún nước lèo, bánh tằm cay, bún riêu cua,... (lịch, 2023) Đa số các món ăn nơi đây tuy chế biến rất đơn giản, không quá cầu kỳ, nhưng rất tinh tuý, riêng biệt, tạo nên nét đặc trưng ẩm thực Cà Mau như: cua Cà Mau, cá thòi lòi nướng, lẩu mắm U Minh, mắm ba khía Rạch Gốc, cá lóc nướng trui, tôm khô, cá khô, cá nâu kho trái giác, dưa bồn bồn, vọp nướng, lươn um… Đặc sản Cà Mau còn là cá lóc luộc hèm, rắn bông súng nướng, tôm tái chanh, rùa rang muối, dơi quạ nấu cháo đậu xanh, rắn hổ xé phay…
Hiện nay, có rất nhiều dữ liệu căn bản về ẩm thực Cà Mau trên mạng internet, trong đó có các kênh chính thống (báo chí trực tuyến) và mạng xã hội, đặc biệt là bài viết của Food Reviewer . Đa số là những dữ liệu văn bản rất dài, một số dữ liệu hỗn độn khi sử dụng ngôn ngữ mạng xã hội. Vì thế, chúng tôi đề xuất áp dụng một trong số những kỹ thuật khai phá văn bản, là tóm tắt tự động văn bản bằng phương pháp phân cụm, cho phép máy tính chuyển đổi lượng lớn thông tin văn bản thành những hiểu biết hữu ích ngắn gọn, tạo bộ dữ liệu về ẩm thực Cà Mau, hỗ trợ chắt lọc thông tin cho mọi người, đặc biệt là khách du lịch muốn tìm hiểu về ẩm thực Cà Mau, hỗ trợ các nhà hàng, quán ăn, cơ sở sản xuất, mua bán đặc sản Cà Mau cải thiện chất lượng, chú trọng an toàn vệ sinh thực phẩm và chế độ dinh dưỡng.
II. Phương pháp nghiên cứu
1. Thu thập dữ liệu
Sự bùng nổ của Internet đã mang lại lợi ích cho những nhà nghiên cứu khoa học dữ liệu và dữ liệu lớn. Sự đa dạng và số lượng dữ liệu có sẵn ngày nay thông qua internet giống như một kho tàng bí mật và bí ẩn đang chờ được giải đáp. Chúng ta có thể trích xuất dữ liệu này từ các trang web bằng cách sử dụng API.
Web crawler có chức năng lấy thông tin từ website, trích xuất ra những thông tin người sử dụng cần, đồng thời cũng tìm những link có trong trang web đó và tự động truy cập vào những link đó. Các tên gọi khác của crawler là robot, bot,.... Nhưng gần đây tên gọi Web Crawler là thông dụng nhất.
Ví dụ: nếu bạn đang có kế hoạch đi du lịch “food tour” để thưởng thức ẩm thực Cà Mau, bạn có thể tìm kiếm một số trang web giới thiệu về ẩm thực Cà Mau, rút ra các nhận xét về nhiều việc nên làm và xem quán ăn, nhà hàng hay cơ sở kinh doanh đặc sản nào đang nhận được nhiều phản hồi tích cực từ người dùng mạng và danh sách các trường hợp nên tránh. Tuy nhiên, không có phương pháp cố định nào để trích xuất dữ liệu đó; phần lớn là không có cấu trúc và nhiễu. Từ thực tế trên làm cho Web Crawler trở thành một kỹ thuật cần thiết cho các nhà khoa học về dữ liệu lớn.
Công nghệ thu thập thông tin từ trang Web (Web Crawler) (Mitchell, 2018) được sử dụng để trích xuất văn bản từ các trang web. Công nghệ này có thể nhận dạng các loại nội dung khác nhau trong một trang web và chỉ thu thập và lưu trữ các loại nội dung do người dùng chỉ định, ví dụ: tiêu đề bài viết, tóm tắt bài viết hoặc tác giả từ một trang web tin tức, hoặc giá cả và mô tả sản phẩm từ một trang web thương mại,…
Mô hình crawler đơn giản:
• Chọn URL khởi đầu.
• Sử dụng HTML protocol để lấy trang web.
• Trích xuất ra các link. Lưu lại trong hàng đợi.
• Với mỗi link, lấy các nội dung quan tâm.
• Lặp đi lặp lại bước 2,3.
Chương trình do nhóm nghiên cứu phát triển, hỗ trợ thu thập tất cả các thể loại trên menu trang báo điện tử và mạng xã hội bằng ngôn ngữ lập trình Python. Chương trình sử dụng các thư viện: BeautifulSoup, Selenium, Requests, Pandas, NLTK và HTML – Cấu trúc và tags cơ bản. Kết quả thu được 147 bài báo từ nguồn: mạng xã hội facebook, báo Cà Mau online, cổng thông tin điện tử tỉnh Cà Mau và các trang web khác với 3 loại thông tin: tựa đề, nội dung, tóm tắt/mô tả (nếu có) được lưu tự động vào file csv.
Hình 2. Dữ liệu thu thập được lưu vào file csv
2. Tiền xử lý dữ liệu
Loại bỏ nhiễu: loại bỏ các phần không cần thiết khỏi văn bản đầu vào như đầu trang, chân trang,…
Loại bỏ dấu chấm câu: dấu chấm câu được xem là dư thừa trong xử lý văn bản. Vì thế, loại bỏ chúng rất hữu ích trước khi thực hiện hầu hết các tác vụ NLP.
Phân đoạn câu: phân chia văn bản thành các câu (Gambhir & Gupta, 2017).
Word Tokenization: ngắt văn bản thành các từ riêng biệt. Các từ được phân tách bằng khoảng trắng, dấu phẩy, gạch ngang, dấu chấm,…
Loại bỏ từ dừng: từ dừng là những từ xuất hiện thường xuyên trong văn bản như mạo từ, đại từ, giới từ, trợ động từ và từ hạn định. Chúng bị loại bỏ vì chúng không bổ sung bất kỳ ý nghĩa hữu ích nào cho phân tích (Jaradat & Al-Taani, 2016)
Biểu diễn văn bản đã được sử dụng để biểu diễn (các) tài liệu đầu vào trong giai đoạn xử lý của hệ thống ATS. Sau đây là mô tả ngắn gọn các mô hình biểu diễn văn bản thông dụng nhất.
Hình 3. Mô hình biểu diễn văn bản
Word Vector hoặc Word Embedding: là một không gian vector dùng để biểu diễn dữ liệu có khả năng miêu tả được mối liên hệ, sự tương đồng về mặt ngữ nghĩa, văn cảnh(context) của dữ liệu. Không gian này bao gồm nhiều chiều và các từ trong không gian đó mà có cùng văn cảnh hoặc ngữ nghĩa sẽ có vị trí gần nhau. Ví dụ như ta có hai câu : "Hôm nay đi Cà Mau ăn tôm " và "Hôm nay đi Cà Mau ăn cua". Khi ta thực hiện Word Embedding, "cua" và "tôm" sẽ có vị trí gần nhau trong không gian chúng ta biễu diễn do chúng có vị trị giống nhau trong một câu. Nhóm nghiên cứu đề xuất mô hình Word2Vector do (Mikolov, Chen, Corrado, & Dean, 2013) để vector hóa dữ liệu.
3. Tóm tắt văn bản
Các tài nguyên web trên Internet (ví dụ: trang web, đánh giá của người dùng, tin tức, blog, mạng xã hội,…) chứa nguồn dữ liệu văn bản khổng lồ. Bên cạnh đó, có vô số nội dung văn bản trên các kho lưu trữ khác nhau, ví dụ như: các bài báo, tiểu thuyết, sách, tài liệu pháp lý, tài liệu y sinh, bài báo khoa học… Dữ liệu văn bản tăng theo cấp số nhân hàng ngày. Do đó, người dùng mất rất nhiều thời gian để tìm thông tin mà họ cần. Thậm chí không có thời gian để đọc và hiểu hết tất cả các nội dung văn bản mà họ tìm kiếm. Thêm vào đó, nhiều văn bản kết quả trả về có thể bị trùng lắp, lặp đi lặp lại hoặc không quan trọng. Thế nên việc tóm tắt, cô đọng các nguồn dữ liệu văn bản ngày càng trở nên quan trọng và cấp thiết. Tóm tắt thủ công là công việc tiêu tốn thời gian, công sức, kinh phí và trong các lĩnh vực chuyên môn đôi khi cần có chuyên gia. Trên thực tế, rất khó để con người có thể tóm tắt lượng dữ liệu văn bản khổng lồ này theo cách thủ công. Vì thế, tóm tắt văn bản tự động (Automatic Text Summarization - ATS) là bài toán rất cấp thiết hiện nay.
Mục tiêu chính của hệ thống ATS là tạo ra một bản tóm tắt bao gồm các ý chính trong tài liệu đầu vào với ít không gian hơn và giảm thiểu sự lặp lại (Moratanch & Chitrakala, 2017).
Các nhà nghiên cứu phân chia “Tóm tắt văn bản tự động” thành 03 hướng tiếp cận: trích chọn, trừu tượng và lai (kết hợp trích chọn và trừu tượng). Phương pháp “trích chọn” hoạt động bằng cách xác định các phần quan trọng của văn bản và tạo ra văn bản tóm tắt nguyên văn từ văn bản gốc; do đó, chúng chỉ phụ thuộc vào việc trích chọn các câu, từ từ văn bản gốc. Ngược lại, phương pháp tóm tắt “trừu tượng” với mục đích sinh ra văn bản tóm tắt theo cách mới, họ sử dụng các kỹ thuật ngôn ngữ tự nhiên để tạo ra một văn bản mới ngắn hơn, truyền tải thông tin quan trọng nhất từ văn bản gốc. Cách tiếp cận lai kết hợp cả cách tiếp cận trích chọn và trừu tượng.
Nghiên cứu này sẽ áp dụng một trong những thuật toán cơ bản nhất trong học không giám sát - thuật toán K-means clustering (phân cụm K-means) (Hartigan & Wong, 1979) để tóm tắt văn bản tự động theo hướng trích chọn (Alguliyev, Aliguliyev, Isazade, Abdi, & Idris, 2019).
Gom cụm văn bản có thể được thực hiện ở các mức độ chi tiết khác nhau, trong đó các cụm có thể là các tài liệu (Documents), các đoạn văn (Paragraphs), các câu (Sentences) hoặc các cụm từ (Terms). Gom cụm là một trong những kỹ thuật chính được sử dụng để sắp xếp tài liệu, làm tăng khả năng truy hồi (retrieval) thông tin và hỗ trợ tìm duyệt (browsing) tài liệu.
Ý tưởng đơn giản nhất về cluster (cụm) là tập hợp các điểm ở gần nhau trong một không gian nào đó (không gian này có thể có rất nhiều chiều trong trường hợp thông tin về một điểm dữ liệu là rất lớn). Hình bên dưới là một ví dụ về 3 cụm dữ liệu.
Hình 4. Bài toán với 3 clusters.
4. Kết quả
Đánh giá bằng thước đo ROUGE Metrics. ROUGE (Lin, 2004), viết tắt của Recall-Oriented Understudy for Gisting Evaluation, là thước đo được sử dụng để thu được mức độ tương tự giữa phần tóm tắt ứng viên (bản tóm tắt được tạo tự động) và phần tóm tắt mục tiêu (bản tóm tắt tham chiếu của con người). Điểm ROUGE được chia thành Điểm số ROUGE-1, ROUGE-2 và ROUGE-L.
Áp dụng thuật toán K-means clustering để tóm tắt văn bản theo phương pháp trích chọn 147 bài viết về ẩm thực Cà Mau. Kết quả thu được như sau:
Hình 5. Biểu đồ kết quả Rouge của nghiên cứu Cua Cà Mau - thương hiệu hàng chục nghìn tỷ đồng
Với người dân vùng rừng đước Cà Mau - quê hương của đặc sản cua, "khách tới nhà mà mời cua dở là mất mặt". |
"Với người xứ khác, chuyện chọn con cua ngon hay dở không quan trọng. Nhưng với chúng tôi, mời khách cua dở thì mất mặt lắm", ông Lâm, một gia đình có hai đời nuôi và kinh doanh cua Cà Mau nói. Năm 2000, khi mới bắt đầu nuôi Cua trên những rừng đước xen lẫn tôm, ông Lâm kể cả năm trời, gia đình chỉ thu hoạch được gần chục triệu đồng. Thời điểm ấy, ông chưa chú trọng vào nuôi cua vì giá trị thấp, mỗi kg bán ra chỉ vài chục nghìn đồng. Nhưng đến năm 2015, khi cua Cà Mau được xuất khẩu, giá trị đã tăng nhiều lần, gia đình bắt đầu mở rộng diện tích. Tới nay, mỗi năm, ông xuất bán 1-2 tấn cua với doanh thu trên nửa tỷ đồng. Tương tự ông Lâm, nhiều hộ nuôi tôm khác tại tỉnh này trước đây chỉ canh tác lúa nhưng vài năm qua, cua là loại trọng điểm, mang lại nguồn thu nhập chính của gia đình. Để kích cầu và quảng bá thương hiệu, cuối tháng 12/2022, UBND tỉnh Cà Mau vừa tổ chức "Ngày hội cua Cà Mau, trong đó, có cuộc thi "Cua Cà Mau lớn nhất" - Cua Sumo (Sumo Crab), giúp người tiêu dùng có dịp chứng kiến những con cua khủng có trọng lượng từ một kg. Theo ban tổ chức, điều này cũng khẳng định, cua Việt không chỉ chất lượng mà có trọng lượng không thua kém gì các sản phẩm của thế giới như King Crab hay cua Canada. Con cua đoạt giải "Cua Cà Mau lớn nhất" - Cua Sumo (Sumo Crab) do UBND Tỉnh Cà Mau tổ chức. Con cua này nặng 1,452 kg. Ảnh: NVCC Nói với VnExpress, ông Châu Công Bằng - Phó giám đốc Sở Nông nghiệp và Phát triển Nông thôn Cà Mau cho biết, đã mất hơn 10 năm để xây dựng thương hiệu "Cua Cà Mau" không chỉ trong nước mà vươn ra cả thế giới. Tới nay, sản phẩm này không chỉ mang lại hiệu quả kinh tế cao cho người nuôi và góp phần làm tăng kim ngạch xuất khẩu của tỉnh. Theo ông Bằng, cuối thập niên 90 của thế kỷ trước và đầu những năm 2000, đồng đất ở vùng bán đảo Cà Mau đa phần trồng lúa. Mãi đến 2010, khi vùng nước ngọt ngày càng bị thu hẹp lại, mở ra địa bàn cho con tôm nước lợ thì lúc ấy cua mới có nhiều diện tích hơn để phát triển. Năm 2010, diện tích nuôi chỉ vài nghìn ha, tới nay đang là khu vực có diện tích nuôi cua lớn nhất cả nước với 250.000 ha. Giá bán ra thời điểm ấy chỉ 150.000-200.000 đồng một kg hàng loại 1 thì nay đã lên tới 400.000-600.000 đồng, lúc cao điểm giá lên tới một triệu đồng. Cua Cà Mau sở dĩ thơm ngon vì được sống từ nguồn nước biển theo thủy triều thông suốt ngày hai lần vào các nhánh sông rạch, độ mặn cao và sạch. Thức ăn cho cua ở vùng này dồi dào hơn các tỉnh thành khác trên cả nước. Nông dân Hồ Hùng Linh, xã Tam Giang, huyện Năm Căn giới thiệu đặc sản cua Năm Căn - Cà Mau. Ảnh: Cổng thông tin Cà Mau Theo ông Bằng, không phải ngẫu nhiên nhắc tới cua là người Việt nhớ tới thương hiệu "Cua Cà Mau" mà vì chúng là nơi sản sinh ra những con cua ngon nhất Việt Nam. Ngoài ra, Cà Mau là nơi sở hữu hệ sinh thái ngập mặn hàng chục ngàn ha, tỉnh có 3 mặt giáp biển - nơi chứa đầy phù sa, vùng ngập mặn, lợ phong phú, thích hợp cho các loài giáp xác như tôm, cua... Tôm, cua vùng đất này có độ ngọt và giàu dinh dưỡng hơn vùng đất khác. Không chỉ vậy, cua ở những vùng gần biển như Năm Căn, Ngọc Hiển, Đầm Dơi và một số nơi khác trong tỉnh đều đều được nuôi và thả tự nhiên để thịt cua trở nên săn chắc, thơm ngon hơn các địa phương khác. Năm 2015, nhãn hiệu "Cua Năm Căn – Cà Mau" được Cục Sở hữu trí tuệ công nhận là nhãn hiệu tập thể. Vào tháng 6 năm nay, sản phẩm "Cua Cà Mau" đã cơ quan này cấp giấy chứng nhận chỉ dẫn địa lý. Tự hào về thương hiệu, Phó chủ tịch UBND tỉnh Lê Văn Sử cho rằng, đây là nơi thiên nhiên đã ban tặng nhiều món quà vô giá, trong đó, có loài cua biển - top 100 món ăn đặc sản Việt Nam. "Trước đây, tỉnh không chú trọng phát triển con cua nhưng từ 2020 đến nay, nó là mặt hàng góp phần nâng kim ngạch xuất khẩu thủy sản của Cà Mau cao nhất cả nước", ông Sử nói và cho hay, cua của tỉnh này đã xuất đi Trung Quốc, Thái Lan, Singapore... Theo ông Sử, hiện quy mô nuôi cua của Cà Mau cao nhất cả nước. Tổng giá trị sản lượng cua bình quân mỗi năm của Cà Mau trong những năm gần đây trên 10.000 tỷ đồng. Do đó, từ 2023 cua được xác định là ngành hàng chủ lực hàng đầu, chỉ đứng sau tôm. Tỉnh cũng đang đề nghị Sở Nông nghiệp xây dựng đề án để phát triển ngành cua sao cho tương xứng với thương hiệu. Bà Dương Thị Bích Năm, Giám đốc Công ty Dư Thái Bình – đơn vị giành giải "cua Cà Mau lớn nhất" - tin rằng đang có nhiều cơ hội hơn để tìm đối tác xuất khẩu. Ngoài Trung Quốc, công ty này kỳ vọng sắp tới sẽ xuất được sang Hàn Quốc, Nhật, EU. Cua Cà Mau có chỗ đứng lớn trên thị trường, nhưng theo bà, thời gian qua vẫn xuất hiện nhiều sản phẩm cua trôi nổi, không rõ nguồn gốc "gắn mác" với giá thấp khiến hàng chính hiệu bị ảnh hưởng. Bà đề nghị cơ quan chức năng có nhiều động thái tích cực để bảo vệ thương hiệu cua Cà Mau. Về việc này, ông Châu Công Bằng - Phó giám đốc Sở Nông nghiệp và Phát triển Nông thôn Cà Mau cho biết, mỗi vùng cũng đã xây dựng nhãn hiệu riêng. Trên mỗi con cua của các cơ sở kinh doanh đều đã gắn tem truy xuất nguồn gốc. Song song đó, tỉnh cũng sẽ quy hoạch lại vùng nuôi để đảm bảo cho cua ra thị trường luôn ổn định và đạt chất lượng cao. Thời gian tới, tỉnh Cà Mau sẽ đẩy mạnh nhiều hoạt động kết nối giao thương giữa các doanh nghiệp để giúp họ có thể liên kết tiêu thụ sản phẩm cua Cà Mau ra thị trường trong nước và xuất khẩu. Tỉnh sẽ tạo điều kiện hỗ trợ doanh nghiệp buôn bán trên các website, sàn thương mại điện tử trong cả nước. Thi Hà |
Để kích cầu và quảng bá thương hiệu, cuối tháng 12/2022, UBND tỉnh Cà Mau vừa tổ chức "Ngày hội cua Cà Mau, trong đó, có cuộc thi "Cua Cà Mau lớn nhất" - Cua Sumo (Sumo Crab), giúp người tiêu dùng có dịp chứng kiến những con cua khủng có trọng lượng từ một kg. Cua Cà Mau có chỗ đứng lớn trên thị trường, nhưng theo bà, thời gian qua vẫn xuất hiện nhiều sản phẩm cua trôi nổi, không rõ nguồn gốc "gắn mác" với giá thấp khiến hàng chính hiệu bị ảnh hưởng. Thời gian tới, tỉnh Cà Mau sẽ đẩy mạnh nhiều hoạt động kết nối giao thương giữa các doanh nghiệp để giúp họ có thể liên kết tiêu thụ sản phẩm cua Cà Mau ra thị trường trong nước và xuất khẩu. |
Bảng 1. Ví dụ về tóm tắt Bài viết Cua Cà Mau - thương hiệu hàng chục nghìn tỷ đồng
Ý nghĩa của kết quả: Precision cao (đặc biệt là ROUGE-1 với 0.859) cho thấy phần lớn nội dung trong bản tóm tắt tự động là chính xác và liên quan với nhau. Recall thấp hơn cho thấy bản tóm tắt tự động có thể bỏ sót một số thông tin quan trọng so với bản tóm tắt tham chiếu của con người. F-Score trung bình chỉ ra rằng hệ thống đạt được sự cân bằng hợp lý giữa Precision và Recall
Ví dụ cụ thể về tóm tắt: Tóm tắt bài viết "Cua Cà Mau - thương hiệu hàng chục nghìn tỷ đồng”. Bản tóm tắt tự động đã chắt lọc được các thông tin quan trọng về giá trị kinh tế, đặc điểm, chất lượng và thương hiệu của cua Cà Mau
III. Kết luận - Hướng phát triển
Việc tóm tắt chính xác các bài viết về ẩm thực cho người đọc có vai trò rất quan trọng, vì nó giúp họ nhanh chóng nắm bắt thông tin cần thiết mà không phải đọc toàn bộ bài viết dài. Nếu bài viết gốc rất dài hoặc có nhiều chi tiết phụ, một bản tóm tắt chính xác sẽ giúp người đọc tránh bị rối thông tin. Đồng thời, loại bỏ các yếu tố không cần thiết, giúp họ tập trung vào điều quan trọng nhất. Thông tin tóm tắt như địa điểm, đặc sản nổi bật, giá cả, giờ mở cửa và mẹo ăn uống,… sẽ giúp du khách dễ dàng lên kế hoạch ăn uống trong chuyến đi mà không bỏ lỡ món ngon nào. Không chỉ du khách, mà chủ nhà hàng, quán ăn cũng có thể dựa vào những bản tóm tắt đánh giá để hiểu khách hàng thích gì, cần cải thiện điều gì mà không phải đọc hàng loạt bài viết dài dòng. Những bài viết được tóm tắt gọn gàng, dễ hiểu sẽ thu hút nhiều người đọc hơn. Khi người đọc tiếp cận được thông tin một cách nhanh chóng, họ sẽ có xu hướng chia sẻ rộng rãi, giúp quảng bá ẩm thực địa phương hiệu quả.
Bên cạnh những kết quả đạt được, nghiên cứu còn gặp phải nhiều hạn chế như: Dữ liệu chủ yếu tập trung vào ẩm thực mà chưa bao gồm nhiều khía cạnh khác của văn hóa ẩm thực như cách chế biến, nguồn gốc lịch sử; Phương pháp vector hóa và phân cụm đòi hỏi tài nguyên tính toán cao khi mở rộng quy mô, chọn số lượng cụm K tối ưu là một thách thức lớn, các thuật ngữ ẩm thực đặc thù của Cà Mau có thể chưa được biểu diễn tốt trong không gian vector; dữ liệu từ nhiều nguồn khác nhau (báo chí, mạng xã hội) có cấu trúc và định dạng không đồng nhất,…
Dựa trên kết quả đã đạt được và những hạn chế hiện tại, nghiên cứu về thu thập và tóm tắt tự động các bài viết về ẩm thực Cà Mau có thể phát triển theo nhiều hướng đầy tiềm năng: Bổ sung các nguồn như YouTube, TikTok, Instagram và các nền tảng đánh giá nhà hàng như Foody; Phát triển từ điển chuyên biệt cho lĩnh vực ẩm thực Việt Nam; Tận dụng các mô hình như PhoBERT, ViBERT hoặc ViT5 được huấn luyện trên dữ liệu tiếng Việt, Sử dụng các mô hình BERT, GPT, T5 cho việc hiểu ngữ cảnh tốt hơn và tóm tắt chất lượng cao hơn; Xây dựng chatbot có thể trả lời các câu hỏi về ẩm thực Cà Mau; Kết hợp dữ liệu tóm tắt với GPS để tạo bản đồ ẩm thực tương tác và áp dụng mô hình cho các vùng miền khác của Việt Nam.
Võ Tuyết Ngân, Phùng Như Nhựt Lâm, Võ Thị Thanh Nữ, Sử Huỳnh Anh - Trường Cao đẳng Cộng đồng Cà Mau
TÀI LIỆU THAM KHẢO
Abbar, S., Mejova, Y., & Weber, I. (2015). You tweet what you eat: Studying food consumption through twitter. Paper presented at the Proceedings of the 33rd annual acm conference on human factors in computing systems.
Alguliyev, R. M., Aliguliyev, R. M., Isazade, N. R., Abdi, A., & Idris, N. (2019). COSUM: Text summarization based on clustering and optimization. Expert Systems, 36(1), e12340.
Gambhir, M., & Gupta, V. (2017). Recent automatic text summarization techniques: a survey. Artificial Intelligence Review, 47(1), 1-66.
Ghosh, D., & Guha, R. (2013). What are we ‘tweeting’about obesity? Mapping tweets with topic modeling and Geographic Information System. Cartography and geographic information science, 40(2), 90-102.
Hartigan, J. A., & Wong, M. A. (1979). Algorithm AS 136: A k-means clustering algorithm. Journal of the royal statistical society. series c (applied statistics), 28(1), 100-108.
Jaradat, Y. A., & Al-Taani, A. T. (2016). Hybrid-based Arabic single-document text summarization approach using genatic algorithm. Paper presented at the 2016 7th International Conference on Information and Communication Systems (ICICS).
lịch, T. t. T. t. d. (2023). Khám phá văn hóa ẩm thực “cả một thời thương nhớ” nơi đất mũi Cà Mau. from https://vietnamtourism.gov.vn/post/52875
Lin, C.-Y. (2004). Rouge: A package for automatic evaluation of summaries. Paper presented at the Text summarization branches out.
Marvin, H. J., Janssen, E. M., Bouzembrak, Y., Hendriksen, P. J., & Staats, M. (2017). Big data in food safety: An overview. Critical reviews in food science and nutrition, 57(11), 2286-2295.
Masson, E., Bubendorff, S., & Fraïssé, C. (2018). Toward new forms of meal sharing? Collective habits and personal diets. Appetite, 123, 108-113.
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
Mitchell, R. (2018). Web scraping with Python: Collecting more data from the modern web: O'Reilly Media.
Monika, B. (2019). Local cuisine-A tool to promote destination. Journal of Emerging Technologies and Innovative Research, 6(1), 124-131.
Moratanch, N., & Chitrakala, S. (2017). A survey on extractive text summarization. Paper presented at the 2017 international conference on computer, communication and signal processing (ICCCSP).
Rin, Q. Đặc sắc ẩm thực Cà Mau. from https://baocamau.vn/longform/dac-sac-am-thuc-ca-mau-a37.html
Thu, N. (2013). Giới thiệu chung về ẩm thực Cà Mau. from https://www.camau.gov.vn/wps/portal/?1dmy&page=dl.chitiet&urile=wcm%3Apath%3A/camaulibrary/camauofsite/dulich/dl.tongquan/dl.amthuc/gioithieuchugnveamthuc12