Loading...

Hotline: 0934.119.383 - 028.6680.9898

Chàng trai trẻ lập startup thu thập 14 tỷ bản ghi dữ liệu, xây hệ thống quét 40 triệu lượt thông tin mỗi ngày từ mạng xã hội

Bỏ học tại Tiến sỹ tại Đại học Paris Sud, Lê Công Thành thành lập doanh nghiệp thu thập 14 tỷ bản ghi dữ liệu, xây dựng hệ thống quét 40 triệu thông tin mỗi ngày.
Lê Công Thành – CEO của Công ty Cổ phần Công nghệ chọn lọc thông tin InfoRe.

Bỏ học Tiến sỹ tại Pháp trở về nước lập nghiệp

Lê Công Thành hiện đang là CEO của Công ty Cổ phần Công nghệ chọn lọc thông tin – InfoRe. Năm 2009, anh bỏ dở việc học Tiến sỹ ở Đại học Paris Sud (Pháp) và trở về Việt Nam lập nghiệp.

Năm 2010, Thành cùng vài người bạn xây dựng SMCC (Social Media Command Center). Đây là hệ thống phân tích ngữ nghĩa và quản trị tương tác mạng xã hội. Hệ thống này đã được nhiều doanh nghiệp sử dụng như BIDV, Tổng cục du lịch… Hệ thống này đã giúp anh giành giải Công nghệ thông tin triển vọng Nhân tài Đất Việt năm 2016.

SMCC hiện là một trong những hệ thống chính mà InfoRe đang sử dụng. Hệ thống phân tích thống kê thông tin trên mạng xã hội có đầy đủ chức năng của một hệ thống phần mềm dịch vụ SaaS (Software as a Service). Hệ thống sử dụng các kỹ thuật Deep Learning tiên tiến để xử lý văn bản tiếng Việt.

Hiện nay, InfoRe là doanh nghiệp chuyên ứng dụng trí tuệ nhân tạo để xử lý dữ liệu khối lượng lớn. Thành lập từ năm 2012, hiện doanh nghiệp này đang vận hành ứng dụng khoảng 30 dự án trí tuệ nhân tạo khác nhau để xử lý các dạng dữ liệu.

5 năm và 14 tỷ bản ghi dữ liệu

Trong 5 năm qua, InfoRe đã thu thập được 14 tỷ bản ghi dữ liệu với thông tin ở mọi lĩnh vực, từ du lịch, văn hóa, nghệ thuật, giải trí, y tế đến nông nghiệp.

CEO InfoRe cho biết: “Chúng tôi bắt đầu bằng việc khai thác dữ liệu trên mạng xã hội, những thứ mọi người đăng hàng ngày trên các phương tiện truyền thông và nhất là trên mạng xã hội facebook ở Việt Nam”.

Trung bình mỗi ngày, SMCC quét 40 triệu lượt thông tin trên internet tại Việt Nam, trong đó 95%  thông tin đến từ mạng xã hội.

Sau khi thu thập những nội dung thông tin trên các phương tiện truyền thông và mạng xã hội, đội ngũ InfoRe sẽ phân tích nội dung đó thông quan hệ thống SMCC.

 Với những thông tin tưởng chừng như vô giá trị, họ đã dùng trí tuệ nhân tạo để lọc ra những thông tin có giá trị và loại bỏ những thông tin không có giá trị. Đồng thời, tìm ra những nội dung mà nhiều người đang quan tâm ở những lĩnh vực khác nhau. Từ đó, dự đoán xu hướng, tiêu dùng trong tương lai.

“Nếu chúng ta nhìn vào một tài khoản facebook của một người, chúng ta cũng phần nào đoán được họ là người như thế nào. Đồng nghĩa với việc máy tính cũng có thể làm như chúng ta, nhưng với số lượng cỡ hàng triệu người. Máy tính có thể đoán được chỉ số tín dụng của hàng triệu người. Và điều đó giúp ngân hàng có thể đi cho vay dễ dàng hơn”, Lê Công Thành dẫn chứng.

Ngoài ra, các công ty, tập đoàn lớn có thể sử dụng SMCC để phục vụ trong tiếp thị, quan hệ công chúng, quản trị thương hiệu, khủng hoảng, chăm sóc khách hàng; hay các tổ chức, đơn vị nhà nước sử dụng trong công tác hành chính, an ninh quốc phòng.

Lê Công Thành chia sẻ: “Chúng tôi cố gắng chia nhỏ nguồn dữ liệu của mình vào các lĩnh vực khác nhau, trí tuệ nhân tạo và dữ liệu lớn là một dạng công nghệ cắt qua các ngành khác. Vì thế chúng tôi muốn ứng dụng trí tuệ nhân tạo vào tất cả các ngành mà Việt Nam đang cần phát triển”.

Khai thác những thông tin có giá trị từ những nội dung thu thập ở nhiều nơi nhưng CEO InfoRe lại cho biết, InfoRe không kinh doanh những thông tin và dữ liệu đó. Đó chỉ là thứ để doanh nghiệp của anh xây dựng thương hiệu. Có nhiều cách để kiếm lợi nhuận chứ không hẳn là kinh doanh trực tiếp từ dữ liệu.

Mỏ vàng dữ liệu còn rất lớn

Dữ liệu được cho là “dòng máu” của nền kinh tế. Tuy nhiên hiện nay khai thác dữ liệu vẫn là hoạt động chưa thật sự phổ biến tại thị trường Việt Nam.

Lê Công Thành cho biết: “Những dữ liệu mà chúng tôi khai thác mới chỉ là một phần rất nhỏ. Dữ liệu vẫn còn tồn tại ở nhiều nguồn khác nhau, trong những nguồn đó thì có rất nhiều dữ liệu thông tin quý và có giá trị. Chúng ta có thể sử dụng trí tuệ nhân tạo để lọc những thông tin đó”.

Ước tính, con số mà trí tuệ nhân tạo mang lại vào năm 2030 cho Nhật Bản là 8.700 tỷ USD, Trung Quốc là 7.000 tỷ USD. Tuy nhiên, các doanh nghiệp Việt Nam vẫn đang trong quá trình xây dựng và sở hữu khối lượng dữ liệu lớn. Đây chính là cơ sở để phát triển trí tuệ nhân tạo. Và lợi ích mà khối dữ liệu này mang đến cho hệ sinh thái doanh nghiệp là không hề nhỏ. Điều này có thể giúp doanh nghiệp tiết kiệm được ít nhất từ 10 – 40% chi phí logistics, rút ngắn quy trình kinh doanh đến 50%.

Năm 2017, Chính phủ đã phê duyệt đề án “Phát triển Hệ tri thức Việt số hóa” với mục tiêu xây dựng hệ thống tri thức tổng hợp của thế giới và Việt Nam ở mọi lĩnh vực như giáo dục, nông nghiệp, y tế, ngân hàng. Điều này cũng đồng nghĩa với việc, Việt Nam đang tạo dựng một nền văn hóa chia sẻ với tất cả mọi người. Đây cũng chính là nền tảng để thế hệ trẻ Việt Nam sáng tạo, phát triển công nghệ tiên tiến trên nền tảng dữ liệu lớn trí thông minh nhân tạo.

Khởi Minh

Theo Trí Thức Trẻ