ĐỔI MỚI
SÁNG TẠO
KỶ NGUYÊN VƯƠN MÌNH

Đồng hành cùng chính phủ và doanh nghiệp trên hành trình chuyển đổi số với các giải pháp công nghệ tân tiến và đột phá như: Trí tuệ thông minh nhân tạo, công nghệ chuỗi khối, điện toán đám mây, điện toán biên, dữ liệu lớn.

KHAI PHÁ
TRÍ TUỆ THÔNG MINH NHÂN TẠO
KẾT NỐI TƯƠNG LAI

Trí tuệ nhân tạo không chỉ là công nghệ,
mà là chìa khóa mở ra cánh cửa của sự đổi mới,
giúp bạn dẫn đầu xu thế số trong thời đại mới.

NBG HIGHTECH

Chúng tôi cung cấp

Những giải pháp & dịch vụ nổi bật

Tư vấn & Thực hiện Chuyển Đổi Số

Phát triển chiến lược số hiệu quả, nâng cao năng lực tổ chức trong kỷ nguyên công nghệ.

Giải pháp & Hạ tầng
AI & IOT

Sức mạnh của AI và IoT, tối ưu hóa quy trình và tạo ra trải nghiệm công nghệ thông minh.

Nền tảng & Dịch vụ
Hybrid Cloud

Mang lại sự linh hoạt và bảo mật tối đa, mở ra cánh cửa phát triển không giới hạn.

Giải pháp & Hạ tầng
Blockchain

Xây dựng hệ thống giao dịch số minh bạch và an toàn, chìa khóa mở ra kỷ nguyên đổi mới số.

Giới thiệu về NBG HIGHTECH
Về chúng tôi

NBG HIGHTECH là một thành viên của NBG GROUP

Sứ mệnh của chúng tôi kiến tạo tương lai nền công nghệ Việt Nam, trở thành cường quốc thế giới trong lĩnh vực công nghệ số.

Với đội ngũ chuyên gia giàu kinh nghiệm, chúng tôi mang đến những giải pháp công nghệ thông minh, giúp chính phủ & doanh nghiệp nâng cao hiệu suất, bảo mật dữ liệu và phát triển bền vững trong thời đại số.

  • Chất lượng
    vượt trội

  • Tư vấn
    chuyên sâu

TƯ VẤN NHANH

    Quy trình tinh gọn

    Đơn giản hoá chỉ 4 bước

    Thấu hiểu

    Chúng tôi đề cao sự tương tác và thấu hiểu từ sản phẩm, đối tác cho tới thị trường và người thụ hưởng sản phẩm cuối cùng.

    Sáng tạo

    Dựa từ sự thấu hiểu, từ nền tảng công nghệ, chúng tôi sẽ tạo ra những giải pháp sáng tạo, độc đáo và phù hợp nhất cho từng sản phẩm.

    Bàn giao liên tục

    Sản phẩm sẽ được bàn giao liên tục, giúp khách hàng dễ dàng theo dõi tiến độ và đưa ra phản hồi kịp thời, tối đa hoá chất lượng sản phẩm.

    Vận hành

    Hỗ trợ khách hàng triển khai sản phẩm, đồng thời hỗ trợ vận hành, bảo trì sản phẩm để đảm bảo sản phẩm luôn hoạt động tốt nhất.

    Đối tác chiến lược

    Tin tức

    Tin tức công nghệ & nội bộ doanh nghiệp

    Công nghệ AI của hiện tại và tương lai

    Công nghệ AI (Artificial Intelligence) hiện đang là công nghệ được quan tâm phát triển và ứng dụng bậc nhất hiện nay, được ứng dụng trong nhiều lĩnh vực như nhận dạng khuôn mặt, xử lý giọng nói, kỹ thuật ước tính đám đông … đến các hệ thống an ninh, bảo mật, hay hệ thống pháp luật, chính phủ.


    Theo dòng chảy của cuộc cách mạng 4.0, trí tuệ nhân tạo ngày càng được phổ biến và ứng dụng rộng rãi trong mọi lĩnh vực của cuộc sống, mặc dù được John McCarthy – nhà khoa học máy tính người Mỹ đề cập lần đầu tiên vào những năm 1950 nhưng đến ngày nay thuật ngữ trí tuệ nhân tạo mới thực sự được biết đến rộng rãi và được các “ông lớn” của làng công nghệ chạy đua phát triển.

    AI là công nghệ sử dụng đến kỹ thuật số có khả năng thực hiện những nhiệm vụ mà bình thường phải cần tới trí thông minh của con người, được xem là phổ biến nhất. Đặc trưng của công nghệ AI là năng lực “tự học” của máy tính, do đó có thể tự phán đoán, phân tích trước các dữ liệu mới mà không cần sự hỗ trợ của con người, đồng thời có khả năng xử lý dữ liệu với số lượng rất lớn và tốc độ cao. Hiện mỗi ngày trên toàn cầu có khoảng 2,2 tỷ Gb dữ liệu mới (tương đương 165.000 tỷ trang tài liệu) được tạo ra và được các công ty, như Google, Twitter, Facebook, Amazon, Baidu, Weibo, Tencent hay Alibaba thu thập để tạo thành “dữ liệu lớn” (big data). Trí tuệ nhân tạo là một lĩnh vực liên quan đến chuyên ngành khoa học máy tính và công nghệ thông tin, bản chất của trí tuệ nhân tạo vẫn do con người làm ra, họ xây dựng các thuật toán, lập trình bằng các công cụ phần mềm công nghệ thông tin, giúp các máy tính có thể tự động xử lý các hành vi thông minh như con người.

    Trí tuệ nhân tạo có khả năng tự thích nghi, tự học và tự phát triển, tự đưa ra các lập luận để giải quyết vấn đề, có thể giao tiếp như người…tất cả là do AI được cài một cơ sở dữ liệu lớn, được lập trình trên cơ sở dữ liệu đó và tái lập trình trên cơ sở dữ liệu mới sinh ra. Cứ như vậy cấu trúc của AI luôn luôn thay đổi và thích nghi trong điều kiện và hoàn cảnh mới. Dự báo đến năm 2030 của công ty kiểm toán và tư vấn tài chính PwC, GDP toàn cầu có thể tăng trưởng thêm 14% từ sự hỗ trợ của trí tuệ nhân tạo, AI đã xuất hiện trong nhiều ngành, từ cung cấp dịch vụ mua sắm ảo và ngân hàng trực tuyến đến giảm chi phí đầu tư trong sản xuất và hợp lý hóa chẩn đoán trong chăm sóc sức khỏe. AI đã thúc đẩy hầu hết các ngành công nghiệp tiến lên và thay đổi cuộc sống của nhiều người.

    Trong lịch sử phát triển của mình từ năm 1960 đến năm 2018, thế giới đã có gần 340.000 sáng chế đồng dạng và hơn 1,6 triệu bài báo khoa học liên quan đến phát triển trí tuệ nhân tạo được công bố. Trong thập niên 80, AI đã bắt đầu được quan tâm, nhưng đến những năm 2012 sự tăng tốc mới trở nên mạnh mẽ. Giai đoạn 2006-2012, số công bố sáng chế bình quân tăng 8% trong một năm, nhưng đến giai đoạn 2012-2017 mức tăng đã đạt 28% trong một năm. Số lượng đơn sáng chế liên quan đến AI tăng từ 8.515 trong năm 2006 lên đến 12.473 năm 2011 và 55.660 năm 2017 (tăng gấp 6, 5 lần trong vòng 12 năm).

    Trong nghiên cứu khoa học, các công bố bài báo liên quan đến AI cũng tăng lên rất nhanh chóng, đặc biệt trong thời gian đến năm 2018 gần đây với 1.636.649 bài báo được công bố. Sự xuất hiện của các bài báo khoa học về AI bắt đầu sớm hơn 10 năm trước khi diễn ra cuộc chạy đua bảo hộ sáng chế công nghệ AI. Chứng tỏ, kết quả của nghiên cứu khoa học cơ bản về AI đã có hiệu quả về mặt ứng dụng khi các cuộc đua đăng ký bảo hộ sáng chế gia tăng sau đó.



    Số lượng sáng chế và số lượng bài báo theo năm công bố
    Nguồn: Xu hướng công nghệ 2019, WIPO


    Theo hệ thống phân loại của Hiệp hội Máy tính Quốc tế ACM (Computing Analysis Scheme) có một khung phân tích rõ ràng phù hợp để tổng hợp và đại diện cho công nghệ đang thay đổi AI theo thời gian. Phân loại này đã được sử dụng trong hơn 50 năm và bản cập nhật cuối cùng vào năm 2012 đã bổ sung các công nghệ mới. Theo đó, công nghệ AI được chia thành 3 hướng chính:

    • Kỹ thuật AI (AI Technique): là các mô hình tính toán và thống kê tiên tiến như học máy, logic mờ và hệ thống cơ sở tri thức cho phép tính toán, nhiệm vụ do con người thực hiện; Các kỹ thuật trí tuệ nhân tạo khác nhau được sử dụng để thực hiện các chức năng khác nhau.
    • Ứng dụng chức năng của trí tuệ nhân tạo (AI functions application): chẳng hạn như thị giác máy tính (computer vision) có thể chứa một hoặc nhiều kỹ thuật trí tuệ khác nhau.
    • Ứng dụng trí tuệ nhân tạo theo lĩnh vực (AI Application field ): là việc sử dụng các kỹ thuật hoặc ứng dụng trí tuệ nhân tạo chức năng trong các lĩnh vực, ngành nghề cụ thể như giao thông vận tải, nông nghiệp, khoa học đời sống, y tế ...


    Trí tuệ nhân tạo là sự hiểu biết và phát triển liên tục của các hệ thống máy tính (Ảnh: Mediastandard)

    Còn theo Mediastandard, AI được chia làm ba loại gồm trí thông minh nhân tạo hẹp (ANI), trí thông minh phổ biến nhân tạo (AGI) và trí tuệ siêu nhân tạo (ASI).

    Những dự đoán về ứng dụng công nghệ AI trong nhiều lĩnh vực khác nhau, các nhà nghiên cứu, doanh nghiệp, khởi nghiệp và chính phủ có thể định hướng mục tiêu phát triển trong tương lai:


     Hỗ trợ hệ thống cổng thông tin chính phủ


    Công nghệ trí tuệ nhân tạo AI có thể là chìa khóa để tiến tới việc cải tiến cải cách hành chính hiệu quả, triệt để, giúp thay đổi đáng kế và giải quyết nhiều vấn đề bất cập hiện nay về quản lý và điều hành của các cơ quan quản lý nhà nước các cấp. Điển hình là việc ứng dụng AI vào hệ thống chatbot (trả lời tự động) và trợ lý ảo tại các trung tâm hành chính. Điều này cho phép người dân truy vấn thông tin nhận được câu trả lời nhanh chóng, hiệu quả cũng như ngăn chặn tình trạng xếp hàng, chờ đợi như trước kia.

    Với lượng dữ liệu khổng lồ lưu trữ trong cơ sở dữ liệu của chính phủ, AI có khả năng tổ chức và kết hợp nhiều bộ dữ liệu để rút ra thông tin, cũng như tóm tắt một loạt các dạng dữ liệu. Tuy nhiên để triển khai được tốt hiệu quả, vấn đề an ninh mạng và bảo mật thông tin cũng cần được hệ thống AI quan tâm và vá kín.


    Nhận dạng khuôn mặt


    Nhận diện khuôn mặt bằng AI là ứng dụng trí tuệ nhân tạo vào việc xác minh đặc tính gương mặt, máy tính tự động xác định, nhận dạng một người nào đó từ một bức hình ảnh kỹ thuật số hoặc một khung hình trong video. Nhận diện khuôn mặt bằng công nghệ AI thuộc một nhánh của thị giác máy tính, mà thị giác máy tính tốt hơn rất nhiều so với mắt thường của con người. Một trong những cách xác định là dựa vào những điểm nút của khuôn mặt. Công nghệ AI có thể đo tới 80 điểm nút (khoảng cách giữa các điểm trên một khuôn mặt giúp cơ chế nhận dạng khuôn mặt (FR) trở nên dễ dàng hơn.



    Công nghệ AI có thể nhận dạng với hơn 80 điểm nút giúp nhận dạng khuôn mặt được dễ dàng, nhanh chóng hơn (Ảnh Mediastandard)

    Với cơ chế FR, một mạng lưới dạng thần kinh được hình thành trong hệ thống bằng cách nhập dữ liệu để tạo nhận dạng mẫu và những dữ liệu này bao gồm hình ảnh khuôn mặt của hàng triệu người được tổng hợp từ nhiều nguồn khác nhau như mạng xã hội, trang web, camera giám sát có chức năng ghi nhận các ứng dụng khác có khai báo nhận dạng khuôn mặt…AI triển khai thuật toán lưu trữ khoảng cách các điểm nút trong cơ sở dữ liệu của nó, quét nhận dạng và khớp định danh cá nhân với dữ liệu đang có.

    Hiện nay ứng dụng này được tích hợp tại nhiều với các hệ thống giám sát như tại cổng chấm công của công ty, các hệ thống giám sát tại sân bay, ga tàu, nơi công cộng; nhận diện khuôn mặt trong hệ thống an ninh quốc gia; trong hệ thống bảo an ngân hàng, tòa nhà…


    Trong ngành vận tải


    Trí tuệ nhân tạo được ứng dụng trên những phương tiện vận tải tự lái, điển hình là ô tô. Sự ứng dụng này góp phần mang lại lợi ích kinh tế cao hơn nhờ khả năng cắt giảm chi phí cũng như hạn chế những tai nạn nguy hiểm đến tính mạng. Tuy nhiên việc ứng dụng này vẫn chưa được phổ biến vì vẫn trong giai đoạn thử nghiệm, nhưng với sự hỗ trợ của thuật toán Deep Learning (học sâu) với hàng hoạt các chức năng như nhận dạng và xử lý hình ảnh; nhận dạng và điều khiển bằng giọng nói, xử lý ngôn ngữ tự nhiên; phát hiện vật cản, giải quyết bài toán điều khiển thời gian thực (real time) và xây dựng được một cơ cở dữ liệu khổng lồ về hệ thống giao thông và các tình huống giao thông… thì ứng dụng này trong tương lai sẽ sớm được đưa vào sử dụng.



    Xe tự lái ứng dụng công nghệ AI học sâu (deep learning) (Ảnh minh họa)

    Xe tự lái sẽ an toàn và xử lý thông minh các tình huống vì chúng được tích hợp nhiều tính năng tự động, các bộ cảm biến xung quanh xe luôn được phát tín hiệu phủ đủ rộng và đủ xa để phát hiện vật cản giúp phát hiện nhanh chóng các chướng ngại vật, các camera nhận dạng các tín hiệu ảnh để phân tích xử lý kịp thời theo các thuật toán với dữ liệu có sẵn (biển báo, chỉ dẫn giao thông, theo dõi phương tiện, người đi đường…)


    Tương lai công nghệ AI


    Công nghệ AI đã mang lại thành công lớn trong các ngành công nghiệp khác nhau, tuy nhiên đỉnh cao phát triển của nó vẫn chưa đến. Năm 2016, thị trường toàn cầu của AI đạt trị giá 4 tỷ USD nhưng dự đoán sẽ lên tới 169 tỷ USD vào năm 2025 và 15.700 tỷ USD vào năm 2035. Với xu thế phát triển công nghệ và ứng dụng trong đời sống xã hội đang thay đổi không ngừng, công nghệ AI đang là điểm đến nhiều hơn nữa của đa số các nhà khoa học trong tương lai.

    AI tìm kiếm hàng nghìn tỷ virus trong cơ thể người

    Chương trình Hệ virus ở người sẽ phân tích mẫu vật từ hàng nghìn tình nguyện viên bằng hệ thống trí tuệ nhân tạo (AI) để tìm hiểu virus ảnh hưởng như thế nào tới sức khỏe con người.

    Chương trình Hệ virus ở người tìm cách nhận dạng những virus sống trong cơ thể người bằng AI.
    Ảnh: New Scientist

    Những virus chúng ta biết rõ nhất là virus khiến con người ốm, chẳng hạn như virus gây bệnh cúm và đậu mùa. Nhưng trong cơ thể người khỏe mạnh có vô số virus không gây bệnh cho con người. Các nhà khoa học ước tính có hàng chục nghìn tỷ virus sống trong cơ thể người, dù họ mới nhận dạng được một phần rất nhỏ. Đại đa số virus khá lành tính, thậm chí một số virus còn có lợi. Chúng ta không biết chắc về chúng bởi phần lớn hệ virus ở người vẫn là điều bí ẩn, theo New York Times.

    Năm nay, 5 trường đại học hợp tác trong công cuộc tìm kiếm chưa từng có để nhận dạng những virus này. Những nhà nghiên cứu sẽ thu thập nước bọt, mẫu phân, máu, sữa và nhiều mẫu vật khác từ hàng nghìn tình nguyện viên. Chương trình kéo dài 5 năm mang tên Hệ virus ở người với kinh phí 171 triệu USD từ chính quyền liên bang, sẽ kiểm tra mẫu vật bằng hệ thống trí tuệ nhân tạo (AI), hy vọng có thể tìm hiểu hệ virus tác động như thế nào tới sức khỏe con người, theo Frederic Bushman, nhà vi sinh vật học ở Đại học Pennsylvania, một trong những người chỉ đạo chương trình.

    Manh mối đầu tiên về hệ virus ở người xuất hiện cách đây hơn một thế kỷ. Trong khi phân tích mẫu vật phân, các nhà khoa học phát hiện virus mang tên thực khuẩn thể có thể lây nhiễm sang vi khuẩn bên trong ruột. Thực khuẩn thể cũng tồn tại ở miệng, phổi và da. Sau đó, giới khoa học nhận thấy virus lây nhiễm tế bào của chúng ta mà không gây ra bất kỳ triệu chứng lớn nào. Ví dụ, hầu hết dân số thế giới nhiễm cytomegalovirus (CMV), loài có thể sống trong mọi cơ quan.

    Đầu thập niên 2000, những phương pháp giải trình tự gene mới giúp các nhà khoa học tìm ra nhiều virus hơn trong nước bọt, máu và phân. Công nghệ cũng cho phép họ ước tính số lượng virus trong cơ thể người thông qua đếm bản sao gene của virus. Họ phát hiện mỗi gram phân chứa hàng tỷ thực khuẩn thể. Ruột mỗi người có thể chứa hàng trăm, thậm chí cả nghìn loài thực khuẩn thể. Nhưng khi các nhà sinh vật học kiểm tra từ người này tới người kia, họ nhận thấy nhiều loại virus ở một người vắng mặt ở người khác. Càng nghiên cứu nhiều người, họ càng phát hiện nhiều loài thực khuẩn thể hơn.

    Virus lây nhiễm sang tế bào người đa dạng ngoài dự kiến. Năm 1997, các nhà nghiên cứu Nhật Bản kiểm tra máu của một bệnh nhân và phát hiện họ virus hoàn toàn mới gọi là anellovirus. Năm ngoái, một nghiên cứu hé lộ có hơn 800 loài anellovirus, nâng tổng số các loài virus đã biết lên hơn 6.800.

    Vài nghiên cứu gần đây về hệ virus ở người dấy lên câu hỏi về cách định nghĩa virus. Một virus tiêu chuẩn bao gồm vỏ protein chứa gene mã hóa cả trong ADN xoắn kép và sợi ARN đơn. Nhưng giới khoa học nhận thấy cơ thể người cũng chứa các vòng ARN cực nhỏ trôi nổi tự do. Các nhà khoa học vẫn chưa biết nhiều về hệ virus ở người. Virus nhỏ đến mức chúng có thể lẩn trốn bên trong tế bào mà không bị phát hiện. Một số thậm chí có thể giấu gene của chúng vào ADN của tế bào chủ suốt nhiều năm trước khi nhân lên.

    Tiến sĩ Pardis Sabeti, nhà sinh vật học máy tính ở Trường y tế công cộng T.H. Chan thuộc Đại học Harvard và đồng nghiệp đang phát triển một hệ thống trí tuệ nhân tạo mà chương trình Hệ virus ở người sẽ triển khai nhằm phát hiện những đặc điểm gene của virus. Sau đó, các nhà nghiên cứu sẽ cố gắng xác định tất cả virus đó làm gì bên trong cơ thể người. Giới khoa học thường coi thực khuẩn thể như loài ăn vi khuẩn, giết chết chúng để tạo ra nhiều bản sao hơn. Nhưng thí nghiệm gần đây chỉ ra quan hệ phức tạp hơn nhiều. 'Chúng không chiến đấu tới chết mà có mối quan hệ cộng tác', Colin Hill, nhà vi sinh vật học ở trung tâm nghiên cứu APC Microbiome Ireland, cho biết.

    Ví dụ, trong cơ thể người, thực khuẩn thể thường không tiêu diệt vi khuẩn chủ. Vi khuẩn có thể hưởng lợi từ quan hệ với thực khuẩn thể, giúp loại bỏ gene khỏi vi khuẩn vật chủ, có thể tăng cường khả năng sống sót của chúng. Quan hệ hợp tác này có thể tốt sức khỏe con người. Nghiên cứu gần đây cho thấy thực khuẩn thể phân bố ở những gene tự vệ mà cơ thể có khả năng sử dụng để đẩy lùi mầm bệnh trên da.

    AI tạo sinh hình ảnh: Lý giải các công nghệ đứng sau

    Không chỉ giới hạn trong dữ liệu văn bản, Generative AI (AI tạo sinh) đang có những tiến bộ mạnh mẽ trong việc sáng tạo nội dung định dạng hình ảnh. Tiêu biểu, Dall-E 2 hay Midjourney không còn xa lạ với cộng đồng AI, cũng như giới thiết kế, mỹ thuật. Một số tác phẩm do AI tạo ra bất ngờ thu hút sự chú ý bởi tính chân thực và thẩm mỹ.

    Vậy làm thế nào AI tạo sinh có thể sáng tạo ra tranh ảnh? Đâu là những công nghệ đứng đằng sau mô hình này?

    Bài viết sẽ “bóc tách” một số công nghệ phổ biến nhất, từ đó mang đến cái nhìn tổng quan về cơ chế tạo sinh hình ảnh của AI.


    AI tạo sinh hình ảnh là gì?


    Trình tạo hình ảnh bằng AI (AI image generators) sử dụng mạng thần kinh nhân tạo được huấn luyện trước để tạo ra các hình ảnh mới. Những mô hình này có thể tạo ra hình ảnh nguyên bản, chân thực dựa trên văn bản đầu vào viết bằng ngôn ngữ tự nhiên. Điểm đáng chú ý là trình tạo ảnh có khả năng kết hợp các phong cách, khái niệm và thuộc tính để tạo ra hình ảnh có tính nghệ thuật và phù hợp với ngữ cảnh. Điều này được thực hiện thông qua Generative AI (AI tạo sinh), một tập hợp con của trí tuệ nhân tạo tập trung vào việc tạo nội dung.

    AI tạo sinh ảnh được đào tạo trên một lượng lớn dữ liệu hình ảnh và text. Thông qua quá trình đào tạo, model học hiểu các khía cạnh và đặc điểm khác nhau của hình ảnh trong bộ dữ liệu, tương ứng với nội dung mô tả. Kết quả, chúng có khả năng sáng tạo ra các hình ảnh mới với phong cách và nội dung theo yêu cầu nhờ những hiểu biết học được trong quá trình huấn luyện.

    Có rất nhiều trình tạo hình ảnh bằng AI, mỗi trình tạo hình ảnh đều có những tính năng riêng. Đáng chú ý trong số này là kỹ thuật neural style transfer, cho phép áp đặt phong cách của hình ảnh này lên hình ảnh khác; Generative Adversarial Networks (GAN), sử dụng bộ đôi mạng thần kinh để huấn luyện nhằm tạo ra hình ảnh đầu ra trông thật nhất có thể như các hình ảnh trong tập dữ liệu huấn luyện; và các mô hình diffusion, tạo ra hình ảnh thông qua một quá trình mô phỏng sự khuếch tán của các hạt, dần dần chuyển đổi nhiễu thành hình ảnh có cấu trúc.


    Các công nghệ đứng sau AI tạo sinh hình ảnh


    1. Xử lý ngôn ngữ tự nhiên

    Trình tạo hình ảnh AI hiểu prompt văn bản bằng cách sử dụng quy trình mã hóa dữ liệu văn bản sang ngôn ngữ máy tính — định dạng số hoặc nhúng. Quy trình này bắt đầu bằng mô hình Xử lý ngôn ngữ tự nhiên (NLP), chẳng hạn như mô hình Contrastive Language-Image Pre-training (CLIP) được sử dụng trong các mô hình phổ biến như DALL-E.

    Cơ chế này chuyển đổi văn bản đầu vào thành các vectơ để nắm bắt ý nghĩa và ngữ cảnh của văn bản. Mỗi giá trị thành phần trên vectơ đại diện cho một thuộc tính riêng biệt của văn bản đầu vào.

    Ví dụ với prompt “a red apple on a tree” được nhập vào trình tạo hình ảnh. Mô hình NLP mã hóa văn bản này thành định dạng số để nắm bắt các yếu tố khác nhau – “đỏ”, “quả táo” và “cây” – và mối quan hệ giữa chúng. Biểu diễn số này hoạt động như một bản đồ điều hướng cho trình tạo hình ảnh AI.

    Trong quá trình tạo hình ảnh, bản đồ này được khai thác để khám phá những trường hợp có khả năng cao nhất của hình ảnh cuối cùng. Nó đóng vai trò như một bộ quy tắc hướng dẫn AI về các thành phần trong hình ảnh và cách chúng tương tác. Trong trường hợp nhất định, trình tạo sẽ tạo một hình ảnh có một quả táo đỏ và một cái cây, định vị quả táo trên cây chứ không phải bên cạnh hoặc bên dưới nó.

    Sự chuyển đổi thông minh từ văn bản sang biểu diễn số và cuối cùng là hình ảnh cho phép trình tạo hình ảnh AI diễn giải và thể hiện trực quan các prompt văn bản.


    2. Generative Adversarial Networks (GAN)

    GAN là một lớp thuật toán học máy khai thác sức mạnh của hai mạng thần kinh đối nghịch – generator và discriminator. Thuật ngữ “đối nghịch” xuất phát từ khái niệm: các mạng này làm 2 nhiệm vụ trái ngược với nhau.

    Kiến trúc GAN. GAN bao gồm hai thành phần cốt lõi, được gọi là sub-models:

    • Generator tạo ra các mẫu giả. Nó lấy một vectơ đầu vào ngẫu nhiên — một tập hợp các giá trị bất kỳ — và sử dụng thông tin này để tạo dữ liệu đầu vào giả.
    • Discriminator hoạt động như một bộ phân loại nhị phân. Nó lấy một mẫu làm đầu vào và xác định xem nó là thật hay do generator tạo ra.

    Bản chất đối nghịch của GAN bắt nguồn từ lý thuyết trò chơi. Generator nhằm mục đích tạo ra các mẫu giả không thể phân biệt được với dữ liệu thực, trong khi Discriminator cố gắng xác định chính xác xem ảnh là thật hay giả. Quá trình này đảm bảo cả hai mạng đều liên tục học hỏi và cải thiện.

    Quá trình được coi là thành công khi generator tạo ra một hình ảnh thuyết phục không chỉ đánh lừa discriminator mà còn khiến con người khó phân biệt.


    3. Diffusion Models

    Diffusion Models là một loại mô hình tạo sinh trong học máy, có khả năng tạo ra dữ liệu mới, chẳng hạn như hình ảnh hoặc âm thanh, bằng cách bắt chước dữ liệu mà chúng đã được đào tạo. Với cách tiếp cận này, mô hình dần dần thêm nhiễu vào dữ liệu và sau đó học cách điều chỉnh để tái tạo lại dữ liệu chuẩn ban đầu.

    Diffusion Models chuyển đổi qua lại giữa dữ liệu và nhiễu. Nguồn Altexsoft

    Quy trình cụ thể bao gồm:

    • Forward diffusion. Ở giai đoạn này, mô hình bắt đầu với một phần dữ liệu gốc, chẳng hạn như hình ảnh và dần dần thêm nhiễu ngẫu nhiên thông qua một loạt các bước. Điều này được thực hiện thông qua Markov chain, trong đó tại mỗi bước, dữ liệu được thay đổi dựa trên trạng thái trước đó của nó. Nhiễu thêm vào được gọi là nhiễu Gaussian, đây là một loại nhiễu ngẫu nhiên phổ biến.
    • Training. Ở đây, mô hình học cách ước tính sự khác biệt giữa dữ liệu gốc và phiên bản nhiễu ở mỗi bước. 
    • Reverse diffusion. Sau khi mô hình được đào tạo, nó lấy dữ liệu nhiễu và cố gắng loại bỏ nhiễu để quay lại dữ liệu gốc. Bằng cách này, mô hình có thể tạo ra dữ liệu mới giống với dữ liệu gốc.
    • Tạo dữ liệu mới. Cuối cùng, mô hình có thể sử dụng những gì đã học được trong quá trình reverse diffusion để tạo ra dữ liệu mới. Ngoài ra, còn có prompt bằng văn bản hướng dẫn mô hình tạo ra hình ảnh phù hợp.

    4. Neural Style Transfer (NST)

    Neural Style Transfer (NST) là một ứng dụng học sâu kết hợp nội dung của một ảnh với phong cách của một ảnh khác để tạo ra dữ liệu hoàn toàn mới.

    Ở cấp độ cao, NST sử dụng mạng được đào tạo trước để phân tích hình ảnh, cùng một số phương pháp khác để lấy phong cách từ một ảnh và áp dụng cho ảnh khác. Điều này giúp hình ảnh mới được tạo ra tập hợp được các đặc điểm mong muốn.

    Quá trình NST bao gồm ba hình ảnh cốt lõi.

    • Hình ảnh nội dung – Đây là hình ảnh có nội dung muốn giữ lại.
    • Hình ảnh phong cách – Hình ảnh chứa phong cách muốn thể hiện.
    • Hình ảnh mới được tạo ra – Hình ảnh này được sáng tạo để kết hợp nội dung và phong cách định sẵn. 

    Về cơ chế của NST:

    • Content loss. Content loss là thước đo mức độ khác biệt về nội dung của hình ảnh được tạo so với nội dung của hình ảnh gốc. NST sử dụng nhiều lớp mạng thần kinh để nắm bắt các thành phần chính trong hình ảnh và đảm bảo các thành phần này xuất hiện trong hình ảnh mới.
    • Style loss. Style loss đo lường sự khác biệt về phong cách, ví dụ: các mẫu và họa tiết trong hình ảnh được tạo và hình ảnh gốc. NST cố gắng khớp các họa tiết và mẫu trên các lớp giữa hình ảnh gốc và hình ảnh được tạo.
    • Total loss. NST kết hợp content loss và style loss thành một thước đo duy nhất gọi là total loss. Ở đây, nếu mô hình tập trung quá nhiều vào nội dung phù hợp, thì có thể mất đi yếu tố phong cách và ngược lại. NST cho phép nhà phát triển cân nhắc mức độ quan tâm đến nội dung hay phong cách trong total loss. Sau đó, nó sử dụng thuật toán tối ưu hóa để thay đổi các pixel trong hình ảnh được tạo ra sao cho total loss là thấp nhất.

    Sau khi tối ưu hóa, hình ảnh được tạo sẽ lấy nội dung và phong cách từ các hình ảnh khác nhau.
    GAN, NST và Diffusion model chỉ là một số công nghệ tạo ảnh AI gần đây thu hút sự chú ý. Nhiều kỹ thuật phức tạp khác liên tục được phát triển, khi các nhà nghiên cứu không ngừng đào sâu năng lực của AI trong việc tạo ra hình ảnh.

    NBG HIGHTECH đối tác công nghệ tin cậy
    của các doanh doanh nghiệp, tổ chức dẫn đầu.

    0