DALL·E 2 কি? উদাহরণ সহ নতুনদের জন্য ব্যাখ্যা

Cto Takoe Dall E 2 Ob Asnenie Dla Nacinausih S Primerami



DALL·E 2 কি?

DALL·E 2 হল একটি কৃত্রিম বুদ্ধিমত্তা প্রোগ্রাম যা পাঠ্য বিবরণ থেকে চিত্র তৈরি করে, বৃহস্পতিবার OpenAI, একটি গবেষণা সংস্থা প্রকাশ করেছে৷





এটি প্রাকৃতিক ভাষা ইনপুট ব্যাখ্যা করতে এবং সংশ্লিষ্ট ছবি তৈরি করতে GPT-3 ট্রান্সফরমার মডেলের 12-বিলিয়ন প্যারামিটার প্রশিক্ষণ সংস্করণ ব্যবহার করে। উদাহরণস্বরূপ, 'একটি ছোট কুকুরের একটি কালো এবং সাদা ছবি' বাক্যটি প্রদান করা হলে, এটি একটি চিহুয়াহুয়ার একটি সঠিকভাবে কালো এবং সাদা চিত্র তৈরি করে।





সিস্টেমটি নিখুঁত নয় - এটি কখনও কখনও এমন চিত্র তৈরি করে যা ব্যাখ্যা করা কঠিন, বা সম্পূর্ণরূপে চিহ্নের বাইরে। উদাহরণস্বরূপ, যখন 'একজন ব্যক্তি আগ্নেয়গিরির উপরে একটি টাইটরোপে ইউনিসাইকেল চালাচ্ছেন'-এর একটি চিত্র তৈরি করতে বলা হয়েছিল, তখন এটি একটি (সুন্দর, আমার মতে) তবে সামনের অংশে একটি ছোট চিত্র সহ জলের উপর একটি সূর্যাস্তের সম্পূর্ণ সম্পর্কহীন চিত্র তৈরি করেছিল .





তবুও, ফলাফলগুলি চিত্তাকর্ষক, এবং OpenAI বলে যে DALL·E 2 'প্রথম এআই মডেল যা পাঠ্য বর্ণনা থেকে চিত্র তৈরি করে যা পেশাদার মানব শিল্পীদের গুণমানের সাথে প্রতিদ্বন্দ্বিতা করতে পারে।'



সিস্টেমটিকে টেক্সট-ইমেজ জোড়ার একটি ডেটাসেটের উপর প্রশিক্ষণ দেওয়া হয়েছিল, যার মধ্যে ইন্টারনেট থেকে প্রায় 1.3 মিলিয়ন ছবি এবং ক্যাপশন রয়েছে যা OpenAI দ্বারা স্ক্র্যাপ এবং কিউরেট করা হয়েছিল। প্রশিক্ষণের ডেটা তখন GPT-3 মডেলকে সূক্ষ্ম-সুর করার জন্য ব্যবহার করা হয়েছিল যাতে এটি পাঠ্য বিবরণ থেকে চিত্র তৈরি করতে পারে।

OpenAI বলে যে সিস্টেমটি বিস্তৃত পাঠ্য বর্ণনা থেকে 'উচ্চ মানের' ছবি তৈরি করতে পারে, যার মধ্যে বিমূর্ত, কংক্রিট বা এমনকি কাব্যিকও রয়েছে।

চিহুয়াহুয়া উদাহরণ ছাড়াও, DALL·E 2 দ্বারা উত্পাদিত চিত্রগুলির অন্যান্য উদাহরণগুলির মধ্যে রয়েছে অ্যাডলফ হিটলারের একটি সঠিকভাবে রেন্ডার করা প্রতিকৃতি, সবজি দিয়ে তৈরি ড্রাগনের একটি চিত্র এবং টোস্টের তৈরি মোনা লিসার একটি চিত্র।



সিস্টেমটি এমন জিনিসগুলির চিত্রও তৈরি করতে সক্ষম যা বিদ্যমান নেই, যেমন একটি 'ফ্লুফ' (একটি তৈরি প্রাণী) বা 'তুলপা' (একটি চিন্তাভাবনা)।

সামগ্রিকভাবে, ফলাফলগুলি চিত্তাকর্ষক, এবং OpenAI বলে যে সিস্টেমটি 'পাঠ্য বিবরণ থেকে চিত্র তৈরি করার জন্য নতুন সম্ভাবনার দ্বার উন্মুক্ত করে।'

ই 2 থেকে এই CLIP-সিস্টেম পাঠ্য তথ্যকে ভিজ্যুয়াল তথ্যে রূপান্তর করে। এটি একটি এনকোডার-ডিকোডার দৃষ্টান্ত, যার অর্থ হল যখন ইনপুট পাঠ্য প্রদান করা হয়, এটি প্রথমে মেশিন ইনপুটে রূপান্তরিত হয়, তারপর সিস্টেম দ্বারা প্রক্রিয়া করা হয় এবং অবশেষে ডিকোডারে প্রেরণ করা হয়, যা এনকোড করা ডেটাকে একটি ছবিতে রূপান্তর করে।

DALL E 2 কি

DALL·E 2 কি?

এটি DALL·E এর সর্বশেষ প্রজন্ম, একটি জেনারেটিভ ল্যাঙ্গুয়েজ মডেল যা সম্পূর্ণ নতুন ভিজ্যুয়াল এফেক্ট তৈরি করতে বাক্যাংশ ব্যবহার করে। DALL E 2 একটি বিশাল 3.5V মডেল, যদিও GPT-3 এর মত বিশাল নয়। মজার বিষয় হল, এটি তার পূর্বসূরীর (12B) থেকেও হালকা। বর্ণনার সারিবদ্ধতা এবং ফটোরিয়ালিজমের পরিপ্রেক্ষিতে, DALL·E 2 এর আকার বড় হওয়া সত্ত্বেও DALL·E 2 এর থেকে 70% ভালো।

DALL.E 2- উদাহরণ সহ নতুনদের জন্য ব্যাখ্যা

বিশেষভাবে, DALL·E 2 হল একটি শ্রেণিবদ্ধ শর্তসাপেক্ষ টেক্সট ইমেজ সংশ্লেষণ মডেল যা ইমেজ তৈরির জন্য কম্পিউটার ভিশনের সাথে প্রাকৃতিক ভাষা প্রক্রিয়াকরণের জন্য গভীর শিক্ষাকে একত্রিত করে। এর লক্ষ্য হল দুটি মডেলকে প্রশিক্ষণ দেওয়া, এবং প্রশিক্ষণ সেটে জোড়া ছবি এবং বর্ণনা রয়েছে। প্রথমটি একটি অগ্রাধিকার যা, একটি লিখিত শিরোনাম দেওয়া হলে, একটি CLIP ইমেজ এম্বেড তৈরি করতে প্রশিক্ষণ দেওয়া যেতে পারে। তারপরে আমাদের কাছে একটি ডিকোডার রয়েছে যা একটি CLIP চিত্রকে এম্বেড করার সময় (এবং ক্যাপশন, যদি উপস্থিত থাকে), একটি প্রশিক্ষিত চিত্র তৈরি করতে পারে।

DALLE 2 ইন্টারনেট থেকে ক্যাপশন সহ কয়েক মিলিয়ন ফটো ব্যবহার করে প্রশিক্ষিত হয়, এবং মডেলটি যা শিখে তা পরিবর্তন করতে সেই চিত্রগুলির মধ্যে কিছু মুছে ফেলা হয় এবং রদবদল করা হয়৷ এটি একাধিক চিত্র বিকল্প পুনরুদ্ধার করে CLIP সংযুক্তি এবং তারপর এটি ব্যবহার করুন ডিকোডার তাদের প্রতিটি মাধ্যমে যান. এটি তখন ব্যবহারকারীর ইনপুট দেওয়া সমস্ত তথ্যের একটি আকর্ষণীয় মিশ্রণ তৈরি করে।

উদাহরণ DALL IS 2

DALL·E বোঝার জন্য আসুন একটু খেলা করি। আসুন এটিকে পরবর্তী তিনটি ধাপে ভাগ করা যাক।

  1. নীল আকাশে রংধনু, মেঘ এবং ইউনিকর্নের উড়ন্ত কল্পনা করুন। আপনার কল্পনায় একটি ছবি কেমন হতে পারে তা কল্পনা করুন। মানুষ হল একটি ইমেজ এম্বেডের নিখুঁত এনালগের সবচেয়ে কাছের জিনিস, এবং যে ছবিটি আপনার মাথায় উঠে এসেছে সেটি তার একটি নিখুঁত উদাহরণ। আপনি শুধুমাত্র চূড়ান্ত পণ্য সম্পর্কে অনুমান করতে পারেন, কিন্তু আপনি কি অন্তর্ভুক্ত করা উচিত একটি ভাল ধারণা আছে. একটি অগ্রাধিকার মডেল পাঠককে একটি শব্দগুচ্ছের শব্দ থেকে তার কল্পনার দৃশ্যে নিয়ে যায়।
  2. এখন আপনি অঙ্কন শুরু করতে পারেন. unCLIP যা করে তা হল আপনার মানসিক ছবিকে একটি বাস্তব স্কেচে রূপান্তর করা। এখন আপনি সঠিকভাবে একই বর্ণনা থেকে অন্য একটি অক্ষর তৈরি করতে পারেন, একই মৌলিক পরিসংখ্যান দিয়ে, কিন্তু সম্পূর্ণ নতুন ভিজ্যুয়াল শৈলীর সাথে। DALL·E 2 এইভাবে এমবেড করা বিদ্যমান ইমেজ থেকে অনন্য ছবিও তৈরি করতে পারে।
  3. আপনার তৈরি স্কেচ মনোযোগ দিন. আপনি যখন 'মেঘের মাঝখানে একটি ইউনিকর্ন, এবং একটি রংধনু আকাশের বিপরীতে ওঠে' বর্ণনাটি স্কেচ করেন তখন এটি ঘটে। এখন ইমেজ এবং টেক্সট পরীক্ষা করে নির্ণয় করুন যে অন্য কোনটি (সূর্য, বাড়ি, গাছ, ইত্যাদি) সবচেয়ে ভাল চিত্রিত করে এবং কোনটি বিষয়বস্তু, শৈলী, রঙ ইত্যাদিকে সবচেয়ে ভালোভাবে চিত্রিত করে। CLIP যা করে তা হল এনকোড বৈশিষ্ট্য। পাঠ্য এবং ছবি।

এখন যেহেতু আমরা জানি DALL-E কী, চলুন পরবর্তী বিভাগে যাওয়া যাক এবং এর বৈশিষ্ট্যগুলি বুঝুন।

পরামর্শ: কিভাবে DALL-E-2 AI পরিষেবা দিয়ে বাস্তবসম্মত ছবি তৈরি করা যায়

বৈশিষ্ট্য DALL E 2

নিচে DALL·E 2 এর স্পেসিফিকেশন রয়েছে।

  1. বৈচিত্র
  2. রং করা
  3. পাঠ্য পার্থক্য

আসুন তাদের সম্পর্কে বিস্তারিত কথা বলি।

এসএসডি বনাম হাইব্রিড

1] বৈচিত্র

DALL·E 2 শুধু একটি বাক্যকে একটি ছবিতে অনুবাদ করার বাইরে চলে যায়। ওপেনএআই জেনারেটিভ প্রক্রিয়ার সাথে পরীক্ষা করতে পারে, শক্তিশালী CLIP এম্বেডিংয়ের জন্য প্রদত্ত স্বাক্ষরের জন্য বিভিন্ন ফলাফল তৈরি করে। CLIP এর 'মনে' যা 'দেখেছে' তা হল ইনপুট থেকে যা গুরুত্বপূর্ণ বলে মনে করে (সব ছবির জন্য একই থাকে) এবং কী প্রতিস্থাপন করা যেতে পারে (যা বিভিন্ন ছবির জন্য পরিবর্তিত হয়)। যখনই সম্ভব, DALL·E 2 'অর্থপূর্ণ তথ্য...এবং নান্দনিক দিক' উভয়ই ধরে রাখবে।

2] রঙ

DALL·E 2 স্বয়ংক্রিয় ফিল সহ বিদ্যমান ফটোগুলিকে সংশোধন করতে পারে। নিম্নলিখিত উদাহরণে, বাম চিত্রটি আসল চিত্র, এবং কেন্দ্রে এবং ডানদিকের ফটোতে বিভিন্ন স্থানে এলিমেন্ট আঁকা রয়েছে। DALL·E 2 ছবির শৈলীর সাথে একটি অতিরিক্ত উপাদানের সাথে মেলে। এটি নতুন উপাদান প্রতিফলিত করার জন্য টেক্সচার এবং প্রতিফলন আপডেট করে।

পড়ুন : আপনি ChatGPT দিয়ে কি করতে পারেন

3] পাঠ্য পার্থক্য

DALL·E 2 টেক্সট পার্থক্য ব্যবহার করে ছবি রূপান্তর করে। DALL·E 2-এও উন্নত ইন্টারপোলেশন ক্ষমতা রয়েছে যা আপনাকে বস্তু পরিবর্তন করতে দেয়। একজন টুইটার ব্যবহারকারী তার আইফোনকে 'আনমর্ডেনাইজ' করতে সক্ষম হয়েছেন। twitter.com এটা পরীক্ষা করতে

আপনি যদি এই বৈশিষ্ট্যগুলি পছন্দ করেন তবে আপনাকে যা করতে হবে তা হল openai.com এবং তারপর নিবন্ধন করুন। আপনি একটি নতুন অ্যাকাউন্ট তৈরি করতে পারেন বা সাইন আপ করতে আপনার বিদ্যমান Microsoft বা Google অ্যাকাউন্টগুলি ব্যবহার করতে পারেন৷ একবার আপনি এটি করলে, আপনি কিছু বিনামূল্যের ক্রেডিট পাবেন, যদি আপনি আরও চান তবে আপনাকে এটির জন্য অর্থ প্রদান করতে হবে।

এগুলি হল DALL·E 2 এর কিছু বৈশিষ্ট্য, এটির অনেকগুলি দুর্দান্ত ব্যবহারের ক্ষেত্রে রয়েছে, তবে AI সরঞ্জামগুলির উপর খুব বেশি নির্ভর না করার পরামর্শ দেওয়া হয়। সর্বোপরি, তারা কাজটি সম্পন্ন করার জন্য ব্যবহৃত সরঞ্জাম ছাড়া কিছুই নয়, তারা কখনই একজন ব্যক্তির মানসিক বুদ্ধি প্রতিস্থাপন করতে পারে না।

এছাড়াও পড়ুন: সেরা ডিপফেক অ্যাপস, সফটওয়্যার এবং ওয়েবসাইট।

DALL E 2 কি
জনপ্রিয় পোস্ট