تبدیل یک عکس دوبعدی به صحنه سهبعدی در کمتر از یک ثانیه
در حالی که اپل در سالهای اخیر کمتر بهعنوان یک بازیگر جدی در حوزه هوش مصنوعی شناخته میشد، معرفی مدل جدید SHARP نشان میدهد این شرکت میتواند بهزودی جایگاه مهمی در تولید محتوای سهبعدی مبتنی بر AI به دست آورد. SHARP یک مدل آزمایشی هوش مصنوعی است که قادر است تنها با استفاده از یک تصویر دوبعدی، در کمتر از یک ثانیه یک صحنه سهبعدی قابل مشاهده تولید کند.
این فناوری که توسط تیم تحقیقاتی اپل توسعه یافته، تصاویر را به ساختاری به نام Gaussian Splatting تبدیل میکند؛ روشی نوین در نمایش صحنههای سهبعدی که بهجای استفاده از مشها و پلیگانهای سنتی، از میلیونها المان سهبعدی نیمهشفاف با اطلاعات دقیق موقعیت، رنگ، اندازه و شفافیت استفاده میکند. این روش امکان نمایش بسیار واقعگرایانه صحنهها را بهصورت بلادرنگ فراهم میسازد.

بازسازی سهبعدی تنها با یک تصویر
در اغلب روشهای فعلی بازسازی سهبعدی، نیاز به تعداد زیادی تصویر از زوایای مختلف یک محیط وجود دارد؛ گاهی دهها یا حتی صدها عکس. اما SHARP این روند را بهطور چشمگیری ساده کرده است. این مدل با تکیه بر آموزش گسترده روی دادههای واقعی و مصنوعی، میتواند تنها با یک عکس، عمق، مقیاس و هندسه صحنه را پیشبینی کند.
طبق توضیحات ارائهشده در مقاله پژوهشی اپل، این فرایند تنها با یک بار عبور داده از شبکه عصبی انجام میشود و روی یک GPU معمولی در کمتر از یک ثانیه به نتیجه میرسد. نکته قابلتوجه این است که خروجی SHARP دارای مقیاس واقعی (Metric) است؛ به این معنا که فاصلهها و اندازهها در دنیای واقعی حفظ میشوند و امکان حرکت دوربین با دقت فیزیکی وجود دارد.
تمرکز بر تجربه فضایی و Vision Pro
صحنههای تولیدشده توسط SHARP برای مشاهده در هدست Apple Vision Pro بهینهسازی شدهاند. این موضوع باعث شده بسیاری از تحلیلگران، SHARP را بخشی از استراتژی بلندمدت اپل در توسعه تجربههای فضایی و واقعیت ترکیبی بدانند. ترکیب سختافزار قدرتمند، نمایشگر فضایی و مدلهای هوش مصنوعی، میتواند اپل را به یکی از پیشگامان گردشکارهای سهبعدی مبتنی بر AI تبدیل کند.

محدودیتها و چالشها
با وجود پیشرفت چشمگیر، SHARP هنوز یک مدل بینقص نیست. این سیستم تنها میتواند نماهایی را با دقت بالا بازسازی کند که به زاویه دید اولیه نزدیک باشند و بخشهایی از صحنه که در تصویر اصلی دیده نمیشوند، بهطور کامل قابل بازسازی نیستند. به همین دلیل، کاربر نمیتواند آزادانه در تمام فضای صحنه حرکت کند و خروجی بیشتر برای نماهای محدود طراحی شده است.
انتشار عمومی و واکنشها
کد منبع SHARP بهصورت عمومی روی GitHub منتشر شده و توسعهدهندگان و هنرمندان بسیاری در روزهای اخیر آن را آزمایش کردهاند. برخی کاربران حتی خروجیهای Gaussian Splat تولیدشده را وارد موتورهای رندر حرفهای کرده و نتایج واقعگرایانهای بهدست آوردهاند که توجه جامعه CG و VFX را به خود جلب کرده است.
آینده تولید محتوای سهبعدی با هوش مصنوعی
در مجموع، SHARP نشان میدهد اپل برخلاف تصور عمومی، بیسروصدا اما جدی وارد رقابت هوش مصنوعی سهبعدی شده است. اگر این فناوری از مرحله آزمایشگاهی به ابزارهای مصرفی و حرفهای راه پیدا کند، میتواند مسیر تولید محیطهای سهبعدی، دیجیتالتوئینها، واقعیت مجازی و طراحی مفهومی را بهشکل قابلتوجهی تغییر دهد.

