유니티짱으로 배우는 예제

카메라만 있는 오토카는 순수 RL을 사용하여 운전하는 법을 배웁니다. 우리의 에이전트가 제대로 국가 공간을 탐구하기 위해, 우리는 엡실론 – 탐욕이라는 탐사의 형태를 활용합니다. 엡실론 욕심을 사용하려면 epsilon 값 θ를 1.0으로 설정하고 에이전트가 조치를 취할 때마다 소량으로 줄입니다. 에이전트가 작업을 선택하면 argmax(Q(q, a)), 탐욕스러운 액션을 선택하거나 확률 θ를 가진 임의의 작업을 수행합니다. 직관은 에이전트의 Q-value 추정치가 매우 나빠질 가능성이 높지만, 세상에 대해 배우고 θ가 감소함에 따라 Q 기능이 환경의 진정한 Q 기능과 우리가 취하는 행동에 서서히 더 많이 대응할 것이라는 것입니다. 사용하는 것이 점점 더 정확해질 것입니다. 외부로 설정된 뇌를 가진 모든 에이전트의 상태 및 관찰은 외부 커뮤니케이터에 의해 수집되며, 선택한 ML 라이브러리를 사용하여 처리하기 위해 Python API에 전달됩니다. 여러 에이전트를 단일 뇌에 설정하면 작업을 일괄 방식으로 결정할 수 있으며 지원되는 경우 병렬 계산의 이점을 얻을 수 있습니다. 이러한 오브젝트가 장면 내에서 함께 작동하는 방식에 대한 자세한 내용은 위키 페이지를 참조하십시오. 오토리 코하쿠(유니티 찬)는 2013년 12월 데뷔와 함께 보컬로이드 발표 전부터 기존의 3D 모델이자 캐릭터였다. 그녀는 유니티 테크놀로지스가 개발한 크로스 플랫폼 게임 엔진인 유니티의 마스코트로 일본 사업부를 위해 제작되었습니다. 그녀는 게이머와 인터랙티브 애플리케이션 작가들에게 인기를 끌었으며, 그녀의 캐릭터에 대한 에셋은 무료 다운로드로 제공되었습니다.

이로 인해 그녀는 다양한 개발자 프로젝트에 출연하게 되었습니다. 유니티 AI 블로그 시리즈의 두 번째 엔트리에 오신 것을 환영합니다! 이 게시물에 대 한, 우리가 마지막으로 중단 된 곳을 선택 하 고, 상황에 맞는 산적 문제를 가지고 하는 방법에 대 한 이야기, 그리고 전체 강화 학습 문제로 확장. 이 과정에서 특정 상황에서 특정 조치를 취하는 장기적 가치를 추정하는 학습된 Q 기능을 통해 작동하는 에이전트를 사용하는 방법을 설명합니다. 이 예제에서는 간단한 그리드월드와 테이블 형식의 Q 표현만 사용합니다. 다행히도, 이것은, 기본 아이디어는 거의 모든 게임에 적용됩니다. Q-러닝 데모를 사용해 보고 싶다면 링크를 따르십시오. Q-learning의 작동 방식에 대한 자세한 내용은 아래 텍스트로 계속 진행합니다. Unity ML 에이전트 툴킷을 사용하면 에이전트, 두뇌 및 보상이 어떻게 연결되는지에 따라 다양한 교육 시나리오가 가능합니다.

우리는 커뮤니티가 만드는 참신하고 재미있는 환경의 종류를보고 기쁘게 생각합니다. 지능형 에이전트를 교육하는 것을 새로 접하는 사람들을 위해, 아래는 영감으로 봉사 할 수있는 몇 가지 예입니다. 각각은 ML 에이전트 SDK를 사용하여 만들 수 있는 방법에 대한 설명이 있는 프로토타입 환경 구성입니다. 현재 Unity 개발자를 위한 차세대 머신 러닝 플랫폼을 구축할 뛰어난 엔지니어를 찾고 있습니다. 뛰어난 엔지니어 및 과학자 팀과 긴밀히 협력하여 기계 학습과 AI를 Unity와 전 세계 모든 사람들에게 일하게 할 것입니다. 산업 전반의 전문화를 위한 최신 학습 리소스를 통해 기술을 습득할 수 있습니다. Unity 전문가로부터 바로 답변, 피드백 및 지침을 받아보세요. 이 테니스 예제에서는 적대적인 셀프 플레이 보상 기능을 보여 주어집니다.

하나의 뇌에 연결된 역 보상 기능을 가진 두 개의 상호 작용 에이전트.

Previous post

계층분석 예제

Next post

자바 biginteger 예제

sovab-presse

sovab-presse